CA88

家庭主妇的快乐我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，了局出乎意料

2026-06-08 05:18:21 起源：李垚

字号：默认大超大 | 打印 |

2025年上半年，AI开源领域的较量异常强烈，重要萦绕着几个主题方向发展：首先是效能较量，各路玩家不再单纯钻营千亿、万亿参数的“巨无霸”模型，而是更专一于通过新架构和训练步骤，用更幼的参数实现更强的机能。其次，多模态已成标配，纯文本模型越来越少，新颁布的旗舰模型险些都具备了处置图像、视频等多种信息的能力。最后，智能体（Agent）是新战场，让AI可能挪用工具、自主实现工作，成为了衡量模型能力的关键指标。在这样的布景下，智谱AI在今天正式开源了其最新的多模态模型：GLM-4.1V-9B-Thinking。 GLM-4.1V-9B-Thinking只有9B参数，但在18个测试中，阐发却能吃旖甚至超过72B参数的Qwen-2.5-VL-72B。更沉要的是，它引入的“思虑范式”，通过课程采样强化进建 RLCS（Reinforcement Learning with Curriculum Sampling）全面提升模型能力，让我们能清澈地看到AI若何对复杂的视觉信息进行推理，而不仅仅是给出一个“黑河妆式的答案。视觉编码器用的是AIMv2-Huge，这是个很强的视觉模型。但智谱做了个沉要扭转：把传统的2D卷积换成了3D卷积，这样做的益处是能更好地处置视频，由于多了功夫维度。对于静态图片，就通过复造帧的方式维持体式一致。而后是地位编码的改进。智谱参与了2D-RoPE（二维旋转地位编码），让模型能处置各类奇怪尺寸的图片。什么概想？宽高比超过200:1的图片都能处置，4K分辨率也没问题。同时还保留了原来ViT的地位嵌入，通过双三次插值动态适配分歧分辨率。中央的适配器是个MLP结构，重要掌管把视觉信息和说话信息衔接起来。这部门看起来单一，但很关键，决定了视觉和说话信息能不能有效融合。说话解码器用的是GLM架构，也做了改进。原来的RoPE地位编码被扩大成了3D-RoPE，加强了对多模态输入的空间理解能力，同时维持文本天生的原有机能。整个架构的奇妙之处在于，每个组件都不是单一拼接，而是深度融合。视觉信息经过编码后，通过适配器与说话模型深度整合，最后输出的不只是答案，还有齐全的推理过程。训练过程也很有讲求。分三个阶段：预训练、监督微调（SFT）和课程采样强化进建（RLCS）。预训练阶段又分为多模态预训练和长高低文持续训练；而后是监督微调，专门用高质量的CoT（思想链）数据来训练推理能力；最后是课程采样强化进建，通过RLVR和RLHF两种步骤全面优化机能，通过课程采样，在这些工作上发展由易而难的动态大规模强化进建训练，模型在实用性、正确性和稳重性等方面获得了显著提升。模型的思虑过程极度详尽，它首先分析了“正四棱柱”的几何个性，鉴别出底面是正方形，侧棱与底面垂直。甚至思考了用空间坐标下反解题的可能性，但最终选择了更简洁的几何法。光会做数学题还不够，我们想看看GLM-4.1V-9B-Thinking在生涯场景里的阐发，因而给它发了一段最近在尝试的家常菜“农家一锅香”的烹饪教程视频。有意思的是，模型似乎露出了它处置视频的可能方式。在回覆中能够观察到它引用了多个“页面”或帧作为分析参考，这些页面的序号和视频的秒数相对应，可能是将视坡讽解为一系列按功夫挨次分列的关键帧截图。它能精准地定位到第27秒对应的截图，并描述出其时的作为是“用勺子打出有余的油脂”。更锦上添花的是，它还自动诠氏缢这么做的主张——是为了“削减油腻赣妆，而这正是我们筹备追问的下一个问题。回覆如下：这张图是一个网络迷因（meme），用来表白**情侣关系中因对电子设备文件的理解差距而产生的幼误会与不信赖感**，具体寓意可拆解为：文字注明：“When she sees a folder named "models" in your personal laptop and all it contains some file ending with .pkl, .pt or .pth” 意思是 *当她看到你幼我笔记本电脑里有个接装models”的文件夹，里面满是带 .pkl、.pt 或 .pth 后缀的文件时*。图像场景：画面中女性（通常代表女友/老婆视角）面露疑惑、忧郁，手持手机（可能是在质问或观察）；男性（代表伴侣）在浴室（可能刚实现独处功夫后回到空间），整体氛围泄漏出“她对你电脑里的‘models’文件夹存有疑虑”，而现实上：这些文件扩大名（`.pkl`、`.pt`、`.pth`）常见于机械进建/人为智能领域（`.pkl` 是 Python 的序列化体式，`.pt` 和 `.pth` 多是 PyTorch/TensorFlow 等框架下的模型权沉文件），属于技术开发资料；但“models”字面庞易让人误以为是“模特照片”等非技术关联的内容，导致情侣间对文件夹用处产生**认知误差**——女方可能感触这是和“表部女性/不适当内容”有关的证据，进而阐发出不信赖、焦虑的感情。简言之，这张图滑稽地展示了“由于行业术语/文件定名歧义，导致亲切关系中出现幼误会，一方对另一方隐衷/设备内容产生猜忌”的场景，常用于调侃“法式员/科技从业者伴侣被质疑电脑内容”的共识感~ 能够看到，模型诠氏缢所有的事实，但没能点出这个梗的主题——那种由信息差造成的、法式员“有苦说不出”的巨大感情反差。不外凭借9B的参数能做到这一步，已经相当不错了。最后，为了测试GLM-4.1V-9B-Thinking的逻辑与创意融合能力，我们选择了一个更具挑战性的工作，让它解读世界名画《阿尔诺芬尼伉俪像》，并仿照其风格创作一段贸易案牍。了局也相当杰出。模型不仅正确解读了画作的庄沉氛围和镜子、绿色长裙等元素的象征意思，还能将这种“注沉传承和左券”的感触，奇妙地迁徙到了为“传世信陀妆撰写的宣传案牍中。从分析画作细节，到提炼“见证”与“永恒”等关键词，再到将其利用在案牍创作的齐全逻辑链条，迫使模型险些挪用了从知识库、逻辑链到说话美学的全数能力，这项工作的耗时也最长（耗时22597ms）。这是一个相当亮眼的成就。具体来看，在28项公开评测工作中，它有23项做到了同级别最佳。更值妥贴心的是，其中有18项工作的阐发，吃旖甚至超过了参数量是它8倍的Qwen-2.5-VL-72B模型。这意味着模型在“参数效能”（即用更幼的模型尺寸达到更高的机能）上做得极度杰出。在科学、技术、工程、数学（STEM）领域阐发凸起。在MMMU、MathVista、AI2D等多个必要严谨数理逻辑和科学知识的测试中，它的得分都超过了参数量弘远于它的敌手。在必要精密理解的工作上优势显著。例如，在必要鉴别图表内容的ChartQA、ChartMuseum，以及处置长文档的MMMLongBench-Doc评测上，它的得分都大幅当吓宗同级此外其他模型。在新兴的Agent和代码能力上很强。出格是在GUI Agent（图形界面代理）和Coding（代码天生）这两个考验模型与数字世界深度交互能力的领域，它的提升尤其显著。能够看到，在经过SFT（监督微调）的基础上，再参与RL训练后，模型在GUI Agents、视坡讽解、STEM等多个维度上都有了5%到7%不等的显著增长。这从数据上直观地证了然其训练步骤的有效性，也诠氏缢为什么它能达到如此高的机能水平。总的来说，这些量化数据印证了我们在第一部门提到的概想，不是靠堆参数，而是靠精彩的架构设计和训练战术，让模型阐扬出了远超参数规模的能力。从技术角度看，9B参数能达到72B参数的成效，这对整个行业都有启发意思。不是所有公司都能职守得起训练超大模型的成本，但若是能通过更好的架构和训练步骤达到同样成效，那门槛就降低了好多。这种全面的能力，也正好符合了当前AI发展的一个主题趋向：自主智能体（Autonomous Agents）。GLM-4.1V-Thinking所具备的GUI Agent能力，让它有潜力成为这一趋向下的关键赋能工具，在未来的企业自动化和数字化转型中阐扬作用。而凭据官方信息，这次颁布的9B模型只是一个起头，更大参数的版本也已“蓄势待发”。这种持续投入开源的战术，也获得了本钱市场的强力背书，就在7月2日，智谱颁发已获得来自浦东创投和张江集团的10亿元战术投资。这笔资金将为其后续大模型的研发和开源生态的构建提供坚实保险。总之，GLM-4.1V-Thinking的颁布，值得关注的不只是它在评测数据上的优异阐发。更沉要的是，它向我们展示了一种可能性，通过让AI的思虑过程变得通明，并赋予其处置多样化工作的全栈能力，AI在从一个单纯回覆问题的“工具”，向一个能理解、规划并执行工作的“智能副手”迈进。

家庭主妇的快乐

                                家庭主妇的快乐他还提到，AI 成本问题是突然浮出水面的。2026年初，“没人在意开销问题，大家对当时的消耗额度完全满意”。但现如今，AI 使用成本已经成了亟待解决的重大难题。我还会继续判断。因为我也不想太早把自己限制住。万一之后出现一点伤病隐患，或者某名球员身体带着问题，自己也没有足够信心，那都会让我很困扰。所以，我们永远会在最后阶段再做决定。但我想，我心里已经有一个比较清楚的范围，大概有14到15名球员可以为我们首发，也应该具备首发能力，并且能够扛起这支球队。我们会一直在这个范围里做选择。家庭主妇的快乐《《叨教教我吧藤先生》漫画下拉式》6月6日凌晨，法网男单半决赛的焦点战，意大利内战，阿纳尔迪对阵科博利。赛前，阿纳尔迪宣布退赛，原因是感染病毒。这样，科博利收到退赛大礼，晋级决赛，将与兹维列夫争冠！大家回忆一下以前是怎么用 AI 的：打开对话框，提问，等待回答，最后关掉。人是发起者，AI 是应答者，一切围绕单次交互进行。智能体的出现改变了这套逻辑，它们要在后台持续运行，理解日程、任务、环境、位置、设备状态等上下文，并针对实时指令进行反馈。这些对本地传感器、低功耗计算和隐私保护提出了更高要求。
                            

                                20260608 ? 家庭主妇的快乐门将位置正是阿贾克斯需要补强的位置之一，特尔施特根的名字因此出现。据多家当地媒体报道，这位巴萨门将是阿姆斯特丹俱乐部技术部门考虑的人选之一。他的经验、领导力和脚下技术都非常契合阿贾克斯的足球理念，也符合米歇尔的风格。米歇尔会很愿意与这位1月被他带到赫罗纳的门将重聚。《水深火热幼说BY幼花喵》意甲官方已经公布了2026/27赛季的联赛赛程，其中尤文图斯会在第3轮主场迎战米兰，第19轮则会进行客场挑战国际米兰的意大利国家德比。
                            

家庭主妇的快乐

? 李保安记者冯伟摄

                                20260608 ? 家庭主妇的快乐苹果刻意只提供有限的颜色选择，原因可能在于产品本身的制造难度。供应链分析师郭明錤曾警告称，苹果早期会面临生产良率和产能爬坡问题，导致这款手机的供不应求状况至少持续到 2026 年底。他还指出，外界提到的 1500 万-2000 万台销量预测，更可能是 2-3 年产品生命周期的累计需求。善良的女秘书世界排名第82位的海地在国际足联排名中只比新西兰高3位。海地将时隔52年重返世界杯，与苏格兰、巴西和摩洛哥同组。新西兰被分在G组，同组对手包括伊朗、埃及和比利时。
                            

家庭主妇的快乐

? 滕高伟记者付国东摄

                            ? 2月底，美以对伊朗发动军事打击。目前战事已从大规模轰炸进入脆弱的停火阶段，美伊正在激烈争夺霍尔木兹海峡的控制权。在伊朗核计划问题上，美伊的立场依然相去甚远。近几日，由于美国对伊朗及其港口实施封锁，小规模冲突再度升温。姑父帐中欢by陆缙全文阅读百度云
                        

【我要推荐】更多推荐：当Token飙到天文数字，高通用「推算陆续体」沉搭智能体新基建

扫一扫在手机打开当前页

链接：
全国人大
|
全国政协
|
国度监察委员会
|
最高人民法院
|
最高人民检察院

国务院部门网站
|
处所当局网站
|
驻港澳机构网站
|
驻表机构

red

中国当局网 | 关于本网 | 网站申明 | 联系CA88 | 网站纠错

主办单元：家庭主妇的快乐　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452　京ICP备05070218号　 2018guohui03 京公网安备11010202000001号

CA88(中国区)唯一官方网站

国务院客户端

CA88(中国区)唯一官方网站

国务院客户端幼法式

中国当局网微博、微信

gtrs_red

主办单元：中国当局网　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】