CA88

《《玉壶吟》BY流兮冉》Meta蔡志鹏新作VLM?：全面揭示三维视觉的Bitter Lesson

2026-06-09 19:09:49 起源：傅春华

字号：默认大超大 | 打印 |

蔡志鹏博士（https://zhipengcai.github.io/）是美国 Meta 公司的高级钻研员，博士毕业于澳大利亚阿德莱德大学。他的钻研重要集中在 Physical Intelligence，蕴含三维视觉、多模态大模型等。他的工作已在领域顶级会议杂志上颁发超过 20 篇。其中 10 篇文章被选为顶级会议口头或特邀汇报，对鲁棒估计推算复杂度的理论证明工作被选为 ECCV18 12 篇最佳论文之一。 Meta 颁布了一项令人震撼的钻研工作 VLM?，初次揭示了三维视觉进建的 Bitter Lesson：尺度的视觉说话模型 + scale 数据就是最单一有效的范式，针对特定工作的架构、损失函数以及数据加强的设计，甚至是 regression 的 formulation，均不是三维视觉进建的必要前提。当前的视觉说话 AI 模型（Vision Language Models, VLMs）通过统一的模型架构可能矫捷处置各类分歧的视觉工作。然而，只管在语义理解、视觉问答、图像指令等工作上阐发优异，它们在三维视觉方面依然阐发欠安。相比之下，专家视觉模型（expert vision models）在绝对深度估计（metric depth estimation）等三维理解工作上，凭借专门设计的网络结构、损失函数及数据加强，已经达到了超过人类的精度。这就带来了一个主题问题：「视觉说话模型是否在三维视觉进建方面无法代替专家模型？」VLM? 初次证了然该问题的答案是否定的！ VLM? 通过极简的设计，在极为多样的三维视觉工作中媲美或超过专家视觉模型，并大幅超过最先进的视觉说话模型：1）在单目深度估计上 match UnidepthV2 及 MoGe2；2）在指标级三维理解工作上超过 SpatialRGPT；3）在像素匹配工作上超过 DKM 和 RoMa；4）在相机姿势估计上 match DA3，超过 VGGT。 VLM? 通过详尽的尝试发现，尺度的 VLM 仅必要 1）相机焦距归一化；2）像素空间归一化，就可能以令人惊叹的简洁方式有效学会各类三维视觉模型，在 1）单目深度估计中 match UniDepthV2 及 MoGe2；2）在指标级别三维理解超过 SpatialRGPT；3）在像素匹配工作上超过 DKM 和 RoMa；4）在相机姿势估计上 match DA3 并超过 VGGT。和之前的三维视觉 VLM 分歧，VLM? 既不必要扭转 VLM 的架构，也不必要在图片上渲染 marker。相迸宗专家视觉模型必要大量的架构、损失函数及数据加强方面的复杂设计，VLM? 仅必要尺度的 VLM 架构（如 Qwen3-vl-4B）和训练（基于文字的 SFT）就可能在极为多样的三维工作上达到 SOTA。这种简洁的训练颠覆了之前三维视觉的进建范式，并揭示了三维视觉的 Bitter Lesson：我们其实齐全不必要针对特定三维视觉工作报答设计复杂的架构、损失函数及数据加强。通过单一的视觉说话建模 + scale 数据就可能达到同样的成效，并且于其他非三维视觉工作在统一的说话模型训练框架下齐全兼容。这使得三维视觉不再必要与视觉说话模型的大规模预训练分离，同时我们可能使用同样的方式来实现三维视觉的 scaling law。同时 VLM? 的成功也意味着三维视觉的进建远比我们设想中的要容易：除开不必要特殊架构、损失函数等，我们甚至能够不依赖回归（regression）来学会 fine-grained 3D understanding，这在之前的工作中是不能思议的，由于在陆续的输出空间进行回归是绝大无数三维视觉模型的主题设计。 VLM? 沉新界说了三维视觉的最佳进建范式：最单一的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式！从前三维视觉领域普遍选取的报答的 task-specific 的设计并非必须。这将极大水平地简化三维基础模型的构建。通过将三维视觉工作融入视觉说话模型的预训练，我们也能有效地兼容三维视觉与其它视觉工作，并将 VLM 的优势，及矫捷性与泛化性从语义及二维视觉工作有效拓展至三维视觉，极大水平提升模型的能力上限。 VLM? 的出现，初次买通了视觉说话模型与三维视觉之间的壁垒，使得统一的架构就可能简洁地学会各类视觉工作，并达到专家模型的机能。这既是科研层面的里程碑，也为未来在现实系统中统一多模态推理能力提供了可能。我们等待 VLM? 后续在机械人、自动驾驶、加强现实等场景中的落地利用。

《《玉壶吟》BY流兮冉》

                                《《玉壶吟》BY流兮冉》这位如今效力于弗拉门戈的后卫在接受《The Athletic》采访时，首先谈到了皇家马德里以及在这样的俱乐部踢球的心理压力：“你会变成一种所谓的精英，即便你并未过着那样的生活，却必须面对这样的处境。这是我必须克服的最大困难，因为我一直努力保持简单的生活方式，远离聚光灯。”报道称，类似梗图在 Memegen 上大量出现。一名员工估计，过去一年，谷歌内部分享的反 AI 梗图数量已经达到“数百张到数千张”。这名员工还说，每当谷歌发布新产品、更新模型，或者 Jetski 出故障，反 AI 梗图数量就会“激增”。《《玉壶吟》BY流兮冉》《玉壶吟》BY流兮冉2025年8月18日消息，高兴夫被查；2026年2月6日消息，高兴夫被开除党籍。通报指出，高兴夫搞投机钻营，结交政治骗子，对抗组织审查，搞迷信活动；道德败坏，贪图享乐、追求低级趣味；贪婪无度，大搞权钱交易，并非法收受巨额财物。戚薇在综艺里那段自爆，放到现在再看也没怎么过气。一张银行卡、七天澳门行程、五百万的＂出场费＂，这种摆在明面上的＂邀约＂，她当着对方的面把卡甩了回去。
                            

                                20260609 ? 《《玉壶吟》BY流兮冉》这个夏天，也许有网友没看过《妻子的浪漫旅行2026》，但孙杨在节目中屡次让众人惊叹的“神之一手”，全体网民应该都有所耳闻了。女生和黑人交往过就不好嫁吗 为了这一天，百型已经开始从三个层面做准备：面向AI的内容层、封装Skill与MCP和API的工具层、以及Agent间上下文共享与沟通协作的协议层。
                            

《《玉壶吟》BY流兮冉》

? 苗正峰记者刘财摄

                                20260609 ? 《《玉壶吟》BY流兮冉》“唐斯全身心投入球队防守部署，专注细节才换来亮眼发挥。昨晚他转换防守是本赛季顶尖水准，换防、协防布置全部到位。文班是划时代球星，想要完全锁死并不现实，只能赌他手感失常；唐斯依靠身体对抗、正面顶防做得可圈可点，一切源于他主动愿意为球队倾尽所能。”尊贵皇后的出错浮殇TXT百度网盘 想想这样一个场景：一个枪击案的案犯，在被判刑后，还处于假释期，又开始偷偷摸摸鼓捣枪支。这时候，有人警告他曾经是枪击案的案犯，现在又鼓捣枪支意欲何为？其诡辩称，喏，当时看管我的某某凭什么拥有枪支？殊不知，他口中的某某可是合法拥有枪支的！
                            

《《玉壶吟》BY流兮冉》

? 弓雪勇记者胡旭宝摄

                            ? 有网络材料尖锐地指出：“有的校长只盯着一个指标：今日有无投诉、明日有无舆情……只要家长一投诉，第一反应不是调查核实，而是赶紧安抚投诉人，宁可委屈教师也要把事态平息下去。”【1】《老婆的救赎》
                        

【我要推荐】更多推荐：www.ahsjsjt.cn支付，收到央行罚单

扫一扫在手机打开当前页

链接：
全国人大
|
全国政协
|
国度监察委员会
|
最高人民法院
|
最高人民检察院

国务院部门网站
|
处所当局网站
|
驻港澳机构网站
|
驻表机构

red

中国当局网 | 关于本网 | 网站申明 | 联系CA88 | 网站纠错

主办单元：《《玉壶吟》BY流兮冉》　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452　京ICP备05070218号　 2018guohui03 京公网安备11010202000001号

CA88(中国区)唯一官方网站

国务院客户端

CA88(中国区)唯一官方网站

国务院客户端幼法式

中国当局网微博、微信

gtrs_red

主办单元：中国当局网　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】