蔡志鹏博士(https://zhipengcai.github.io/)是美国 Meta 公司的高级钻研员,博士毕业于澳大利亚阿德莱德大学。他的钻研重要集中在 Physical Intelligence,蕴含三维视觉、多模态大模型等。他的工作已在领域顶级会议杂志上颁发超过 20 篇。其中 10 篇文章被选为顶级会议口头或特邀汇报,对鲁棒估计推算复杂度的理论证明工作被选为 ECCV18 12 篇最佳论文之一。
Meta 颁布了一项令人震撼的钻研工作 VLM?,初次揭示了三维视觉进建的 Bitter Lesson:尺度的视觉说话模型 + scale 数据就是最单一有效的范式,针对特定工作的架构、损失函数以及数据加强的设计,甚至是 regression 的 formulation,均不是三维视觉进建的必要前提。
当前的视觉说话 AI 模型(Vision Language Models, VLMs)通过统一的模型架构可能矫捷处置各类分歧的视觉工作。然而,只管在语义理解、视觉问答、图像指令等工作上阐发优异,它们在三维视觉方面依然阐发欠安。相比之下,专家视觉模型(expert vision models)在绝对深度估计(metric depth estimation)等三维理解工作上,凭借专门设计的网络结构、损失函数及数据加强,已经达到了超过人类的精度。
这就带来了一个主题问题:「视觉说话模型是否在三维视觉进建方面无法代替专家模型?」VLM? 初次证了然该问题的答案是否定的!
VLM? 通过极简的设计,在极为多样的三维视觉工作中媲美或超过专家视觉模型,并大幅超过最先进的视觉说话模型:1)在单目深度估计上 match UnidepthV2 及 MoGe2;2)在指标级三维理解工作上超过 SpatialRGPT;3)在像素匹配工作上超过 DKM 和 RoMa;4)在相机姿势估计上 match DA3,超过 VGGT。
VLM? 通过详尽的尝试发现,尺度的 VLM 仅必要 1)相机焦距归一化;2)像素空间归一化,就可能以令人惊叹的简洁方式有效学会各类三维视觉模型,在 1)单目深度估计中 match UniDepthV2 及 MoGe2;2)在指标级别三维理解超过 SpatialRGPT;3)在像素匹配工作上超过 DKM 和 RoMa;4)在相机姿势估计上 match DA3 并超过 VGGT。
和之前的三维视觉 VLM 分歧,VLM? 既不必要扭转 VLM 的架构,也不必要在图片上渲染 marker。相迸宗专家视觉模型必要大量的架构、损失函数及数据加强方面的复杂设计,VLM? 仅必要尺度的 VLM 架构(如 Qwen3-vl-4B)和训练(基于文字的 SFT)就可能在极为多样的三维工作上达到 SOTA。
这种简洁的训练颠覆了之前三维视觉的进建范式,并揭示了三维视觉的 Bitter Lesson:我们其实齐全不必要针对特定三维视觉工作报答设计复杂的架构、损失函数及数据加强。通过单一的视觉说话建模 + scale 数据就可能达到同样的成效,并且于其他非三维视觉工作在统一的说话模型训练框架下齐全兼容。这使得三维视觉不再必要与视觉说话模型的大规模预训练分离,同时我们可能使用同样的方式来实现三维视觉的 scaling law。
同时 VLM? 的成功也意味着三维视觉的进建远比我们设想中的要容易:除开不必要特殊架构、损失函数等,我们甚至能够不依赖回归(regression)来学会 fine-grained 3D understanding,这在之前的工作中是不能思议的,由于在陆续的输出空间进行回归是绝大无数三维视觉模型的主题设计。
VLM? 沉新界说了三维视觉的最佳进建范式:最单一的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式!从前三维视觉领域普遍选取的报答的 task-specific 的设计并非必须。
这将极大水平地简化三维基础模型的构建。通过将三维视觉工作融入视觉说话模型的预训练,我们也能有效地兼容三维视觉与其它视觉工作,并将 VLM 的优势,及矫捷性与泛化性从语义及二维视觉工作有效拓展至三维视觉,极大水平提升模型的能力上限。
VLM? 的出现,初次买通了视觉说话模型与三维视觉之间的壁垒,使得统一的架构就可能简洁地学会各类视觉工作,并达到专家模型的机能。这既是科研层面的里程碑,也为未来在现实系统中统一多模态推理能力提供了可能。我们等待 VLM? 后续在机械人、自动驾驶、加强现实等场景中的落地利用。
《《覆雨翻云》小说》“那趟飞行只用了7分钟,就翻越了原本需要徒步大半天的山路。”成都交投航投集团的一位飞手回忆起在甘孜州岚安乡的一次任务。村民收到由无人机送来的降压药后,连忙托人表达了感谢。有手机研发部人士向《财经》透露过一个很生动的细节:一些从事相关开发的团队曾收到微信发出的律师函。微信对此的态度非常明确——不允许任何第三方通过模拟点击等方式绕过微信界面去操控功能。《《覆雨翻云》小说》书童被五个少爷轮流欺负的悲凉印度气象局的调查显示,印度城市的夜间温度上升速度,比日间还要快。新德里、勒克瑙和班达这些城市,夜间最低气温通常不会低于33℃至35℃。印度乃至南亚的大城市,已经失去了昼夜温度调节功能,成为了日夜一样湿热的温室热岛。6月4日晚间,法网女单半决赛,23岁的乌克兰选手科斯秋克0-2不敌19岁的俄罗斯选手安德烈娃,无缘决赛。赛后,她强调自己接受了4年的心理疏导,且强调今天自己的运气非常糟糕。
20260609 ? 《《覆雨翻云》小说》克里斯已经接近一个月没有比赛了,你认为这会影响他在对阵巴拉圭时首发吗?另外,你期待明天球场会是什么样的氛围?7X7X7X7X7X肆意槽2024基础百度网盘如果你渴望在繁忙的工作与惬意的生活之间找到完美平衡,不妨走进招商·臻园,亲身感受这份来自公园旁的静谧与美好。
20260609 ? 《《覆雨翻云》小说》北京时间6月6日,据多名掌握调查一手消息的知情人士透露,洛杉矶快船球星科怀・莱昂纳德,以及兼任其经纪人与商业顾问的舅舅丹尼斯・罗伯逊,已接受NBA联盟调查人员问询。联盟正针对快船涉嫌规避工资帽、私下给莱昂纳德发放隐性报酬的指控展开专项调查。万人迷体质(NP)蜜糖红人物介绍快穿我觉得这恰恰说明了我们阵容的实力。我们有球员效力于世界上最好的球队,而带着这样的信心来到这里非常重要。经历了一场重要的胜利,经历了一个在俱乐部层面取得成功的赛季之后来到国家队,这种感觉很好。