关于 AI 烧钱,业内流传着各类令人瞠目结舌的数字。xAI 花了超过 10 亿美元建起 Colossus 超算集群;OpenAI 的月度算力账单据称高达数亿美元;Anthropic 最近几轮融资拿到的钱,在公家眼里险些已经和「GPU 时数」直接画上了等号。
但最近,我听了一期 Latent Space 播客,采访对象是 xAI 前钻研员 Ethan He——Ethan 在 2025 年中参与 xAI 时,面对的是一个没有基础设施、没罕见据、没有现成模型的白纸状态,而后用三个月功夫和一支幼团队,从零搭建出了 Grok Imagine 视频天生系统,做到了其时业内的一流水准。
从零到一,起头训练一个视频大模型,必要花几多钱?先如果你的团队有矿,GPU 算力轻易用。即便如此,你可能依然低估了这件事的巨量成本。
如果你要训练一个世界级的视频天生模型,去网上爬取了 10 亿条视频,每条均匀 5MB——这已经是相当守旧的估计了。光这一项,你就必要 5PB(拍字节)的存储空间。依照 AWS S3 的定价,5PB 尺度存储,每个月约莫 10 万美元。
在训练视频模型之前,业界通畅的做法是吓酌 VAE(变分自编码器)把视频压缩成「潜在空间」的特点向量——由于一段视频发展成像素,可能有几十亿个 token,任何 Transformer 都处置不了,必须先压缩成模型能理解的陆续向量。
Ethan 说,从互联网下载 10 亿条视频的带宽用度,在 AWS 上比存储这些视频还贵。每次训练,数据都要从存储层拉到推算层跑一遍。视频模型的训练不像说话模型那样训完就完了——要迭代,要调参,要测试分歧的数据配比,每一次尝试都意味着把全量数据再过一遍。尝试跑得越多,这笔钱就乘以相应的倍数。
大说话模型的训练数据是文本,体积相对轻量,并且训练实现之后,原始数据根基就实现了使命——你不必要反复拉取全量语料来做推理或微调。但视频数据齐全分歧:体积是文本的几个数量级,并且每一次训练尝试都要把全量数据齐全过一遍。
这就形成了一个相互咬合的困局:你必要急剧迭代来提升模型质量,但急剧迭代意味着频仍搬运数据,而频仍搬运数据在公有云上的账单会把你压垮。
Ethan 自己的轨迹就是一个注脚。他在 NVIDIA 参加构建了 Cosmos 世界模型,做着做着意识到,视频模型存在和说话模型类似的「规模定律」,还有很大的提升空间。他其时面对的选择,表表看是「我必要更多 GPU」,但同样关键的一句话他没明说——他必要一个不用按 AWS 账单算钱的处所,来存放和搬运数据。这也是他去 xAI 的底子原因之一,而 Colossus 给了他那个环境。
对于没有自建基础设施的团队来说,这笔账是怎么算的?每个月几百万美元的数据成本,叠加在 GPU 算力之上,意味着哪怕你有一流的算法团队,哪怕你募到了足够的资金,只有你还在用公有云,你就是在用一个无底洞的账单跟敌手的自建机房竞走。
在大说话模型领域,「开源 vs 关源」的竞争打得相当强烈,Llama 系列的出现让好多幼团队也能在说话模型上打出有竞争力的产品,甚至逼着 OpenAI 和 Anthropic 不休压低 API 价值。但在视频天生领域,我们看到的格局截然分歧:能持续做出顶尖视频模型的,根基只有 Sora、Veo、可灵这些背靠巨量资源的团队,没有一家是靠开源社区在车库里跑出来的。
好多人把这综合为「数据和算力的差距」。这当然没错,但 Ethan 揭示的这组数字通知我们,问题比这更深:视频 AI 的基础设施成本,从一路头就把竞争的门槛,锁死在了极少数玩家的高度上。
这和半导体行业的逻辑有几分类似。台积电之所以难以撼动,不只由于它们有更好的设计,更由于一座新晶圆厂必要几百亿美元的前期投入,这路门槛自身就是最好的护城河。视频 AI 的护城河,就是那数十 PB 的数据基础设施和每月滚动产生的带宽账单。
视坡珐散模型相对「痴钝」,它只会依照文字描述照单全收地天生画面,描述写「一只猫」,它就天生一只猫,站在纯白布景前,纹丝不动——由于你没有通知它布景是什么、猫在做什么。
真正理解用户意图、把「一只猫」扩写成一段精密的镜头说话描述的,是背后那个做「提醒词沉写」的大型说话模型。Ethan 说,在 Cosmos 时期,他已经用一个「欢乐的羊」做测试:不经过提醒词沉写,天生出来的画面极其 CGI、毫无质感;加上沉写之后,成效判若云泥——而整个视坡珐散模型自身,并没有产生任何扭转。
这意味着,决定一家公司在视频 AI 领域能走多远的,不只是视频模型的参数规模,而是能否同时撑起说话模型和视频模型这两套基础设施,并让它们有效协同。
提醒词沉写的 Agent 化、让说话模型像「指挥官」一样调度多个视频天生工具、用 FFmpeg 这类传统软件处置中央环节——这些方向的共同逻辑是,把「说话模型的推理成本」和「视坡珐散模型的天生成本」分层推算,让每一次视频天生的挪用越发精准,削减无效的推算和数据搬运。
Ethan 对「视频 Agent」的走向相当笃定。他预测今年年底将出现一个拐点——当 Agent 天生的视频质量可能不变达到「可投放贸易告白」的水准,企业才会真正愿意为之买单,整体的成本结构也会随之演变。
在 AI 这个赛路上,「真正的壁垒」每隔一段功夫就会轮换一次。先是参数量,而后是训练数据规模,而后是对齐技术,而后是推理效能。此刻,视频 AI 在揭示下一路壁垒——不是某种神秘的算法突破,而是一份冷冰冰的基础设施账单。
WWDC26 开场,6 月 9 日午间 12:00,极客公园直播间带你解读:会发光的 Siri 来了,换上谷歌大脑还算苹果吗?一贯把门关得最紧的苹果,为什么自动向模型厂敞开大门?库克在 AI 落后的节点交班,留给CA88又会是一个什么样的苹果?
《图书馆的女朋友》如果我们有坚定的看待自己的方式,就不会轻易被外界的评价和认同左右,也会相应地拥有属于自己的安全感。因为我们知道生活里对自己重要的东西是什么,确定性和不确定性分别是什么,就不会被别人的标准左右。好技术要用得上,更要用得好、用得久。作为活动关键环节,成都国贸集团(成都场景公司)首次对外详细介绍了其支持社区配送机器人新场景推广的系列赋能模式。成都场景公司将立足“政策性功能+市场化运作”定位,以商业化服务模式为社区落地配送机器人提供支持。《图书馆的女朋友》女伴侣妈妈在厨房做饭“很多公司出海喜欢‘深度优先’,即先做透一个国家,再做下一个。但机器人的主要市场是所有相对发达、面临用工荒的国家。如果一个国家一个国家串行去验证,周期太长了。”张涛认为,"全线铺开"的广度应优先。普渡通过海外的线下渠道商先去触达终端客户,随后通过几年的并行业务,便可以筛选出哪些国家增长快、毛利高,然后再对重点国家加大投入。原告王某向法院提出诉讼请求:一、请求依法分割原、被告共同财产9870万元;二、诉讼费由被告承担。事实与理由:原、被告于1976年登记结婚,2007年5月8日在民政局协议离婚,离婚时未实际分割夫妻共同财产,故原告提起诉讼要求分割原、被告名下14处不动产。
20260609 ? 《图书馆的女朋友》这种变化会自然发生,但比赛中也会有补水时间,可以让球员喘口气。我认为在前场高位夺回球权依然很有价值,哪怕这会带来风险,哪怕这需要很高的强度。韩剧《下属的未婚妻》主演名单表据巴西《环球体育》报道,当地时间本周六,巴西队在对阵埃及的热身赛中出现伤情。效力于罗马的右后卫韦斯利-利马在上半场感到左腿不适,随后被达尼洛换下。离场后,韦斯利情绪低落,在替补席上落泪。
20260609 ? 《图书馆的女朋友》迈尔斯则称自己的主要任务就是“全力支持甘西以及整个团队”。迈尔斯曾在勇士任职12年,一路升任总经理,之后又兼任球队总裁,任职期间勇士四次拿下NBA总冠军。可想而知,未来但凡涉及重磅交易、大牌自由球员签约等重大决策,迈尔斯必然拥有举足轻重的话语权。《租借女友》动漫第二季6月5日,男童母亲向红星新闻记者介绍,6月1日,一只流浪狗闯入家中,扑倒5岁的孩子撕咬,导致孩子右脸、嘴角等多处受伤。所幸孩子爷爷及时发现并驱赶,肇事犬只随即逃离。“孩子半边脸被咬伤严重,最长的伤口约4厘米。打了血清、破伤风和狂犬疫苗,一共打了16针。孩子右脸进行了手术,伤口缝了20针。不知道是否携带狂犬病毒,这是我们最担心的。”目前,孩子仍在医院住院治疗。