随着 Agent 的宽泛利用带来的长序列需要,传统 GPT 架构的 Attention 部门,由于其 O (N^2) 的推算复杂度,正逐步被视为机能瓶颈而遭到代替。而 Attention 机造的架构迭代,也在以前所未有的速度推动。目前业界的主流规划大体能够分为两种:Linear Attention 和 Sparse Attention。其中 Linear Attention 以 Qwen-Next 和 Kimi-K2 为代表,性质上是通过改进后的 Linear Attention 来实现信息压缩,使得存储价值压缩到 O(1) ,推算价值压缩到 O(N);而 Sparse Attention 则重要通过稀少化来优化推算开销,实际中往往可能达到靠近 90% 以上的稀少度,这也是在 DeepSeek-V4 中被正式选取的技术路线。
然而,在 RTPurbo 中 [1],前期工作已经充分指出,使用 Full Attention+Sliding Window Attention(SWA)就已经能够在精度无损的保障下,将原生 Transformer 的 85% 把稳力头造成 SWA,实现 15% Full Attention + 85% SWA 的混合架构,实现 5X 的 KV 和 Attention 压缩。独一无二,在近期的一些开源架构,如 MIMO、Gemma4、GPT-OSS 中,也使用了 SWA+Full Attention 这一设计,颇有一种 “大路至简” 的设计思路。
只管代替了 85% 的 Full Attention 成 SWA,剩下的 15% Full Attention 在超长序列(1M)下依然会成为机能瓶颈。今天,为了彻底解决 Attention 的推理瓶颈,来自阿里的 RTP 团队推出了第二代 Attention 压缩技术:RTPurboV2。通过结合 Headwise 压缩,低秩投影压缩,以及聚类技术,RTPurboV2 能够在 V1 架构的基础上,进一步在 Full Attention 部门实现 16~32 倍推算压缩。
Full Attention 模型在预训练过程中,已经自觉地形成炼度稀少确把稳力结构。我们要做的不是 "强加" 稀少性,而是 "开释" 它。这个判断成立在四个可量化的关键发现之上。
钻研人员发现,在 Full Attention 模型中,分歧的 Attention Head 现实上承担着分歧的职责。有些 Head 专一于捉拿部门信息(好比相邻 token 之间的关系),有些 Head 则掌管捉拿长距离依赖(好比与自身有关信息的关联)。
约 15% 的 Head 阐发出显著的 "召回头"(retrieval head)特点:它们确把稳力散布极度稀少,只关注少数几个关键 token,掌管长距离信息召回其余 85% 的 Head 则是 "流式头"(streaming head):它们确把稳力散布相对均匀,更多关注部门高低文
这种分工模式在分歧输入、分歧序列长度下高度不变,是模型在预训练中自觉习得的内涵结构。直接推论:85% 的 Full Attention 推算能够安全地代替为 SWA(参考 RTPurbo),险些不影响模型能力。真正必要解决的,只有渣滓 15% 召回头的高效推算问题
召回头的主题工作是在整个序列中做语义匹配 —— 看起来依然是 O (N^2) 的问题。RTPurboV2 的主题技术升级之一是对于召回头和 RoPE 的详细理解。在深刻分析 RoPE 地位编码的频率结构后,团队发现了召回头的 RoPE 分量存在显著的维度冗余。在 RoPE 下,Query-Key 确把稳力得分能够分化为分歧频率分量的叠加:
低频分量(θ_i 较。核娴匚黄苹郝涠,承载 token 间的语义有关性信号高频分量(θ_i 较大):随地位偏移急剧振荡,引入距离敏感性滋扰
对于长距离检索而言,高频分量导致把稳力得分随地位距离剧烈颠簸,减弱了语义信号的不变传递。而从召回工作自身的性质启程:一个 token 的召回强度不应随相对地位的变动而急剧颠簸。由此能够揣度,在召回头上的高频分量肯定是出于被压造状态,召回头性质上只会利用 RoPE 低频分量。
因而,一个很天然的设计是训练一个低维 projector,我们通过低峙壮射将原始特点维度从 D 压缩至 r=16 (其中 r ? D),系统性地保留低频语义分量、过滤高频地位噪声。尝试验证,仅 16 维即可达到 90%+ 的 token 召回率。
这是 RTPurboV2 的主题技术升级之二。团队意识到低秩投影带来的增益不止于推算量的直接降低 —— 它从底子上改善了 Key 向量在语义空间中的散布质量。高频噪声被过滤后,语义类似的 token 在低秩空间中天然聚拢,语义无关的 token 彼此远离。这为序列维度的进一步压缩创造了梦想前提。
特点维度压缩→ 降低单步推算开销,同时产出高质量聚类输入序列维度压缩(聚类)→ 跳过大量语义无关 token,降低总推算步数协同效应 → 特点压缩提纯后的向量让聚类中心更精准,使得在极端压缩比下依然维持高召回率
传统的稀少把稳力步骤通常选取固定 top-k 战术,即每个 query 只保留 attention score 最高的 k 个 token。但这种做法存在一个底子性问题:分歧的 attention head、分歧的序列长度、分歧的 query,所需的高低文 token 数量差距巨大。
在数十万亿 token 的预训练语境下,1M token 险些能够忽略。这也从另一个角度验证了主题论点:Full Attention 的稀少性是内生的,微调只是实现从隐式到显式的转化。
在 Qwen3-Coder-30B-A3B 模型上,我们通过离线校准鉴别出约 15% 的关键 “召回头”。针对这些 Head,我们在 Prefill 阶段选取 Full Attention 并共同 K Cache 聚类,在 Decode 阶段则利用 RTPurboV2 实现稀少化;其余流式头统一选取 SWA(部门窗口设为 8192)。
如图 3 所示,RTPurboV2 在 32K 和 64K 序列长度下均获得了最优均匀分(别离为 89.69 和 85.61),显著优于除 Full Attention 表的所有基线步骤,证了然其在长程信息召回上的卓越精度。
针对 Qwen3.5-35B-A3B 模型,校准显示其超过 70% 的 Head 拥有召回个性。为此,我们采取了全量稀少化战术。尝试了局(图 4)批注,RTPurboV2 在大幅降低推算开销的同时,齐全保留了模型的基础能力,精度阐发与 Full Attention 吃旖。
在链式思想(CoT)推理工作中,RTPurboV2 同样阐发杰出(图 5),实现了模型推理能力的近乎无损保留,进一步验证了该规划在复杂逻辑场景下的鲁棒性。
当前把稳力机造的钻研沉心,大量集中在设计全新的高效架构上。这条蹊径无疑有其价值。但 RTPurboV2 揭示了一个容易被忽视的事实:Full Attention 模型自身就蕴含着巨大的效能空间,而开释这种内生稀少性的成本极低。
600 步训练,精度险些无损,Prefill 最高 9.36 倍加快。这意味着,对于选择 SWA + Full Attention 混合架构的团队 —— 蕴含 MIMO、Gemma 4、GPT-OSS——不必要代替架构就能获得靠近 SOTA 新规划的压缩效能
RTP-LLM 是阿里巴巴智能引擎团队自研的高机能大模型推理引擎,支持了淘宝、天猫、高德等主题业务的大模型推理需要。智能引擎源自阿里巴巴搜索、推荐和告白技术,是阿里 AI 工程领域的先行者和深耕者。团队专一于 AI 工程系统的建设,主导成立了大数据 AI 工程系统 AI?OS,持续为阿里集团各业务提供高质量的 AI 工程服务。
《后宫玩物_(唐清轻)_最新章节列表_笔趣》当然,一个人也需要机会,训练中表现出色是一回事,比赛里获得机会又是另一回事。如果你没有比赛机会,人们就看不到你,但我相信,如果一个人真的是天才,那么迟早会脱颖而出。2025年,SpaceX总营收186.7亿美元,净亏损49.4亿美元,华尔街多家机构认定其合理估值仅7800亿美元,以当前的经营情况看,SpaceX的估值极贵。让投行们头疼的是,你要是嫌估值贵,那就会错过SpaceX,你的基金业绩就会跑输同行,年底就得卷铺盖走人。《后宫玩物_(唐清轻)_最新章节列表_笔趣》《榻上臣》BY洛丁一在日常语文教学中,教师常常一篇一篇地教课文,学生一课一课地学知识,最终记住的往往是零散的情节和碎片化的表达技巧,难以形成可迁移的语文能力。在一次入校教研指导中,我观察了四年级下册第四单元《猫》《母鸡》《白鹅》三篇课文的教学,发现每节课都在“整体感知”“圈画语句”“朗读感受”“仿写练习”中循环,知识被切割成零散的碎片,能力训练随课文“各管一段”,缺乏系统性和递进性。学生在不同课文中反复学习类似的内容,却始终没能掌握“如何表达对动物的情感”这一核心能力。这位意大利U19国脚于6月4日刚刚迎来19岁生日。本赛季,他主要效力于拜仁慕尼黑二队,同时还代表拜仁U19参加了部分青年欧冠赛事。此外,他也多次跟随拜仁一线队训练和备战,并进入过球队大名单,不过至今尚未完成一线队正式比赛首秀。
20260608 ? 《后宫玩物_(唐清轻)_最新章节列表_笔趣》报道提到,当前市场主流家用新能源汽车,电池包重量普遍在 500-650 公斤之间,长续航、大电池车型可达 700-800 公斤。与此同时,新能源车的电机、电控等部件,以及底盘电池防护结构,进一步叠加了整车重量。《今夜无人入睡》游先生提醒,尽量不要一个人攀爬野山,出行前做好攻略,带足补给,游玩时尽量不要靠近悬崖,看风景也不要忘记脚下安全。
20260608 ? 《后宫玩物_(唐清轻)_最新章节列表_笔趣》而本区的优质供应却在源源不断的涌入:华润万泉寺已宣告引入万象城落地,将做"全北京首个全抬板五代住宅";即将出让的泥洼地块容积率低至1.1,是稀缺的三环类别墅地块。因此,保利在丰台的处境,可以用四个字形容:腹背受敌。纯路具(密室逃脱)幼说谈到比赛感受时,B费表示:“我们整体感觉不错。虽然比赛的发展并不是我们原本预想的样子,我们本来希望以另一种方式去踢。但这场比赛对我们来说是一次很好的学习机会,也让我们尝试了和平时不太一样的比赛方式。最后几分钟我们有些松懈,出现了一些不该有的丢球,但从90分钟整体来看,我们还是表现更好的一方。尤其是在进入对方进攻三区后,我们需要更多地控制球权,这也是我们还需要提升的地方。当我们把球推进到那个区域时,必须更有耐心,关键是最后一传和最后选择要处理得更好。”