本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大学博士,钻研方向为高效机械进建系统,方向覆盖 模型训推算法与系统协同设计,LLM 压缩与量化。团队成员均来自 TogetherAI,悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。
长高低文模型越来越强,但服务时的瓶颈往往不是算力,而是 KV Cache:每天生一个 token,都要从显存中读取越来越长的汗青 key,value。高低文越长、batch 越大,KV Cache 越吃显存,也越吃带宽。把汗青 KV 压到 2-bit,理论上能够让汗青段显存削减约8 倍;但真正难的是,压完之后推理能力不能崩,系统也必须能在真实 serving 框架里跑起来。
为什么 2-bit KV Cache 这么难?INT2 只有 4 个量化等级,而 KV activation 中时时有少数幅值极大的 outlier channel。若是这些 outlier 主导量化尺度,大无数正常值会被挤到很少的有效等级里,把稳力散布很快漂移。通常 Hadamard 旋转能把 outlier 摊平,但它不知路模型在 attention 里真正读哪些方向。OSCAR 的主题就是把旋转指标从「沉建原始 K/V 向量」改成「保留 attention 消费 KV 的方式」。
相比之前量化的工作,好比 TurboQuant 压缩的是向量,但忽略了真正影响模型的是 attention 的质量,OSCAR 保留的是 attention 真正会读的方向。朴素 INT2 和全模型层的 3-bit K/V TurboQuant 城市在难题推理工作上显著掉分;OSCAR 在约2.28 effective bits per KV element下仍能靠近 BF16,并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高提升40.1 分。
图 1 对比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化误差传布链路上的差距。关键点是,原始 K/V 的沉建误差并不能齐全诠释模型最终阐发;真正影响推理质量的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。OSCAR 的优势不只是让向量数值更滑润,而是把量化误差压到 attention 不敏感的方向上。
具体来说,对 key 来说,量化误差会进入 attention logits,也就是 QK?,因而 OSCAR 用 query covariance(Q?Q)机关 key 的旋转指标;对 value 来说,误差经过把稳力权沉进入输出,因而 OSCAR 使用 score-weighted value covariance(V?S?SV)。离线校准阶段,OSCAR 从少量校准样本中估计这些 attention-aware covariance,为每层、每个 head 天生固定旋转和 clipping 阈值。最终旋转写作R = U?Hadamard?bit-reversal:U 对准 attention 有关方向,Hadamard 分散 outlier,bit-reversal 平衡 INT2 分组,预防某个 group 被少数通路摆布。
其中 sink token 和 recent window 维持 BF16,用来; attention sink 与短期部门高低文;中央最长的汗青段存成旋转后的 INT2。新 token 先写入 recent window,随着解码推动,最老的 recent token 再由融合 Triton kernel 执行 rotate /clip/quantize/pack,并 demote 到 INT2 history。每 4 个 2-bit 值打包进 1 个 byte。decode 阶段,OSCAR 在 GPU 上把缓存分成 BF16 段和 INT2 段:INT2 kernel 掌管 unpack、scale/zero point 还原和浮点累加,BF16 kernel 处置 sink/recent,最后用 online softmax merge 归并了局。它同时兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline,因而能够直接用于长高低文 workload,而不是停顿在论文图内外。
图 2 展示 OSCAR 从离线校准到在线 serving 的齐全蹊径。左侧是离线阶段:OSCAR 从少量校准样本中估计 attention-aware rotation 和 clipping threshold,让 KV activation 在进入 INT2 前变得更适合量化。右侧是在线阶段:sink/recent token 持续维持 BF16,中央最长的 history KV 进入旋转后的 INT2 cache,并在 SGLang paged KV 中实现真实 serving。因而 OSCAR 不是单一量化技巧,而是一整套 2-bit KV Cache pipeline。
OSCAR 在2.28 BPE下,Qwen3-4B-Thinking 距 BF16 仅3.78分,Qwen3-8B 距 BF16 仅1.42 分,Qwen3-32B 与 GLM-4.7-FP8 根基与 BF16 吃旖。相比之下,QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 工作上大多直接崩溃;TurboQuant 在全层 3-bit K/V、无 mixed-precision ;さ钠秸柚孟,也在幼模型推理工作上掉分显著。
OSCAR还在128K长高低文设置下对中 / 大规模模型做了 RULER-NIAH 测试:OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上都维持了显著更不变的检索机能,注明这种 attention-aware 旋转不仅能撑住短评测,也能抵抗超长汗青中 KV 误差的累积;痪浠八,OSCAR 是少数能在真近 2-bit 设置下仍维持现代 reasoning model 质量的步骤。
系统收益也极度直接:相对 BF16 history storage,OSCAR 可削减约8×KV Cache memory;在 100k context、batch-size-1、full prefix-cache hit 设置下,decode 最高约3×加快;在大 batch、同显存预算下,job-level throughput 最高约7×。prefix cache 射中率越高,OSCAR 越能利用更幼的 KV footprint 提升并发吞吐,这对共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景尤其沉要。
图 3 是论文主了局表,蕴含 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模型、五个工作上的齐全对比。BF16 是精度上界;Saw-INT4 是强 4-bit 参考,BPE 为4.25;TurboQuant 在这里使用无 mixed-precision ;さ娜3-bit K/V设置,BPE 为3.25;QuaRot-INT2 和 Naive INT2 是靠近 2-bit 的旋转 / 朴素基线,BPE 约2.25;OSCAR 则在2.28 BPE下运行。
这张表的沉点不是单一模型,而是「低比特能不能不变」。在 Qwen3-4B-Thinking 上,TurboQuant mean 为31.74,QuaRot-INT2 只有1.40,Naive INT2 为0.00;OSCAR 达到71.86,距离 BF16 只差3.78,并相对 TurboQuant 提升40.1 分。在 Qwen3-8B 上,OSCAR mean 为69.42,距离 BF16 只差1.42,而 TurboQuant 为56.88。到 Qwen3-32B 和 GLM-4.7-FP8,OSCAR 根基与 BF16 吃旖;痪浠八,在靠近 2-bit 的 KV 预算下,OSCAR 是表中唯一能在多模型、多工作上不变切近 BF16 的 INT2 步骤。
图 4 单独看 AIME25 这个高难数学推理工作,并对比 KIVI-KV2、Kitty 和 OSCAR。但由于 KIVI, KITTY 没有 framework 支持,无法进行 long context run,所以拔取了他们步骤唯一在 32K 汇报的了局 - AIME25。在 Qwen3-8B 上,OSCAR 以2.38 BPE达到66.67,根基追平 BF16 的66.00,显著高于 KIVI-KV2 和 Kitty;在 Qwen3-32B 上,OSCAR 达到74.00,甚至略高于 BF16 的72.59,也超过 Kitty 的69.26。这注明 OSCAR 不只是相对 TurboQuant 有优势,在已有 KV-cache 量化步骤中,也能在靠近 2-bit 的预算下保住难题数学推理能力。
图 5 展示 100k 高低文下的系统机能。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约3×加快;在固定显存预算下,batch size 增大时,INT2 history 带来的 KV footprint 降低能够显著提高 job-level throughput,最高约7×。这注明 OSCAR 不只是精度能保住,也能实打实降低显存带宽压力。
图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。横轴是单用户吞吐,纵轴是单 GPU 吞吐;从 cache disabled 到 normal cache,再到靠近 100% warmup replay,吞吐前沿逐步表扩。OSCAR 维持尺度 paged KV /prefix cache 抽象,因而共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景能够直接受益。
这些了局的一个沉要寓意是,OSCAR 并没有依赖「遴选少数层保留高精度」来保住分数。好多低比特步骤在真正部署时会借助混合精度:第一层、最后一层或若干敏感层依然保留较高 bit,这会让均匀 bit 数上升,也会让 kernel 和 cache layout 变复杂。OSCAR 的对比更严格:汗青 KV 主体维持统一的 INT2 暗示,只在 sink 和 recent 两个很幼窗口保留 BF16。这样做的益处是,系统工程上更容易接入 paged cache、prefix cache 和批量调度,也更靠近真实服务场景中的显存预算。
另一个值得强调的点是,OSCAR 的收益不是只在幼模型或短高低文上成立。论文同时测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模型;既看了数学、代码、知识问答等 32K 推理天生工作,也看了 128K RULER-NIAH 长高低文检索。短评测里,OSCAR 能靠近 BF16;长高低文里,它也能让 attention 散布随高低文增长更不变。这注明 attention-aware rotation 不是只在某个 benchmark 上调参有效,而是在缓解 KV 误差随汗青长度累积这个底子问题。
从利用角度看,这对长高低文 Agent 出格关键。真实 Agent 往往蕴含很长的系统提醒、工具注明、汗青对话和检索内容,并且分歧要求之间存在大量共享前缀。若是 KV Cache 只能用 BF16 存,系统很快会被显存卡;若是直接做朴素 INT2,又可能让推理链条失真。OSCAR 的设计刚好夹在两者之间:长汗青用 INT2 降显存和带宽,关键 sink/recent 用 BF16 兜住不变性,再让 prefix cache 复用共享前缀;痪浠八,它把「能压到 2-bit」和「能上线 serving」 放在统一个系统里思考。
TurboQuant 是很强的通用 online vector quantization 步骤;OSCAR 针对的是 attention-aware 2-bit KV serving。二者不是单一代替关系,例如OSCAR 的 最新codebase中已经在attention-aware rotation 引入了更强的 Lloyd Max Codebook,将压缩推向极致。OSCAR 带来了一个怪异的概想:2-bit KV Cache 要能上线,旋转不只是「有没佑坠,而是必须对准 attention,并且要有真实 serving 系统支持。
家人互换的日子TXT全文阅读印度多个领域正面临石油、天然气等能源短缺的严重问题。印度总理莫迪向民众发出罕见的号召,呼吁“全方位节能”,以建设一个“更强大、更自力更生”的印度。李添荣则表示:哭了,幸福的眼泪。是我们球队每个人,缺一个人都不行,团结,像家庭一样。这也是本赛季上海的建队之本,他们能夺冠主要还是靠着团队篮球,每个人都贡献自己一份力,这已经成为了他们的基本盘。就比如总决赛对阵广厦,他们首发和替补都能贡献自己的价值,这种厚度是广厦无法比拟的。特别是在两个大外不能打的情况下,他们还是可以夺冠,大家都能贡献自己一份力。家人互换的日子TXT全文阅读《韩剧《奥秘花圃》》如果说相对论模糊了我们对时间的认知,那么量子理论几乎不再把时间考虑在内。在量子理论中,时间更像是背景板里的一个“外部参数”,许多量子过程在理论上既可以向前、也可以向后发生。城区段河道,开始加上厚厚水泥盖板,上建停车场、小吃城。到本世纪初,约2400米主河道陆续“加盖”,加之道路覆盖,开敞段仅余592米,明河变暗河。2018年,为应对国家专项督察,当地政府对支沟也加上盖板。
20260608 ? 家人互换的日子TXT全文阅读按照以往的一般规律,中国航母进入西太平洋后,会第一时间在穿越岛链的过程中被日本海上自卫队发现和跟踪。但此次辽宁舰编队出西太过程中,虽然日方在18日就发现了后来伴随航母编队的901补给舰编队,但随后几天都没有发布中国航母的位置信息。直到25日,日方才发现辽宁舰编队,但公布的信息也十分粗略。日美方面为什么在这么久后才找到辽宁舰编队?台湾方面为什么也没有发现辽宁舰编队?此次编队的行动与以往相比有什么特点?《玖辛奈的浮殇TXT》OPPO将小布助手列为未来三年AI战略核心,去年年底更是把三大功能模块整合为统一的小布Claw,让AI拥有系统级root权限,实现“记忆—推荐—执行”的闭环。
20260608 ? 家人互换的日子TXT全文阅读“目前看,2027年方洪波很可能从美的正式退休。”至于各业务发展势头,刘步尘则认为,在机器人、医疗、新能源、汽车部件等多个新产业布局中,机器人业务的优势明显在其他业务之上。《攻略错男主后(1VN)全書訂購價格》这名中场当初以100万欧元租借费来到西班牙首都,协议中包含3200万欧元的强制买断条款。不过,尼科-冈萨雷斯并未达到最初协议中规定的出场场次。