CA88

家人互换的日子TXT全文阅读超过TurboQuant，长高低文推理真2-bit KV Quantization算法问世

2026-06-08 05:19:13 起源：贾全德

字号：默认大超大 | 打印 |

本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist，悉尼大学博士，钻研方向为高效机械进建系统，方向覆盖模型训推算法与系统协同设计，LLM 压缩与量化。团队成员均来自 TogetherAI，悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。长高低文模型越来越强，但服务时的瓶颈往往不是算力，而是 KV Cache：每天生一个 token，都要从显存中读取越来越长的汗青 key，value。高低文越长、batch 越大，KV Cache 越吃显存，也越吃带宽。把汗青 KV 压到 2-bit，理论上能够让汗青段显存削减约8 倍；但真正难的是，压完之后推理能力不能崩，系统也必须能在真实 serving 框架里跑起来。为什么 2-bit KV Cache 这么难？INT2 只有 4 个量化等级，而 KV activation 中时时有少数幅值极大的 outlier channel。若是这些 outlier 主导量化尺度，大无数正常值会被挤到很少的有效等级里，把稳力散布很快漂移。通常 Hadamard 旋转能把 outlier 摊平，但它不知路模型在 attention 里真正读哪些方向。OSCAR 的主题就是把旋转指标从「沉建原始 K/V 向量」改成「保留 attention 消费 KV 的方式」。相比之前量化的工作，好比 TurboQuant 压缩的是向量，但忽略了真正影响模型的是 attention 的质量，OSCAR 保留的是 attention 真正会读的方向。朴素 INT2 和全模型层的 3-bit K/V TurboQuant 城市在难题推理工作上显著掉分；OSCAR 在约2.28 effective bits per KV element下仍能靠近 BF16，并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高提升40.1 分。图 1 对比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化误差传布链路上的差距。关键点是，原始 K/V 的沉建误差并不能齐全诠释模型最终阐发；真正影响推理质量的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。OSCAR 的优势不只是让向量数值更滑润，而是把量化误差压到 attention 不敏感的方向上。具体来说，对 key 来说，量化误差会进入 attention logits，也就是 QK?，因而 OSCAR 用 query covariance（Q?Q）机关 key 的旋转指标；对 value 来说，误差经过把稳力权沉进入输出，因而 OSCAR 使用 score-weighted value covariance（V?S?SV）。离线校准阶段，OSCAR 从少量校准样本中估计这些 attention-aware covariance，为每层、每个 head 天生固定旋转和 clipping 阈值。最终旋转写作R = U?Hadamard?bit-reversal：U 对准 attention 有关方向，Hadamard 分散 outlier，bit-reversal 平衡 INT2 分组，预防某个 group 被少数通路摆布。其中 sink token 和 recent window 维持 BF16，用来�；� attention sink 与短期部门高低文；中央最长的汗青段存成旋转后的 INT2。新 token 先写入 recent window，随着解码推动，最老的 recent token 再由融合 Triton kernel 执行 rotate /clip/quantize/pack，并 demote 到 INT2 history。每 4 个 2-bit 值打包进 1 个 byte。decode 阶段，OSCAR 在 GPU 上把缓存分成 BF16 段和 INT2 段：INT2 kernel 掌管 unpack、scale/zero point 还原和浮点累加，BF16 kernel 处置 sink/recent，最后用 online softmax merge 归并了局。它同时兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline，因而能够直接用于长高低文 workload，而不是停顿在论文图内外。图 2 展示 OSCAR 从离线校准到在线 serving 的齐全蹊径。左侧是离线阶段：OSCAR 从少量校准样本中估计 attention-aware rotation 和 clipping threshold，让 KV activation 在进入 INT2 前变得更适合量化。右侧是在线阶段：sink/recent token 持续维持 BF16，中央最长的 history KV 进入旋转后的 INT2 cache，并在 SGLang paged KV 中实现真实 serving。因而 OSCAR 不是单一量化技巧，而是一整套 2-bit KV Cache pipeline。 OSCAR 在2.28 BPE下，Qwen3-4B-Thinking 距 BF16 仅3.78分，Qwen3-8B 距 BF16 仅1.42 分，Qwen3-32B 与 GLM-4.7-FP8 根基与 BF16 吃旖。相比之下，QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 工作上大多直接崩溃；TurboQuant 在全层 3-bit K/V、无 mixed-precision �；さ钠秸柚孟�，也在幼模型推理工作上掉分显著。 OSCAR还在128K长高低文设置下对中 / 大规模模型做了 RULER-NIAH 测试：OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上都维持了显著更不变的检索机能，注明这种 attention-aware 旋转不仅能撑住短评测，也能抵抗超长汗青中 KV 误差的累积�；痪浠八�，OSCAR 是少数能在真近 2-bit 设置下仍维持现代 reasoning model 质量的步骤。系统收益也极度直接：相对 BF16 history storage，OSCAR 可削减约8×KV Cache memory；在 100k context、batch-size-1、full prefix-cache hit 设置下，decode 最高约3×加快；在大 batch、同显存预算下，job-level throughput 最高约7×。prefix cache 射中率越高，OSCAR 越能利用更幼的 KV footprint 提升并发吞吐，这对共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景尤其沉要。图 3 是论文主了局表，蕴含 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模型、五个工作上的齐全对比。BF16 是精度上界；Saw-INT4 是强 4-bit 参考，BPE 为4.25；TurboQuant 在这里使用无 mixed-precision �；さ娜�3-bit K/V设置，BPE 为3.25；QuaRot-INT2 和 Naive INT2 是靠近 2-bit 的旋转 / 朴素基线，BPE 约2.25；OSCAR 则在2.28 BPE下运行。这张表的沉点不是单一模型，而是「低比特能不能不变」。在 Qwen3-4B-Thinking 上，TurboQuant mean 为31.74，QuaRot-INT2 只有1.40，Naive INT2 为0.00；OSCAR 达到71.86，距离 BF16 只差3.78，并相对 TurboQuant 提升40.1 分。在 Qwen3-8B 上，OSCAR mean 为69.42，距离 BF16 只差1.42，而 TurboQuant 为56.88。到 Qwen3-32B 和 GLM-4.7-FP8，OSCAR 根基与 BF16 吃旖�；痪浠八�，在靠近 2-bit 的 KV 预算下，OSCAR 是表中唯一能在多模型、多工作上不变切近 BF16 的 INT2 步骤。图 4 单独看 AIME25 这个高难数学推理工作，并对比 KIVI-KV2、Kitty 和 OSCAR。但由于 KIVI, KITTY 没有 framework 支持，无法进行 long context run，所以拔取了他们步骤唯一在 32K 汇报的了局 - AIME25。在 Qwen3-8B 上，OSCAR 以2.38 BPE达到66.67，根基追平 BF16 的66.00，显著高于 KIVI-KV2 和 Kitty；在 Qwen3-32B 上，OSCAR 达到74.00，甚至略高于 BF16 的72.59，也超过 Kitty 的69.26。这注明 OSCAR 不只是相对 TurboQuant 有优势，在已有 KV-cache 量化步骤中，也能在靠近 2-bit 的预算下保住难题数学推理能力。图 5 展示 100k 高低文下的系统机能。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约3×加快；在固定显存预算下，batch size 增大时，INT2 history 带来的 KV footprint 降低能够显著提高 job-level throughput，最高约7×。这注明 OSCAR 不只是精度能保住，也能实打实降低显存带宽压力。图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。横轴是单用户吞吐，纵轴是单 GPU 吞吐；从 cache disabled 到 normal cache，再到靠近 100% warmup replay，吞吐前沿逐步表扩。OSCAR 维持尺度 paged KV /prefix cache 抽象，因而共享系统提醒、多轮 Agent、工具挪用循环等长前缀复用场景能够直接受益。这些了局的一个沉要寓意是，OSCAR 并没有依赖「遴选少数层保留高精度」来保住分数。好多低比特步骤在真正部署时会借助混合精度：第一层、最后一层或若干敏感层依然保留较高 bit，这会让均匀 bit 数上升，也会让 kernel 和 cache layout 变复杂。OSCAR 的对比更严格：汗青 KV 主体维持统一的 INT2 暗示，只在 sink 和 recent 两个很幼窗口保留 BF16。这样做的益处是，系统工程上更容易接入 paged cache、prefix cache 和批量调度，也更靠近真实服务场景中的显存预算。另一个值得强调的点是，OSCAR 的收益不是只在幼模型或短高低文上成立。论文同时测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模型；既看了数学、代码、知识问答等 32K 推理天生工作，也看了 128K RULER-NIAH 长高低文检索。短评测里，OSCAR 能靠近 BF16；长高低文里，它也能让 attention 散布随高低文增长更不变。这注明 attention-aware rotation 不是只在某个 benchmark 上调参有效，而是在缓解 KV 误差随汗青长度累积这个底子问题。从利用角度看，这对长高低文 Agent 出格关键。真实 Agent 往往蕴含很长的系统提醒、工具注明、汗青对话和检索内容，并且分歧要求之间存在大量共享前缀。若是 KV Cache 只能用 BF16 存，系统很快会被显存卡��；若是直接做朴素 INT2，又可能让推理链条失真。OSCAR 的设计刚好夹在两者之间：长汗青用 INT2 降显存和带宽，关键 sink/recent 用 BF16 兜住不变性，再让 prefix cache 复用共享前缀�；痪浠八�，它把「能压到 2-bit」和「能上线 serving」放在统一个系统里思考。 TurboQuant 是很强的通用 online vector quantization 步骤；OSCAR 针对的是 attention-aware 2-bit KV serving。二者不是单一代替关系，例如OSCAR 的最新codebase中已经在attention-aware rotation 引入了更强的 Lloyd Max Codebook，将压缩推向极致。OSCAR 带来了一个怪异的概想：2-bit KV Cache 要能上线，旋转不只是「有没佑坠，而是必须对准 attention，并且要有真实 serving 系统支持。

家人互换的日子TXT全文阅读

                                家人互换的日子TXT全文阅读印度多个领域正面临石油、天然气等能源短缺的严重问题。印度总理莫迪向民众发出罕见的号召，呼吁“全方位节能”，以建设一个“更强大、更自力更生”的印度。李添荣则表示：哭了，幸福的眼泪。是我们球队每个人，缺一个人都不行，团结，像家庭一样。这也是本赛季上海的建队之本，他们能夺冠主要还是靠着团队篮球，每个人都贡献自己一份力，这已经成为了他们的基本盘。就比如总决赛对阵广厦，他们首发和替补都能贡献自己的价值，这种厚度是广厦无法比拟的。特别是在两个大外不能打的情况下，他们还是可以夺冠，大家都能贡献自己一份力。家人互换的日子TXT全文阅读《韩剧《奥秘花圃》》如果说相对论模糊了我们对时间的认知，那么量子理论几乎不再把时间考虑在内。在量子理论中，时间更像是背景板里的一个“外部参数”，许多量子过程在理论上既可以向前、也可以向后发生。城区段河道，开始加上厚厚水泥盖板，上建停车场、小吃城。到本世纪初，约2400米主河道陆续“加盖”，加之道路覆盖，开敞段仅余592米，明河变暗河。2018年，为应对国家专项督察，当地政府对支沟也加上盖板。
                            

                                20260608 ? 家人互换的日子TXT全文阅读按照以往的一般规律，中国航母进入西太平洋后，会第一时间在穿越岛链的过程中被日本海上自卫队发现和跟踪。但此次辽宁舰编队出西太过程中，虽然日方在18日就发现了后来伴随航母编队的901补给舰编队，但随后几天都没有发布中国航母的位置信息。直到25日，日方才发现辽宁舰编队，但公布的信息也十分粗略。日美方面为什么在这么久后才找到辽宁舰编队？台湾方面为什么也没有发现辽宁舰编队？此次编队的行动与以往相比有什么特点？《玖辛奈的浮殇TXT》OPPO将小布助手列为未来三年AI战略核心，去年年底更是把三大功能模块整合为统一的小布Claw，让AI拥有系统级root权限，实现“记忆—推荐—执行”的闭环。
                            

家人互换的日子TXT全文阅读

? 苏蕴华记者李晓丽摄

                                20260608 ? 家人互换的日子TXT全文阅读“目前看，2027年方洪波很可能从美的正式退休。”至于各业务发展势头，刘步尘则认为，在机器人、医疗、新能源、汽车部件等多个新产业布局中，机器人业务的优势明显在其他业务之上。《攻略错男主后(1VN)全書訂購價格》这名中场当初以100万欧元租借费来到西班牙首都，协议中包含3200万欧元的强制买断条款。不过，尼科-冈萨雷斯并未达到最初协议中规定的出场场次。
                            

家人互换的日子TXT全文阅读

? 武玉风记者李颖仲摄

                            ? 6月5日，英伟达CEO黄仁勋在韩国接受外媒采访时，当被问及“英伟达将因供应紧张而削减HBM用量”的传言，黄仁勋明确回应称：“我们将使用大量的HBM内存。当然，目前供应确实受限。因此，我们需要在所有系统中更加明智地使用内存。我们将继续与这里的合作伙伴合作，以争取尽可能多的供应，并尽可能巧妙地运用。”《狂乱强逼》漫画下拉式免费
                        

【我要推荐】更多推荐：云深处人形机械人全新升级：落地电力场景实现精密操作

扫一扫在手机打开当前页

链接：
全国人大
|
全国政协
|
国度监察委员会
|
最高人民法院
|
最高人民检察院

国务院部门网站
|
处所当局网站
|
驻港澳机构网站
|
驻表机构

red

中国当局网 | 关于本网 | 网站申明 | 联系CA88 | 网站纠错

主办单元：家人互换的日子TXT全文阅读　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452　京ICP备05070218号　 2018guohui03 京公网安备11010202000001号

CA88(中国区)唯一官方网站

国务院客户端

CA88(中国区)唯一官方网站

国务院客户端幼法式

中国当局网微博、微信

gtrs_red

主办单元：中国当局网　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】