Ëæ×Å Agent µÄ¿í·ºÀûÓôøÀ´µÄ³¤ÐòÁÐÐèÒª£¬´«Í³ GPT ¼Ü¹¹µÄ Attention ²¿ÃÅ£¬ÓÉÓÚÆä O (N^2) µÄÍÆË㸴ÔÓ¶È£¬ÕýÖð²½±»ÊÓΪ»úÄÜÆ¿¾±¶øÔâµ½´úÌæ¡£¶ø Attention »úÔìµÄ¼Ü¹¹µü´ú£¬Ò²ÔÚÒÔǰËùδÓеÄËÙ¶ÈÍÆ¶¯¡£Ä¿Ç°Òµ½çµÄÖ÷Á÷¹æ»®´óÌåÄܹ»·ÖΪÁ½ÖÖ£ºLinear Attention ºÍ Sparse Attention¡£ÆäÖÐ Linear Attention ÒÔ Qwen-Next ºÍ Kimi-K2 Ϊ´ú±í£¬ÐÔÖÊÉÏÊÇͨ¹ý¸Ä½øºóµÄ Linear Attention À´ÊµÏÖÐÅϢѹËõ£¬Ê¹µÃ´æ´¢¼ÛֵѹËõµ½ O(1) £¬ÍÆËã¼ÛֵѹËõµ½ O(N)£»¶ø Sparse Attention ÔòÖØÒªÍ¨¹ýÏ¡ÉÙ»¯À´ÓÅ»¯ÍÆË㿪Ïú£¬Êµ¼ÊÖÐÍùÍù¿ÉÄÜ´ïµ½¿¿½ü 90% ÒÔÉϵÄÏ¡ÉÙ¶È£¬ÕâÒ²ÊÇÔÚ DeepSeek-V4 Öб»ÕýʽѡȡµÄ¼¼Êõ·Ïß¡£
È»¶ø£¬ÔÚ RTPurbo ÖÐ [1]£¬Ç°ÆÚ¹¤×÷ÒѾ³ä·ÖÖ¸³ö£¬Ê¹Óà Full Attention+Sliding Window Attention£¨SWA£©¾ÍÒѾÄܹ»ÔÚ¾«¶ÈÎÞËðµÄ±£ÕÏÏ£¬½«ÔÉú Transformer µÄ 85% °ÑÎÈÁ¦Í·Ôì³É SWA£¬ÊµÏÖ 15% Full Attention + 85% SWA µÄ»ìºÏ¼Ü¹¹£¬ÊµÏÖ 5X µÄ KV ºÍ Attention ѹËõ¡£¶ÀÒ»ÎÞ¶þ£¬ÔÚ½üÆÚµÄһЩ¿ªÔ´¼Ü¹¹£¬Èç MIMO¡¢Gemma4¡¢GPT-OSS ÖУ¬Ò²Ê¹ÓÃÁË SWA+Full Attention ÕâÒ»Éè¼Æ£¬ÆÄÓÐÒ»ÖÖ ¡°´ó·ÖÁ¼ò¡± µÄÉè¼ÆË¼Â·¡£
Ö»¹Ü´úÌæÁË 85% µÄ Full Attention ³É SWA£¬Ê£Ï嵀 15% Full Attention ÔÚ³¬³¤ÐòÁУ¨1M£©ÏÂÒÀÈ»»á³ÉΪ»úÄÜÆ¿¾±¡£½ñÌ죬ΪÁ˳¹µ×½â¾ö Attention µÄÍÆÀíÆ¿¾±£¬À´×Ô°¢ÀïµÄ RTP ÍŶÓÍÆ³öÁ˵ڶþ´ú Attention ѹËõ¼¼Êõ£ºRTPurboV2¡£Í¨¹ý½áºÏ Headwise ѹËõ£¬µÍÖÈͶӰѹËõ£¬ÒÔ¼°¾ÛÀ༼Êõ£¬RTPurboV2 Äܹ»ÔÚ V1 ¼Ü¹¹µÄ»ù´¡ÉÏ£¬½øÒ»²½ÔÚ Full Attention ²¿ÃÅʵÏÖ 16~32 ±¶ÍÆËãѹËõ¡£
Full Attention Ä£ÐÍÔÚԤѵÁ·¹ý³ÌÖУ¬ÒѾ×Ô¾õµØÐγÉÁ¶¯ß¶ÈÏ¡ÉÙÈ·°ÑÎÈÁ¦½á¹¹¡£ÎÒÃÇÒª×öµÄ²»ÊÇ "Ç¿¼Ó" Ï¡ÉÙÐÔ£¬¶øÊÇ "¿ªÊÍ" Ëü¡£Õâ¸öÅжϳÉÁ¢ÔÚËĸö¿ÉÁ¿»¯µÄ¹Ø¼ü·¢ÏÖÖ®ÉÏ¡£
×êÑÐÈËÔ±·¢ÏÖ£¬ÔÚ Full Attention Ä£ÐÍÖУ¬·ÖÆçµÄ Attention Head ÏÖʵÉϳе£×Å·ÖÆçµÄÖ°Ôð¡£ÓÐЩ Head רһÓÚ×½Äò¿ÃÅÐÅÏ¢£¨ºÃ±ÈÏàÁÚ token Ö®¼äµÄ¹ØÏµ£©£¬ÓÐЩ Head ÔòÕÆ¹Ü×½Äó¤¾àÀëÒÀÀµ£¨ºÃ±ÈÓë×ÔÉíÓйØÐÅÏ¢µÄ¹ØÁª£©¡£
Ô¼ 15% µÄ Head ²û·¢³öÏÔÖøµÄ "ÕÙ»ØÍ·"£¨retrieval head£©Ìص㣺ËüÃÇÈ·°ÑÎÈÁ¦É¢²¼¼«¶ÈÏ¡ÉÙ£¬Ö»¹Ø×¢ÉÙÊý¼¸¸ö¹Ø¼ü token£¬Õƹܳ¤¾àÀëÐÅÏ¢ÕÙ»ØÆäÓà 85% µÄ Head ÔòÊÇ "Á÷ʽͷ"£¨streaming head£©£ºËüÃÇÈ·°ÑÎÈÁ¦É¢²¼Ïà¶Ô¾ùÔÈ£¬¸ü¶à¹Ø×¢²¿ÃŸߵÍÎÄ
ÕâÖÖ·Ö¹¤Ä£Ê½ÔÚ·ÖÆçÊäÈë¡¢·ÖÆçÐòÁ㤶Èϸ߶Ȳ»±ä£¬ÊÇÄ£ÐÍÔÚԤѵÁ·ÖÐ×Ô¾õϰµÃµÄÄÚº½á¹¹¡£Ö±½ÓÍÆÂÛ£º85% µÄ Full Attention ÍÆËãÄܹ»°²È«µØ´úÌæÎª SWA£¨²Î¿¼ RTPurbo£©£¬ÏÕЩ²»Ó°ÏìÄ£ÐÍÄÜÁ¦¡£ÕæÕý±ØÒª½â¾öµÄ£¬Ö»ÓÐÔü×Ò 15% ÕÙ»ØÍ·µÄ¸ßÐ§ÍÆËãÎÊÌâ
ÕÙ»ØÍ·µÄÖ÷Ì⹤×÷ÊÇÔÚÕû¸öÐòÁÐÖÐ×öÓïÒ寥Åä ¡ª¡ª ¿´ÆðÀ´ÒÀÈ»ÊÇ O (N^2) µÄÎÊÌâ¡£RTPurboV2 µÄÖ÷Ìâ¼¼ÊõÉý¼¶Ö®Ò»ÊǶÔÓÚÕÙ»ØÍ·ºÍ RoPE µÄÏêϸÀí½â¡£ÔÚÉî¿Ì·ÖÎö RoPE µØÎ»±àÂëµÄƵÂʽṹºó£¬ÍŶӷ¢ÏÖÁËÕÙ»ØÍ·µÄ RoPE ·ÖÁ¿´æÔÚÏÔÖøµÄά¶ÈÈßÓà¡£ÔÚ RoPE Ï£¬Query-Key È·°ÑÎÈÁ¦µÃ·ÖÄܹ»·Ö»¯Îª·ÖÆçƵÂÊ·ÖÁ¿µÄµþ¼Ó£º
µÍƵ·ÖÁ¿£¨¦È_i ½ÏС£©£ºËæµØÎ»Æ«ÒÆ»ºÂý±ä¶¯£¬³ÐÔØ token ¼äµÄÓïÒåÓйØÐÔÐÅºÅ¸ßÆµ·ÖÁ¿£¨¦È_i ½Ï´ó£©£ºËæµØÎ»Æ«ÒÆ¼±¾çÕñµ´£¬ÒýÈë¾àÀëÃô¸ÐÐÔ×ÌÈÅ
¶ÔÓÚ³¤¾àÀë¼ìË÷¶øÑÔ£¬¸ßƵ·ÖÁ¿µ¼Ö°ÑÎÈÁ¦µÃ·ÖËæµØÎ»¾àÀë¾çÁÒµßô¤£¬¼õÈõÁËÓïÒåÐźŵIJ»±ä´«µÝ¡£¶ø´ÓÕٻع¤×÷×ÔÉíµÄÐÔÖÊÆô³Ì£ºÒ»¸ö token µÄÕÙ»ØÇ¿¶È²»Ó¦ËæÏà¶ÔµØÎ»µÄ±ä¶¯¶ø¼±¾çµßô¤¡£ÓÉ´ËÄܹ»´§¶È£¬ÔÚÕÙ»ØÍ·ÉÏµÄ¸ßÆµ·ÖÁ¿¿Ï¶¨ÊdzöÓÚ±»Ñ¹Ôì״̬£¬ÕÙ»ØÍ·ÐÔÖÊÉÏÖ»»áÀûÓà RoPE µÍƵ·ÖÁ¿¡£
Òò¶ø£¬Ò»¸öºÜÌìÈ»µÄÉè¼ÆÊÇѵÁ·Ò»¸öµÍά projector£¬ÎÒÃÇͨ¹ýµÍÖÅ׳É佫ÔÊ¼ÌØµãά¶È´Ó D ѹËõÖÁ r=16 (ÆäÖÐ r ? D)£¬ÏµÍ³ÐԵر£ÁôµÍƵÓïÒå·ÖÁ¿¡¢¹ýÂË¸ßÆµµØÎ»ÔëÉù¡£³¢ÊÔÑéÖ¤£¬½ö 16 ά¼´¿É´ïµ½ 90%+ µÄ token ÕÙ»ØÂÊ¡£
ÕâÊÇ RTPurboV2 µÄÖ÷Ìâ¼¼ÊõÉý¼¶Ö®¶þ¡£ÍŶÓÒâʶµ½µÍÖÈͶӰ´øÀ´µÄÔöÒæ²»Ö¹ÓÚÍÆËãÁ¿µÄÖ±½Ó½µµÍ ¡ª¡ª Ëü´Óµ××ÓÉϸÄÉÆÁË Key ÏòÁ¿ÔÚÓïÒå¿Õ¼äÖеÄÉ¢²¼ÖÊÁ¿¡£¸ßƵÔëÉù±»¹ýÂ˺ó£¬ÓïÒåÀàËÆµÄ token ÔÚµÍÖȿռäÖÐÌìÈ»¾Û££¬ÓïÒåÎÞ¹ØµÄ token ±Ë´ËÔ¶Àë¡£ÕâΪÐòÁÐά¶ÈµÄ½øÒ»²½Ñ¹Ëõ´´ÔìÁËÃÎÏëǰÌá¡£
ÌØµãά¶ÈѹËõ¡ú ½µµÍµ¥²½ÍÆË㿪Ïú£¬Í¬Ê±²ú³ö¸ßÖÊÁ¿¾ÛÀàÊäÈëÐòÁÐά¶ÈѹËõ£¨¾ÛÀࣩ¡ú Ìø¹ý´óÁ¿ÓïÒåÎÞ¹Ø token£¬½µµÍ×ÜÍÆËã²½ÊýÐͬЧӦ ¡ú ÌØµãѹËõÌá´¿ºóµÄÏòÁ¿ÈþÛÀàÖÐÐĸü¾«×¼£¬Ê¹µÃÔÚ¼«¶ËѹËõ±ÈÏÂÒÀȻά³Ö¸ßÕÙ»ØÂÊ
´«Í³µÄÏ¡ÉÙ°ÑÎÈÁ¦²½Öèͨ³£Ñ¡È¡¹Ì¶¨ top-k Õ½Êõ£¬¼´Ã¿¸ö query Ö»±£Áô attention score ×î¸ßµÄ k ¸ö token¡£µ«ÕâÖÖ×ö·¨´æÔÚÒ»¸öµ××ÓÐÔÎÊÌ⣺·ÖÆçµÄ attention head¡¢·ÖÆçµÄÐòÁг¤¶È¡¢·ÖÆçµÄ query£¬ËùÐèµÄ¸ßµÍÎÄ token ÊýÁ¿²î¾à¾Þ´ó¡£
ÔÚÊýÊ®ÍòÒÚ token µÄԤѵÁ·Óᄈϣ¬1M token ÏÕЩÄܹ»ºöÂÔ¡£ÕâÒ²´ÓÁíÒ»¸ö½Ç¶ÈÑéÖ¤ÁËÖ÷ÌâÂ۵㣺Full Attention µÄÏ¡ÉÙÐÔÊÇÄÚÉúµÄ£¬Î¢µ÷Ö»ÊÇʵÏÖ´ÓÒþʽµ½ÏÔʽµÄת»¯¡£
ÔÚ Qwen3-Coder-30B-A3B Ä£ÐÍÉÏ£¬ÎÒÃÇͨ¹ýÀëÏßУ׼¼ø±ð³öÔ¼ 15% µÄ¹Ø¼ü ¡°ÕÙ»ØÍ·¡±¡£Õë¶ÔÕâЩ Head£¬ÎÒÃÇÔÚ Prefill ½×¶Îѡȡ Full Attention ²¢¹²Í¬ K Cache ¾ÛÀ࣬ÔÚ Decode ½×¶ÎÔòÀûÓà RTPurboV2 ʵÏÖÏ¡ÉÙ»¯£»ÆäÓàÁ÷ʽͷͳһѡȡ SWA£¨²¿ÃÅ´°¿ÚÉèΪ 8192£©¡£
Èçͼ 3 Ëùʾ£¬RTPurboV2 ÔÚ 32K ºÍ 64K ÐòÁ㤶ÈϾù»ñµÃÁË×îÓžùÔÈ·Ö£¨±ðÀëΪ 89.69 ºÍ 85.61£©£¬ÏÔÖøÓÅÓÚ³ý Full Attention ±íµÄËùÓлùÏß²½Ö裬֤ÁËÈ»ÆäÔÚ³¤³ÌÐÅÏ¢ÕÙ»ØÉϵÄ׿Խ¾«¶È¡£
Õë¶Ô Qwen3.5-35B-A3B Ä£ÐÍ£¬Ð£×¼ÏÔʾÆä³¬¹ý 70% µÄ Head ÓµÓÐÕٻظöÐÔ¡£Îª´Ë£¬ÎÒÃDzÉÈ¡ÁËÈ«Á¿Ï¡ÉÙ»¯Õ½Êõ¡£³¢ÊÔÁ˾֣¨Í¼ 4£©Åú×¢£¬RTPurboV2 ÔÚ´ó·ù½µµÍÍÆË㿪ÏúµÄͬʱ£¬ÆëÈ«±£ÁôÁËÄ£Ð͵Ļù´¡ÄÜÁ¦£¬¾«¶È²û·¢Óë Full Attention ³Ô콡£
ÔÚÁ´Ê½Ë¼Ï루CoT£©ÍÆÀí¹¤×÷ÖУ¬RTPurboV2 ͬÑù²û·¢½Ü³ö£¨Í¼ 5£©£¬ÊµÏÖÁËÄ£ÐÍÍÆÀíÄÜÁ¦µÄ½üºõÎÞËð±£Áô£¬½øÒ»²½ÑéÖ¤Á˸ù滮ÔÚ¸´ÔÓÂß¼³¡¾°ÏµÄ³°ôÐÔ¡£
µ±Ç°°ÑÎÈÁ¦»úÔìµÄ×êÑгÁÐÄ£¬´óÁ¿¼¯ÖÐÔÚÉè¼ÆÈ«ÐµĸßЧ¼Ü¹¹ÉÏ¡£ÕâÌõõè¾¶ÎÞÒÉÓÐÆä¼ÛÖµ¡£µ« RTPurboV2 ½ÒʾÁËÒ»¸öÈÝÒ×±»ºöÊÓµÄÊÂʵ£ºFull Attention Ä£ÐÍ×ÔÉí¾ÍÔ̺¬×ž޴óµÄЧÄܿռ䣬¶ø¿ªÊÍÕâÖÖÄÚÉúÏ¡ÉÙÐԵijɱ¾¼«µÍ¡£
600 ²½ÑµÁ·£¬¾«¶ÈÏÕЩÎÞËð£¬Prefill ×î¸ß 9.36 ±¶¼Ó¿ì¡£ÕâÒâζ×Å£¬¶ÔÓÚÑ¡Ôñ SWA + Full Attention »ìºÏ¼Ü¹¹µÄÍÅ¶Ó ¡ª¡ª Ô̺¬ MIMO¡¢Gemma 4¡¢GPT-OSS¡ª¡ª²»±ØÒª´úÌæ¼Ü¹¹¾ÍÄÜ»ñµÃ¿¿½ü SOTA й滮µÄѹËõЧÄÜ
RTP-LLM Êǰ¢Àï°Í°ÍÖÇÄÜÒýÇæÍŶÓ×ÔÑеĸ߻úÄÜ´óÄ£ÐÍÍÆÀíÒýÇæ£¬Ö§³ÖÁËÌÔ±¦¡¢Ììè¡¢¸ßµÂµÈÖ÷ÌâÒµÎñµÄ´óÄ£ÐÍÍÆÀíÐèÒª¡£ÖÇÄÜÒýÇæÔ´×Ô°¢Àï°Í°ÍËÑË÷¡¢ÍƼöºÍ¸æ°×¼¼Êõ£¬Êǰ¢Àï AI ¹¤³ÌÁìÓòµÄÏÈÐÐÕߺÍÉî¸ûÕß¡£ÍŶÓרһÓÚ AI ¹¤³ÌϵͳµÄ½¨É裬Ö÷µ¼³ÉÁ¢ÁË´óÊý¾Ý AI ¹¤³Ìϵͳ AI?OS£¬³ÖÐøÎª°¢ÀOÍŸ÷ÒµÎñÌṩ¸ßÖÊÁ¿µÄ AI ¹¤³Ì·þÎñ¡£
《罪恶之渊动漫全集》整个过程中,视频生成模型的原始参数和视觉语言模型的参数都保持不变,只有那个小小的LoRA插件在针对这个特定任务做调整。这意味着每次优化都是高度个性化的——针对这道题,专门调整,用完即止,不影响下一道题。《马卡报》节目中还强调,尽快结束这场争论是有必要的。大赛临近,任何关于门将位置的讨论都可能给球队带来不必要的噪音。《罪恶之渊动漫全集》¡¶ß¶½Ì½ÌÎÒ°ÉÌÙÏÈÉú¡·Âþ»ÏÂÀʽ研究团队面临的核心挑战是:如何在不使用真实用户数据的前提下,创建一个足够逼真的测试环境来考察AI的真实能力?他们的解决方案是构建一套精密的模拟系统,整个系统由三个相互配合的部分构成,就像搭建一个精密剧本演出所需的舞台、演员和剧情一样。纳格尔斯曼:美国这边有暖季草和冷季草,这本身就是一个区别,因为这里横跨很多不同的气候带。这里的草比较密,看上去更像一块地毯。说实话,它不像我们平常见到的那种经典草坪,更像是一块铺好的地毯,不过球场整体状况很好。因为底层更软一些,所以球的弹跳会稍微少一点,场地会吸收更多球的反弹力量,不过这块场地完全在合理范围之内。
20260608 ? 《罪恶之渊动漫全集》穆巴拉克表示:“所以,当你投资一家企业时,其实有很多不同的方式。你从“投资”这个词本身去理解——当然,这也是我谋生所做的事情——你可以选择一种偏向短期收益的投资方式,也就是说只关注今天的利润,比如我今天就要分红,今天就要看到回报。或者你也可以选择另一种思路,那就是去打造企业的长期价值,也就是你投资的这家公司的整体价值增长。在这种模式下,你不急于把利润拿走,而是希望企业本身的价值不断提升。投资方式和模型有很多种,并不仅限于这两类,还有许多其他形式。¡¶¡¶ºôÎü¹ý¶È¡·µÄ¶¯Âþ¡·“对方没有像俄罗斯如此自主量产各类打击武器的能力,这包括高超音速武器、全谱系巡航导弹以及多款别国不具备的打击装备,例如被广泛讨论的‘榛树’ 中程武器,”他补充说,“我们也在开发其他打击武器。”
20260608 ? 《罪恶之渊动漫全集》也许是看到谢苗火了,释小龙也在同样的赛道上复制和发力了,也许是片方想要蹭谢苗的热度,但两人的电影相差5天上映,不得不怀疑一切是偶然的吗?¡¶°ÝÍÐÁ˽ã½ã¡·Ó£»¨È«¼¯“我随时准备提供帮助,也随时准备平息事态。我们应该帮助他们营造一个能够应对干扰、专注投入并尽最大努力完成我们为他们设定的角色的环境。