ºÃÅ®º¢µçÓ°ºÃ¿´Â𣿴øÄã¼±¾çÏàʶ¾çÇéÓë¿´µã
Äã×î½üÊDz»ÊÇÒ²±»°é°²ÀûÁË¡¶ºÃÅ®º¢¡·ÕⲿµçÓ°£¬µ«ÓÖ²»È·¶¨Öµ²»ÖµµÃ»¨¹¦·òȥˢ£¿? ÎÒһ·ͷҲÊǽ«ÐŽ«ÒÉ£¬Ö±µ½×Ô¼ºÆëÈ«¿´Í꣬²Å·¢ÏÖËü²¢²»ÊÇÄÇÖÖÒ»ÑÛ¾ÍÄÜ¿´´©µÄÀàÐÍ¡£
? ÏȸãÃ÷ÏÔ£¬¡¶ºÃÅ®º¢¡·½²µÄÊÇʲô
ºÃ¶àÈËÌýµ½Ãû×Ö£¬»áÒÔΪÊǸöµ¥´¿µÄÇà´º°®Ç鯬£¬ÆäʵËüµÄ¹ÊÊÂÒª¸ü¸´ÔÓÒ»µã¡£µ¥Ò»À´Ëµ£¬ËüÝÓÈÆÒ»¸ö±í±íÁéÇÉ¡¢ÄÚÐÄÈ´²Ø×źöà°ÂÃØµÄÅ®º¢·¢Õ¹£¬ËýÔÚÉúÑÄ¡¢¸ÐÇéºÍ×ÔÎÒÑ¡ÔñÖ®¼ä²»ÐÝÀ³¶¡£
µçÓ°²¢Ã»Óаѡ°ºÃÅ®º¢¡±½ç˵³Éµ¥Ò»µÄÐÎÏ󣬶øÊÇͨ¹ýËýµÄ¾Àú£¬ÈÃÈËȥ˼ÂÇ¡ª¡ªµ½µ×ʲôÊǺã¬Ê²Ã´ÊÇ»µ£¬½çÏÞÔÚÄÄÀï¡£
??¡â? ΪʲôÓÐÈË˵¿´²»¶®£¿
ÎÒÔÚÓ°ÆÀÇø¿´µ½²»ÉÙÈËÁôÑÔ˵¡°½ÚÅÄÂý¡±¡°¾çÇéÉ¢¡±£¬ÆäʵÔÒò¿ÉÄÜÓÐÁ½¸ö£º
ÎÒ×Ô¼ºµÚÒ»´Î¿´µÄʱ³½£¬Ò²¸Ð´¥Ç°°ë¶ÎÓÐµãÆ½£¬µ«ºó°ë¶Î»Ø×ª³öÏÖʱ£¬²Å·¢ÏÖÇ°ÃæÂñÁ˺öà·ü±Ê£¬Ö»ÊÇÆäʱû°ÑÎȵ½¡£
? ÖµµÃÒ»¿´µÄÀíÓÉ
ÈôÊÇÄ㻹ÔÚÓÌÔ¥Òª²»Òª¿´£¬Äܹ»´ÓÕ⼸¸ö½Ç¶È˼¿¼£º
ÑÝÔ±²û·¢£ºÅ®Ö÷µÄÑݼ¼ºÜÌìÈ»£¬ÑÛÉñÏ·³ö¸ñ¶à£¬ºÃ¶à¸ÐÇé²»ÓĄ̃´ÊÒ²Äܸд¥µ½¡£
¾µÍ·Ëµ»°£ºµ¼ÑÝÓÃÁ˺öà½ü¾°ºÍÌØÐ´£¬°ÑÈËÎïµÄ°ÂÃî±ä¶¯ÅĵúÜÕæÊµ¡£
¸ÐÇ鹲ʶ£º²»ÂÛÄãÊÇÄÐÉú»¹ÊÇÅ®Éú£¬¶¼ÄÜÔÚ½ÇÉ«ÉíÉÏÕÒµ½Ò»µã×Ô¼ºµÄÓ°×Ó£¬ÓÈÆäÊÇÃæ¶ÔÑ¡ÔñʱµÄ¾À½á¡£
? ÅÔ¹ÛÓ×ÌùÊ¿
ÄÍÐÄÒ»µã£ºÇ°Á½Ä»½ÚÅĵÄÈ·²»Ëã¿ì£¬µ«½¨Òé¶ÔÖÅ¿´Í꣬ºóÃæ»áÓоªÏ²¡£
×¢Òâϸ½Ú£ºÂ·¾ß¡¢·þ×°É«²Ê¡¢²¼¾°ÒôÀÖ¶¼ÔÚ°µÊ¾ÈËÎïÉúÀí£¬´í¹ý»áºÜÍïϧ¡£
±ðÖ»¿´Ò»´Î£ºÓÐЩÇé½Ú±ØÒª»Ø¿´ÄÜÁ¦ÕæÕýÀí½â£¬ºÃ±Èij¸öµç»°µÄÄÚÈÝ¡¢Ä³¸öÑÛÉñµÄÔ¢Òâ¡£
ÎÒ×Ô¼º¸Ð´¥£¬¡¶ºÃÅ®º¢¡·×î´óµÄ÷ÈÁ¦ÔÚÓÚËü²»¼±ÓÚ¸øÄã´ð°¸£¬¶øÊÇÈÃÄã×Ô¼ºÈ¥Åжϡ£¿´ÍêÖ®ºó£¬ÎÒÒ»ÏòÔÚÏ롪¡ªÈôÊÇ»»×÷ÊÇÎÒ£¬»á²»»á×ö³öͬÑùµÄÑ¡Ôñ£¿ÕâÖÖ˼ÂǵÄÓà棬ÊǺöà¿ì²ÍʽµçÓ°¸ø²»Á˵ġ£?
?
¹ú²úÒ»Ïß¶þÏßÈýÏßÅ®×°Æ·ÅÆ´óÈ«任何新方法都有计算代价,κ-SwiGLU也不例外。研究团队在最大的MoE-14L模型上进行了详细的开销测量。结果是:额外引入的激活参数仅增加0.02%,可以完全忽略不计。训练吞吐量(每秒处理词数)从153,200降至142,500,下降约7%;推理吞吐量从24,600降至23,729,下降约3.5%。这些开销完全来自计算κ所需的少量额外元素级运算。研究团队表示,通过进一步的底层算子优化,这些开销还有望降至可忽略的水平。
? »ÆÑ¶¼ÇÕß Áõ½¡Åô Éã