½üÈÕ£¬CMU ÖúÀí½ÌÊÚ¼ÖÖ¾ºÀ£¨Zhihao Jia£©ÍŶӴ´ÐÂÍæ·¨£¬ÍƳöÁËÒ»¸öÃûΪ¡¸Mirage Persistent Kernel£¨MPK£©¡¹µÄ±àÒëÆ÷£¬Äܹ»×Ô¶¯½« LLM ת»¯ÎªÓÅ»¯µÄ¾ÞÐÍÄںˣ¨megakernel£©£¬´Ó¶ø½« LLM ÍÆÀíÑÓ³¤½µµÍ 1.2 µ½ 6.7 ±¶¡£
ÔÚÕâÖÖÉè¼ÆÖУ¬ÏµÍ³½öÆô¶¯Ò»¸ö GPU ÄÚºËÀ´Ö´ÐÐÕû¸öÄ£ÐÍ ¡ª¡ª ´ÓÖð²ãÍÆËãµ½ GPU ¼äͨѶ ¡ª¡ª Õû¸ö¹ý³ÌÎÞÐèÖжϡ£ÕâÖÖ²½ÖèÌṩÁËÒÔϼ¸¸ö¹Ø¼üµÄ»úÄÜÓÅÊÆ£º
½â³ýÄÚºËÆô¶¯¿ªÏú£ºÍ¨¹ýÔ¤·À³Á¸´µÄÄÚºËŲÓ㬼´±ãÊÇÔÚ¶à GPU »·¾³Ï£¬Ò²Äܽâ³ýÄÚºËÆô¶¯¿ªÏú£»ÊµÏÖ¿ç²ãÈí¼þ pipeline ÔÊÐíÄÚºËÔÚÍÆË㵱ǰ²ãµÄͬʱ£¬ÆðͷΪÏÂÒ»²ã¼ÓÔØÊý¾Ý£»³ÁµþÍÆËãÓëͨѶ£ºÓÉÓÚ¾ÞÐÍÄÚºËÄܹ»Í¬Ê±Ö´ÐÐÍÆËã²Ù×÷ºÍ GPU ¼äͨѶ£¬´Ó¶ø°µ²ØÍ¨Ñ¶ÑÓ³¤¡£
ÏÖÓеĸ߼¶ ML ¿ò¼Ü ¡ª¡ª Èç PyTorch¡¢Triton ºÍ TVM£¬ËüÃÇ×ÔÉí²¢²»Ö§³Ö¶Ëµ½¶Ë¾ÞÐÍÄÚºËÌìÉú¡£´Ë±í£¬ÏÖ´ú LLM ϵͳÓɸ÷Àà·ÖÆçµÄרÓÃÄں˿⹹½¨¶ø³É£ºÓÃÓÚͨѶµÄ NCCL »ò NVSHMEM£¬ÓÃÓÚ¸ßЧ°ÑÎÈÁ¦ÍÆËãµÄ FlashInfer »ò FlashAttention£¬ÒÔ¼°ÓÃÓÚ×Ô½çËµÍÆËãµÄ CUDA »ò Triton¡£
ÄÇôÄÜ·ñͨ¹ý±àÒë×Ô¶¯»¯Õâ¸ö¹ý³ÌÄØ£¿Êܵ½Õâ¸öÎÊÌâµÄÆô·¢£¬À´×Ô CMU¡¢»ªÊ¢¶Ù´óѧ¡¢¼ÓÖÝ´óѧ²®¿ËÀû·ÖУ¡¢Ó¢Î°´ïºÍÇ廪´óѧµÄÍŶӿª·¢³öÁË MPK¡ª¡ª Ò»¸ö±àÒëÆ÷ºÍÔËÐÐʱϵͳ£¬ËüÄÜ×Ô¶¯½«¶à GPU µÄ LLM ÍÆÀíת»»Îª¸ß»úÄܵľÞÐÍÄںˡ£MPK ¿ªÊÍÁ˶˵½¶Ë GPU ÈںϵÄЧÁ¦ÓÅÊÆ£¬Í¬Ê±Ö»±ØÒª¿ª·¢ÕßÖ§³ö¼«Ó×µÄÊÖ¶¯ÖÂÁ¦¡£
MPK µÄÒ»¸ö¹Ø¼üÓÅÊÆÔÚÓÚ£ºÍ¨¹ý½â³ýÄÚºËÆô¶¯¿ªÏú£¬²¢×î´óˮƽµØ³Áµþ¿ç²ãµÄÍÆËã¡¢Êý¾Ý¼ÓÔØºÍ GPU ¼äͨѶ£¬ÊµÏÖÁ˼«µÍµÄ LLM ÍÆÀíÑÓ³¤¡£
³ýÁ˵¥ GPU ÓÅ»¯£¬MPK »¹½«ÍÆËãÓë GPU ¼äͨѶÈںϽøÒ»¸öµ¥Ò»µÄ¾ÞÐÍÄںˡ£ ÕâÖÖÉè¼ÆÊ¹µÃ MPK ¿ÉÄÜ×î´óˮƽµØ³ÁµþÍÆËãÓëͨѶ¡£Òò¶ø£¬MPK Ïà¶ÔÓÚµ±Ç°ÏµÍ³µÄ»úÄÜÌáÉýËæ×Å GPU ÊýÁ¿µÄÔö³¤¶øÔö´ó£¬Ê¹ÆäÔÚ¶à GPU ²¿Ê𳡾°ÏÂÓÈΪ¸ßЧ¡£
Part 1£ºMPK ±àÒëÆ÷£¬Æä½« LLM µÄÍÆËãͼת»¯ÎªÓÅ»¯µÄ¹¤×÷ͼ£»Part 2£ºMPK ÔËÐÐʱϵͳ£¬¸ÃϵͳÔÚµ¥¸ö¾ÞÐÍÄÚºËÄÚÖ´Ðй¤×÷ͼ£¬ÒÔʵÏÖ¸ßÍÌÍÂÁ¿ÓëµÍÑÓ³¤¡£
LLM µÄÍÆËã¹ý³Ìͨ³£°µÊ¾ÎªÍÆËãͼ£¬ÆäÖÐÿ¸ö½Úµã¶ÔÓ¦Ò»¸öÍÆËãËã×Ó£¨Èç¾ØÕó³Ë·¨¡¢°ÑÎÈÁ¦»úÔ죩»ò¼¯ÖÐͨѶÔÓÈç all-reduce£©£¬±ß°µÊ¾Ëã×Ó¼äµÄÊý¾ÝÒÀÀµ¹ØÏµ¡£ÏÖÓÐϵͳͨ³£ÎªÃ¿¸öËã×ÓÆô¶¯¶ÀÁ¢µÄ GPU Äںˡ£
È»¶ø£¬ÕâÖÖ¡¸µ¥Ëã×Óµ¥Äںˡ¹µÄÖ´ÐÐÄ£ÐÍÄÑÒÔʵÏÖ pipeline ÓÅ»¯£¬ÓÉÓÚÒÀÀµ¹ØÏµÊÇÔÚÕû¸öÄں˵ĴÖÁ£¶È²ãÃæÇ¿ÔìÖ´Ðе쬶ø·ÇÏÖʵÊý¾Ýµ¥Ôª²ãÃæ¡£
µäÐͰ¸ÀýÈç¾ØÕó³Ë·¨£¨matmul£©ºó½Ó all-reduce ²Ù×÷£ºÏÖÓÐϵͳÖУ¬all-reduce Äں˱ØÐëÆÚ´ýÕû¸ö matmul ÄÚºËʵÏÖ¡£¶øÏÖʵÉÏ£¬all-reduce µÄÿ¸öÊý¾Ý·Ö¿é½öÒÀÀµ matmul Êä³öµÄ²¿ÃÅÁ˾֡£ÕâÖÖÂß¼ÒÀÀµÓëÏÖʵÒÀÀµµÄ´íÅ䣬ÑϳÁÏÞ¶ÈÁËÍÆËãÓëͨѶµÄ³ÁµþDZÁ¦¡£
ÏÂͼ 2 չʾÁË MPK ±àÒëÆ÷½« PyTorch ½ç˵µÄ LLM ÍÆËãͼת»¯ÎªÓÅ»¯Ï¸Á£¶È¹¤×÷ͼ£¬×î´ó»¯Â¶³ö²¢ÐÐÐÔ¡£ÓÒ²àչʾ´ÎÓŹ滮 ¡ª¡ª ÆäÒýÈë²»ÓÃÒªµÄÊý¾ÝÒÀÀµÓëÈ«¾Ö·®À飬µ¼Ö¿ç²ãÁ÷Ë®ÏßÓÅ»¯»úÓöÊÜÏÞ¡£
ΪÏàʶ¾ö´ËÎÊÌ⣬MPK ÒýÈëµÄ±àÒëÆ÷¿É½« LLM ÍÆËãͼ×Ô¶¯×ª»¯ÎªÏ¸Á£¶È¹¤×÷ͼ¡£¸Ã¹¤×÷ͼÔÚ×ÓÄں˼¶±ðÏÔʽ²¶»ñÒÀÀµ¹ØÏµ£¬ÊµÏÖ¸ü¼¤½øµÄ¿ç²ãÁ÷Ë®ÏßÓÅ»¯¡£
¹¤×÷£¨¾ØÐΰµÊ¾£©£¬´ú±í·ÖÅ䏸µ¥¸ö GPU Á÷ʽ¶à´¦ÖÃÆ÷£¨SM£©µÄÍÆËã / ͨѶµ¥Ôª¡£ÊÂÎñ£¨Ô²ÐΰµÊ¾£©£¬°µÊ¾¹¤×÷¼äµÄͬ²½µã¡£´¥·¢»úÔ죬ÿ¸ö¹¤×÷·¢³öÖ¸Ïò´¥·¢ÊÂÎñµÄ±ß£¬¸ÃÊÂÎñÔÚ¹ØÁª¹¤×÷È«ÊýʵÏֺ󼤻ÒÀÀµ»úÔ죬ÿ¸ö¹¤×÷½Ó¹ÜÀ´×ÔÒÀÀµÊÂÎñµÄ±ß£¬Åú×¢ÊÂÎñ¼¤»îºó¹¤×÷Á¢¼´Æô¶¯¡£
¹¤×÷ͼʹ MPK ¿ÉÄÜÍÚ¾òÍÆËãͼÖÐÎÞ·¨ÊµÏÖµÄ pipeline ÓÅ»¯»úÓö¡£ÀýÈ磬MPK Äܹ»¹¹½¨ÓÅ»¯¹¤×÷ͼ ¡ª¡ª ÆäÖÐÿ¸ö all-reduce ¹¤×÷½öÒÀÀµÓÚÌìÉúÆäÊäÈëµÄ¶ÔÓ¦ matmul ¹¤×÷£¬´Ó¶øÊµÏÖ·Ö¿éÖ´ÐÐÓëÍÆËãͨѶ³Áµþ¡£
MPK Ô̺¬ÄÚÖà GPU ÔËÐÐʱϵͳ£¬¿ÉÔÚµ¥¸ö GPU ¾ÞÐÍÄÚºËÄÚÆëȫִÐй¤×÷ͼ¡£ÕâʹµÃϵͳÄÜÔÚÍÆÀí¹ý³ÌÖÐÎÞÐè¶î±íÄÚºËÆô¶¯µÄÇé¿öÏ£¬ÊµÏÖ¹¤×÷Ö´ÐÐÓëµ÷¶ÈµÄϸÁ£¶È½ÚÔì¡£
»ñÈ¡¹¤×÷£º´Ó¶ÓÁÐÖÐÌáÈ¡ÏÂÒ»´ýÖ´Ðй¤×÷¡£Ö´ÐÐÍÆË㣺ÔËÐй¤×÷£¨Èç¾ØÕó³Ë·¨ / °ÑÎÈÁ¦»úÔì / GPU ¼äÊý¾Ý´«Ê䣩¡£ÊÂÎñ´¥·¢£º¹¤×÷ʵÏÖºó֪ͨ´¥·¢ÊÂÎñ¡£Ñ»·Ö´ÐУº³Á¸´ÉÏÊö¹ý³Ì¡£
µ÷¶È¾ö²ßÓÉ MPK µÄÉ¢²¼Ê½µ÷¶Èµ¥Ôª´¦Öã¬Ã¿¸öµ÷¶Èµ¥ÔªÔËÐÐÓÚµ¥¸öÏß³ÌÊø£¨warp£©ÉÏ¡£ÓÉÓÚÿ¸öÁ÷ʽ¶à´¦ÖÃÆ÷£¨SM£©Äܹ»°üÈݶà¸öÏß³ÌÊø£¬Òò¶øµ¥ SM ×î¶à¿É²¢·¢ÔËÐÐ 4 ¸öµ÷¶Èµ¥Ôª¡£Ã¿¸öµ÷¶Èµ¥ÔªÊØ»¤¼¤»îÊÂÎñ¶ÓÁУ¬²¢³ÖÐøÖ´ÐÐÒÔϲÙ×÷£º
ÏÂͼ 3 չʾÁË MPK µÄÖ´Ðй¦·òÏߣ¬ÆäÖÐÿ¸ö¾ØÐδú±íÒ»¸öÔÚ¹¤×÷µ¥ÔªÉÏÔËÐеŤ×÷£»Ã¿¸öԲȦ´ú±íÒ»¸öÊÂÎñ¡£µ±Ò»¸ö¹¤×÷ʵÏÖʱ£¬Ëü»áµÝÔöÆä¶ÔÓ¦´¥·¢ÊÂÎñµÄ¼ÆÊýÆ÷¡£µ±ÊÂÎñ¼ÆÊýÆ÷´ïµ½Ô¤ÉèãÐֵʱ£¬¸ÃÊÂÎñ±»ÊÓΪÒѼ¤»î£¬²¢±»²ÎÓëµ÷¶Èµ¥ÔªµÄÊÂÎñ¶ÓÁС£Ëæºó£¬µ÷¶Èµ¥Ôª»áÆô¶¯ËùÓÐÒÀÀµÓÚ¸ÃÊÂÎñµÄÏÂÓι¤×÷¡£
ÓÉÓÚËùÓеĵ÷¶ÈºÍ¹¤×÷Çл»¶¼²úÉúÔÚµ¥Ò»Äں˸ߵÍÎÄÄÚ£¬¹¤×÷¼äµÄ¿ªÏú¼«µÍ£¬Í¨³£½öÐè 1-2 ΢Ã룬´Ó¶ø¿ÉÄܸßЧµØÖ´Ðжà²ã¡¢¶à GPU µÄ LLM ¹¤×÷¸ºÔØ¡£
ÍÅ¶Ó¶Ô MPK µÄÔ¸¾°ÊÇʹ¾ÞÐÍÄں˱àÒë¼ÈÒ×ÓÚʹÓÃÓ־߱¸¸ß»úÄÜ¡£Ä¿Ç°£¬ÄãÖ»Ð輸ʮÐÐ Python ´úÂë£¨ÖØÒªÓÃÓÚÖ¸¶¨¾ÞÐÍÄں˵ÄÊäÈëºÍÊä³ö£©¼´¿É½«Ò»¸ö LLM ±àÒë³ÉÒ»¸ö¾ÞÐÍÄںˡ£´Ë·½ÏòÈÔÓÐÁÉÀ«µÄË÷Çó¿Õ¼ä£¬Ä¿Ç°ÔÚ»ý¼«¹¥¹ØµÄһЩ¹Ø¼üÁìÓòÔ̺¬ÈçÏ£º
Ö§³ÖÏÖ´ú GPU ¼Ü¹¹¡£ÏÂÒ»¸öÀï³Ì±®Êǽ« MPK À©´óµ½Ö§³ÖÏÂÒ»´ú¼Ü¹¹£¬ÀýÈç NVIDIA Blackwell¡£Ò»¸öÖØÒªÌôÕ½ÔÚÓÚÈôºÎ½«Ïß³ÌÊø×¨Òµ»¯£¬ÕâÊÇÐÂÐÍ GPU µÄÒ»Ïî¹Ø¼üÓÅ»¯¼¼Êõ£¬Óë MPK µÄ¾ÞÐÍÄÚºËÖ´ÐÐÄ£ÐÍÏ༯³É¡£´¦Öù¤×÷¸ºÔض¯Ì¬ÐÔ¡£MPK Ŀǰ¹¹½¨µÄÊǾ²Ì¬¹¤×÷ͼ£¬ÕâÏÞ¶ÈÁËËü´¦Öö¯Ì¬¹¤×÷¸ºÔØ£¨Èç MoE Ä£ÐÍ£©µÄÄÜÁ¦¡£ÍŶÓÔÚ¿ª·¢ÐµıàÒëÕ½Êõ£¬Ê¹ MPK ¿ÉÄÜÔÚ¾ÞÐÍÄÚºËÄÚ²¿Ö§³Ö¶¯Ì¬½ÚÔìÁ÷ºÍǰÌáÖ´ÐС£¸ß¼¶µ÷¶Å×빤×÷·ÖÅä¡£MPK ÔÚÖ°Îñ¼¶±ð½âËøÁËеÄϸÁ£¶Èµ÷¶ÈÄÜÁ¦¡£¹ÌÈ»µ±Ç°µÄʵÏÖʹÓõ¥Ò»µÄÂÖѯµ÷¶ÈÔÚÁ÷ʽ¶à´¦ÖÃÆ÷£¨SM£©Ö®¼ä·ÖÅ乤×÷£¬µ«ÍŶӿ´µ½ÁËÔڸ߼¶µ÷¶ÈÕ½Êõ£¨ÈçÓÅÏȼ¶¸ÐÖª»òÍÌÍÂÁ¿ÓÅ»¯Õ½Êõ£©·½ÃæÁîÈËÐ˷ܵĻúÓö£¬¿ÉÀûÓÃÓÚÖîÈçÑÓ³¤·þÎñµÈ¼¶Ö¸±ê£¨SLO£©Çý¶¯µÄ·þÎñ»ò»ìºÏÅú´¦Öõȳ¡¾°¡£
ÍŶÓÏàÐÅ£¬MPK ´ú±íÁËÔÚ GPU ÉϱàÒëºÍÖ´ÐÐ LLM ÍÆÀí¹¤×÷¸ºÔØ·½Ê½µÄµ××ÓÐÔת±ä£¬²¢ÈÈÇеȴýÓëÉçÇøºÏ×÷£¬¹²Í¬Íƶ¯ÕâÒ»Ô¸¾°Ïòǰ·¢Õ¹¡£
每日大赛24小时爆料集百度看4月26日,刘存怀向宝鸡市陈仓区市场监管局反映。4月29日,宝鸡市陈仓区市场监管部门联合涉事磷肥厂现场完成取样并送检,5月25日,刘存怀收到检测报告,“报告上说送检的磷肥是合格的。”“他有点太贪心了。”在承认梅向荣商业头脑的情况下,李雷从另一个角度对梅向荣进行评价:“他一只脚踩好几条船,又想做律师行业,又想做其他行业的什么产品项目。”每日大赛24小时爆料集百度看¡¶·ãÓëÁåµÚÒ»¼¯ÔÚÏßÅÔ¹ÛÃâ·ÑÈ«¼¯µçÊӾ硷但事实情况可能截然相反。随着模型能力的跃升,AI早已在医疗、制造、金融等领域证明自身具备落地价值和行业赋能能力。反而是618,这个已经略显疲态的购物节,亟需AI加持。回民区卫健委在今年4月初向郝利俊家属出具的信访事项处理意见书中认为,“医患双方针对赔偿金额悬殊过大,未达成调解协议,属于调解不成……可以依法向法院提起诉讼。”
20260609 ? 每日大赛24小时爆料集百度看而一波未平一波又起,余鸣见义勇为救下陌生小孩,自己的小破车却剐蹭到了迈巴赫,还因为背着老婆没有给车上险,他们要面临30多万的赔偿费。¡¶Ò©ÎÝÉÙÅ®µÄÄØà«¡·µÚÒ»¼¾在深海,有一种巨型甲壳动物——深海水虱,因长达五年无需进食而震惊学界。6月5日,中国科学院海洋研究所联合香港中文大学、西北工业大学等单位,在国际学术期刊《细胞》上发表长文,首次系统揭示了深海水虱惊人耐饥饿能力的奥秘:它们从细菌那里“窃取”了一个关键能量代谢相关基因,该基因能有效调控能量的分配和利用,从而让深海水虱用极低的能耗维持巨大体型。
20260609 ? 每日大赛24小时爆料集百度看“不过正如罗马诺之前和我们透露的那样,格拉斯纳目前正把绝对的优先权留给了米兰。他深知自己有很大的胜算,也知道自己是榜上有名的候选人。所以到今天为止,我们可以说其他的一切邀请和传闻对他而言都只能退居次要位置。就像我刚才说过的,无论是普拉内斯还是波切蒂诺,他们与米兰的接触在上周初就已经停滞了。米兰在这几个小时内,还会通过视频会议的形式连线并接触其他几位主教练。但就今天而言,基于我刚才跟你解释的种种原因,真正能产生实质推进作用的依然是刚才说的这套方案。”¡¶Íæ°éè¶úÄï¡·¶¯Âþ为了凸显男主的“穷”和女主的“惨”,剧中的公共澡堂地板脏得下不去脚、洗发水是勾兑的散装货、门锁坏了没人修。这种为了制造“偷窥危机”而刻意营造的寒酸,反而显得不真实,即便是偏远小镇,普通人的生活也不至于如此狼狈。