½üÈÕ£¬CMU ÖúÀí½ÌÊÚ¼ÖÖ¾ºÀ£¨Zhihao Jia£©ÍŶӴ´ÐÂÍæ·¨£¬ÍƳöÁËÒ»¸öÃûΪ¡¸Mirage Persistent Kernel£¨MPK£©¡¹µÄ±àÒëÆ÷£¬Äܹ»×Ô¶¯½« LLM ת»¯ÎªÓÅ»¯µÄ¾ÞÐÍÄںˣ¨megakernel£©£¬´Ó¶ø½« LLM ÍÆÀíÑÓ³¤½µµÍ 1.2 µ½ 6.7 ±¶¡£
ÔÚÕâÖÖÉè¼ÆÖУ¬ÏµÍ³½öÆô¶¯Ò»¸ö GPU ÄÚºËÀ´Ö´ÐÐÕû¸öÄ£ÐÍ ¡ª¡ª ´ÓÖð²ãÍÆËãµ½ GPU ¼äͨѶ ¡ª¡ª Õû¸ö¹ý³ÌÎÞÐèÖжϡ£ÕâÖÖ²½ÖèÌṩÁËÒÔϼ¸¸ö¹Ø¼üµÄ»úÄÜÓÅÊÆ£º
½â³ýÄÚºËÆô¶¯¿ªÏú£ºÍ¨¹ýÔ¤·À³Á¸´µÄÄÚºËŲÓ㬼´±ãÊÇÔÚ¶à GPU »·¾³Ï£¬Ò²Äܽâ³ýÄÚºËÆô¶¯¿ªÏú£»ÊµÏÖ¿ç²ãÈí¼þ pipeline ÔÊÐíÄÚºËÔÚÍÆË㵱ǰ²ãµÄͬʱ£¬ÆðͷΪÏÂÒ»²ã¼ÓÔØÊý¾Ý£»³ÁµþÍÆËãÓëͨѶ£ºÓÉÓÚ¾ÞÐÍÄÚºËÄܹ»Í¬Ê±Ö´ÐÐÍÆËã²Ù×÷ºÍ GPU ¼äͨѶ£¬´Ó¶ø°µ²ØÍ¨Ñ¶ÑÓ³¤¡£
ÏÖÓеĸ߼¶ ML ¿ò¼Ü ¡ª¡ª Èç PyTorch¡¢Triton ºÍ TVM£¬ËüÃÇ×ÔÉí²¢²»Ö§³Ö¶Ëµ½¶Ë¾ÞÐÍÄÚºËÌìÉú¡£´Ë±í£¬ÏÖ´ú LLM ϵͳÓɸ÷Àà·ÖÆçµÄרÓÃÄں˿⹹½¨¶ø³É£ºÓÃÓÚͨѶµÄ NCCL »ò NVSHMEM£¬ÓÃÓÚ¸ßЧ°ÑÎÈÁ¦ÍÆËãµÄ FlashInfer »ò FlashAttention£¬ÒÔ¼°ÓÃÓÚ×Ô½çËµÍÆËãµÄ CUDA »ò Triton¡£
ÄÇôÄÜ·ñͨ¹ý±àÒë×Ô¶¯»¯Õâ¸ö¹ý³ÌÄØ£¿Êܵ½Õâ¸öÎÊÌâµÄÆô·¢£¬À´×Ô CMU¡¢»ªÊ¢¶Ù´óѧ¡¢¼ÓÖÝ´óѧ²®¿ËÀû·ÖУ¡¢Ó¢Î°´ïºÍÇ廪´óѧµÄÍŶӿª·¢³öÁË MPK¡ª¡ª Ò»¸ö±àÒëÆ÷ºÍÔËÐÐʱϵͳ£¬ËüÄÜ×Ô¶¯½«¶à GPU µÄ LLM ÍÆÀíת»»Îª¸ß»úÄܵľÞÐÍÄںˡ£MPK ¿ªÊÍÁ˶˵½¶Ë GPU ÈںϵÄЧÁ¦ÓÅÊÆ£¬Í¬Ê±Ö»±ØÒª¿ª·¢ÕßÖ§³ö¼«Ó×µÄÊÖ¶¯ÖÂÁ¦¡£
MPK µÄÒ»¸ö¹Ø¼üÓÅÊÆÔÚÓÚ£ºÍ¨¹ý½â³ýÄÚºËÆô¶¯¿ªÏú£¬²¢×î´óˮƽµØ³Áµþ¿ç²ãµÄÍÆËã¡¢Êý¾Ý¼ÓÔØºÍ GPU ¼äͨѶ£¬ÊµÏÖÁ˼«µÍµÄ LLM ÍÆÀíÑÓ³¤¡£
³ýÁ˵¥ GPU ÓÅ»¯£¬MPK »¹½«ÍÆËãÓë GPU ¼äͨѶÈںϽøÒ»¸öµ¥Ò»µÄ¾ÞÐÍÄںˡ£ ÕâÖÖÉè¼ÆÊ¹µÃ MPK ¿ÉÄÜ×î´óˮƽµØ³ÁµþÍÆËãÓëͨѶ¡£Òò¶ø£¬MPK Ïà¶ÔÓÚµ±Ç°ÏµÍ³µÄ»úÄÜÌáÉýËæ×Å GPU ÊýÁ¿µÄÔö³¤¶øÔö´ó£¬Ê¹ÆäÔÚ¶à GPU ²¿Ê𳡾°ÏÂÓÈΪ¸ßЧ¡£
Part 1£ºMPK ±àÒëÆ÷£¬Æä½« LLM µÄÍÆËãͼת»¯ÎªÓÅ»¯µÄ¹¤×÷ͼ£»Part 2£ºMPK ÔËÐÐʱϵͳ£¬¸ÃϵͳÔÚµ¥¸ö¾ÞÐÍÄÚºËÄÚÖ´Ðй¤×÷ͼ£¬ÒÔʵÏÖ¸ßÍÌÍÂÁ¿ÓëµÍÑÓ³¤¡£
LLM µÄÍÆËã¹ý³Ìͨ³£°µÊ¾ÎªÍÆËãͼ£¬ÆäÖÐÿ¸ö½Úµã¶ÔÓ¦Ò»¸öÍÆËãËã×Ó£¨Èç¾ØÕó³Ë·¨¡¢°ÑÎÈÁ¦»úÔ죩»ò¼¯ÖÐͨѶÔÓÈç all-reduce£©£¬±ß°µÊ¾Ëã×Ó¼äµÄÊý¾ÝÒÀÀµ¹ØÏµ¡£ÏÖÓÐϵͳͨ³£ÎªÃ¿¸öËã×ÓÆô¶¯¶ÀÁ¢µÄ GPU Äںˡ£
È»¶ø£¬ÕâÖÖ¡¸µ¥Ëã×Óµ¥Äںˡ¹µÄÖ´ÐÐÄ£ÐÍÄÑÒÔʵÏÖ pipeline ÓÅ»¯£¬ÓÉÓÚÒÀÀµ¹ØÏµÊÇÔÚÕû¸öÄں˵ĴÖÁ£¶È²ãÃæÇ¿ÔìÖ´Ðе쬶ø·ÇÏÖʵÊý¾Ýµ¥Ôª²ãÃæ¡£
µäÐͰ¸ÀýÈç¾ØÕó³Ë·¨£¨matmul£©ºó½Ó all-reduce ²Ù×÷£ºÏÖÓÐϵͳÖУ¬all-reduce Äں˱ØÐëÆÚ´ýÕû¸ö matmul ÄÚºËʵÏÖ¡£¶øÏÖʵÉÏ£¬all-reduce µÄÿ¸öÊý¾Ý·Ö¿é½öÒÀÀµ matmul Êä³öµÄ²¿ÃÅÁ˾֡£ÕâÖÖÂß¼ÒÀÀµÓëÏÖʵÒÀÀµµÄ´íÅ䣬ÑϳÁÏÞ¶ÈÁËÍÆËãÓëͨѶµÄ³ÁµþDZÁ¦¡£
ÏÂͼ 2 չʾÁË MPK ±àÒëÆ÷½« PyTorch ½ç˵µÄ LLM ÍÆËãͼת»¯ÎªÓÅ»¯Ï¸Á£¶È¹¤×÷ͼ£¬×î´ó»¯Â¶³ö²¢ÐÐÐÔ¡£ÓÒ²àչʾ´ÎÓŹ滮 ¡ª¡ª ÆäÒýÈë²»ÓÃÒªµÄÊý¾ÝÒÀÀµÓëÈ«¾Ö·®À飬µ¼Ö¿ç²ãÁ÷Ë®ÏßÓÅ»¯»úÓöÊÜÏÞ¡£
ΪÏàʶ¾ö´ËÎÊÌ⣬MPK ÒýÈëµÄ±àÒëÆ÷¿É½« LLM ÍÆËãͼ×Ô¶¯×ª»¯ÎªÏ¸Á£¶È¹¤×÷ͼ¡£¸Ã¹¤×÷ͼÔÚ×ÓÄں˼¶±ðÏÔʽ²¶»ñÒÀÀµ¹ØÏµ£¬ÊµÏÖ¸ü¼¤½øµÄ¿ç²ãÁ÷Ë®ÏßÓÅ»¯¡£
¹¤×÷£¨¾ØÐΰµÊ¾£©£¬´ú±í·ÖÅ䏸µ¥¸ö GPU Á÷ʽ¶à´¦ÖÃÆ÷£¨SM£©µÄÍÆËã / ͨѶµ¥Ôª¡£ÊÂÎñ£¨Ô²ÐΰµÊ¾£©£¬°µÊ¾¹¤×÷¼äµÄͬ²½µã¡£´¥·¢»úÔ죬ÿ¸ö¹¤×÷·¢³öÖ¸Ïò´¥·¢ÊÂÎñµÄ±ß£¬¸ÃÊÂÎñÔÚ¹ØÁª¹¤×÷È«ÊýʵÏֺ󼤻ÒÀÀµ»úÔ죬ÿ¸ö¹¤×÷½Ó¹ÜÀ´×ÔÒÀÀµÊÂÎñµÄ±ß£¬Åú×¢ÊÂÎñ¼¤»îºó¹¤×÷Á¢¼´Æô¶¯¡£
¹¤×÷ͼʹ MPK ¿ÉÄÜÍÚ¾òÍÆËãͼÖÐÎÞ·¨ÊµÏÖµÄ pipeline ÓÅ»¯»úÓö¡£ÀýÈ磬MPK Äܹ»¹¹½¨ÓÅ»¯¹¤×÷ͼ ¡ª¡ª ÆäÖÐÿ¸ö all-reduce ¹¤×÷½öÒÀÀµÓÚÌìÉúÆäÊäÈëµÄ¶ÔÓ¦ matmul ¹¤×÷£¬´Ó¶øÊµÏÖ·Ö¿éÖ´ÐÐÓëÍÆËãͨѶ³Áµþ¡£
MPK Ô̺¬ÄÚÖà GPU ÔËÐÐʱϵͳ£¬¿ÉÔÚµ¥¸ö GPU ¾ÞÐÍÄÚºËÄÚÆëȫִÐй¤×÷ͼ¡£ÕâʹµÃϵͳÄÜÔÚÍÆÀí¹ý³ÌÖÐÎÞÐè¶î±íÄÚºËÆô¶¯µÄÇé¿öÏ£¬ÊµÏÖ¹¤×÷Ö´ÐÐÓëµ÷¶ÈµÄϸÁ£¶È½ÚÔì¡£
»ñÈ¡¹¤×÷£º´Ó¶ÓÁÐÖÐÌáÈ¡ÏÂÒ»´ýÖ´Ðй¤×÷¡£Ö´ÐÐÍÆË㣺ÔËÐй¤×÷£¨Èç¾ØÕó³Ë·¨ / °ÑÎÈÁ¦»úÔì / GPU ¼äÊý¾Ý´«Ê䣩¡£ÊÂÎñ´¥·¢£º¹¤×÷ʵÏÖºó֪ͨ´¥·¢ÊÂÎñ¡£Ñ»·Ö´ÐУº³Á¸´ÉÏÊö¹ý³Ì¡£
µ÷¶È¾ö²ßÓÉ MPK µÄÉ¢²¼Ê½µ÷¶Èµ¥Ôª´¦Öã¬Ã¿¸öµ÷¶Èµ¥ÔªÔËÐÐÓÚµ¥¸öÏß³ÌÊø£¨warp£©ÉÏ¡£ÓÉÓÚÿ¸öÁ÷ʽ¶à´¦ÖÃÆ÷£¨SM£©Äܹ»°üÈݶà¸öÏß³ÌÊø£¬Òò¶øµ¥ SM ×î¶à¿É²¢·¢ÔËÐÐ 4 ¸öµ÷¶Èµ¥Ôª¡£Ã¿¸öµ÷¶Èµ¥ÔªÊØ»¤¼¤»îÊÂÎñ¶ÓÁУ¬²¢³ÖÐøÖ´ÐÐÒÔϲÙ×÷£º
ÏÂͼ 3 չʾÁË MPK µÄÖ´Ðй¦·òÏߣ¬ÆäÖÐÿ¸ö¾ØÐδú±íÒ»¸öÔÚ¹¤×÷µ¥ÔªÉÏÔËÐеŤ×÷£»Ã¿¸öԲȦ´ú±íÒ»¸öÊÂÎñ¡£µ±Ò»¸ö¹¤×÷ʵÏÖʱ£¬Ëü»áµÝÔöÆä¶ÔÓ¦´¥·¢ÊÂÎñµÄ¼ÆÊýÆ÷¡£µ±ÊÂÎñ¼ÆÊýÆ÷´ïµ½Ô¤ÉèãÐֵʱ£¬¸ÃÊÂÎñ±»ÊÓΪÒѼ¤»î£¬²¢±»²ÎÓëµ÷¶Èµ¥ÔªµÄÊÂÎñ¶ÓÁС£Ëæºó£¬µ÷¶Èµ¥Ôª»áÆô¶¯ËùÓÐÒÀÀµÓÚ¸ÃÊÂÎñµÄÏÂÓι¤×÷¡£
ÓÉÓÚËùÓеĵ÷¶ÈºÍ¹¤×÷Çл»¶¼²úÉúÔÚµ¥Ò»Äں˸ߵÍÎÄÄÚ£¬¹¤×÷¼äµÄ¿ªÏú¼«µÍ£¬Í¨³£½öÐè 1-2 ΢Ã룬´Ó¶ø¿ÉÄܸßЧµØÖ´Ðжà²ã¡¢¶à GPU µÄ LLM ¹¤×÷¸ºÔØ¡£
ÍÅ¶Ó¶Ô MPK µÄÔ¸¾°ÊÇʹ¾ÞÐÍÄں˱àÒë¼ÈÒ×ÓÚʹÓÃÓ־߱¸¸ß»úÄÜ¡£Ä¿Ç°£¬ÄãÖ»Ð輸ʮÐÐ Python ´úÂë£¨ÖØÒªÓÃÓÚÖ¸¶¨¾ÞÐÍÄں˵ÄÊäÈëºÍÊä³ö£©¼´¿É½«Ò»¸ö LLM ±àÒë³ÉÒ»¸ö¾ÞÐÍÄںˡ£´Ë·½ÏòÈÔÓÐÁÉÀ«µÄË÷Çó¿Õ¼ä£¬Ä¿Ç°ÔÚ»ý¼«¹¥¹ØµÄһЩ¹Ø¼üÁìÓòÔ̺¬ÈçÏ£º
Ö§³ÖÏÖ´ú GPU ¼Ü¹¹¡£ÏÂÒ»¸öÀï³Ì±®Êǽ« MPK À©´óµ½Ö§³ÖÏÂÒ»´ú¼Ü¹¹£¬ÀýÈç NVIDIA Blackwell¡£Ò»¸öÖØÒªÌôÕ½ÔÚÓÚÈôºÎ½«Ïß³ÌÊø×¨Òµ»¯£¬ÕâÊÇÐÂÐÍ GPU µÄÒ»Ïî¹Ø¼üÓÅ»¯¼¼Êõ£¬Óë MPK µÄ¾ÞÐÍÄÚºËÖ´ÐÐÄ£ÐÍÏ༯³É¡£´¦Öù¤×÷¸ºÔض¯Ì¬ÐÔ¡£MPK Ŀǰ¹¹½¨µÄÊǾ²Ì¬¹¤×÷ͼ£¬ÕâÏÞ¶ÈÁËËü´¦Öö¯Ì¬¹¤×÷¸ºÔØ£¨Èç MoE Ä£ÐÍ£©µÄÄÜÁ¦¡£ÍŶÓÔÚ¿ª·¢ÐµıàÒëÕ½Êõ£¬Ê¹ MPK ¿ÉÄÜÔÚ¾ÞÐÍÄÚºËÄÚ²¿Ö§³Ö¶¯Ì¬½ÚÔìÁ÷ºÍǰÌáÖ´ÐС£¸ß¼¶µ÷¶Å×빤×÷·ÖÅä¡£MPK ÔÚÖ°Îñ¼¶±ð½âËøÁËеÄϸÁ£¶Èµ÷¶ÈÄÜÁ¦¡£¹ÌÈ»µ±Ç°µÄʵÏÖʹÓõ¥Ò»µÄÂÖѯµ÷¶ÈÔÚÁ÷ʽ¶à´¦ÖÃÆ÷£¨SM£©Ö®¼ä·ÖÅ乤×÷£¬µ«ÍŶӿ´µ½ÁËÔڸ߼¶µ÷¶ÈÕ½Êõ£¨ÈçÓÅÏȼ¶¸ÐÖª»òÍÌÍÂÁ¿ÓÅ»¯Õ½Êõ£©·½ÃæÁîÈËÐ˷ܵĻúÓö£¬¿ÉÀûÓÃÓÚÖîÈçÑÓ³¤·þÎñµÈ¼¶Ö¸±ê£¨SLO£©Çý¶¯µÄ·þÎñ»ò»ìºÏÅú´¦Öõȳ¡¾°¡£
ÍŶÓÏàÐÅ£¬MPK ´ú±íÁËÔÚ GPU ÉϱàÒëºÍÖ´ÐÐ LLM ÍÆÀí¹¤×÷¸ºÔØ·½Ê½µÄµ××ÓÐÔת±ä£¬²¢ÈÈÇеȴýÓëÉçÇøºÏ×÷£¬¹²Í¬Íƶ¯ÕâÒ»Ô¸¾°Ïòǰ·¢Õ¹¡£
法国空姐3免费高清原声满天星观看“我们还知道,当体温过高时,关键决策能力会受到影响,所以决策质量会下降。因此,你可能会看到 officiating水平受到影响。数据已经证明了这一点。如果你离比赛动作更远,无法做出良好的决策,那么与在凉爽环境中相比,你对 officiating水平的信心就会大打折扣。”“我们主要是利用等离子体的高活性,用非贵金属实现贵金属质性电极的功能,成本可能只有贵金属的十分之一。”核工业西南物理研究院应用技术开发所所长王晓宇说。法国空姐3免费高清原声满天星观看¡¶1v1¸ßÀ±¡·过去三年人工智能的发展可以归纳为读万卷书、解万般难、行万里路三个阶段。每一次跃迁,都深刻改变了词元的经济含义。波切蒂诺:我觉得所有国家队主教练都会根据实际情况不断作出决定,我不认为这是所谓的 “继续考察球员” 或者 “不再考察球员”。每一个阶段,都是在寻找球队最好的运转方式,同时,我们不仅要考虑现在,也要考虑未来,毕竟这个周期是一年半以前开始的。我认为这是一场非常令人期待的比赛,至少对于我们的教练团队来说是这样,因为我们面对的是世界上最好的国家队之一。
20260608 ? 法国空姐3免费高清原声满天星观看沿着这一思路往下游看,上海还有海量的工业、服务业场景。去年底,上海已经号召一批头部企业发布业务清单。在不少一人公司已经找到方向、做出成果的当下,如果能进一步搭建平台、开放接口、发布订单,将助推它们加速打通商业链路,跑进创业的下一阶段。17C.com“唐斯本身就具备优质防守潜质,本轮季后赛持续打出亮眼防守表现。全队所有人都仍有上升空间,出现失误不互相指责,合力复盘调整。我们的团队磨合还在稳步进步。”
20260608 ? 法国空姐3免费高清原声满天星观看这一次,张水华依旧是以特邀选手参赛。按照国内媒体此前的报道,张水华预计可以得到10万元的出场费,这远高于她获得的比赛奖金。¡¶Å®È˾ãÀÖ²¿Ãâ·ÑÅÔ¹ÛÆëÈ«°æµçÊӾ硷皇马主席大选将于西班牙当地时间本周日(6月7日)举行,投票将在皇家马德里体育城篮球馆进行,时间为当地9:00至20:00,对应北京时间6月7日15:00至6月8日2:00。