½üÈÕ£¬CMU ÖúÀí½ÌÊÚ¼ÖÖ¾ºÀ£¨Zhihao Jia£©ÍŶӴ´ÐÂÍæ·¨£¬ÍƳöÁËÒ»¸öÃûΪ¡¸Mirage Persistent Kernel£¨MPK£©¡¹µÄ±àÒëÆ÷£¬Äܹ»×Ô¶¯½« LLM ת»¯ÎªÓÅ»¯µÄ¾ÞÐÍÄںˣ¨megakernel£©£¬´Ó¶ø½« LLM ÍÆÀíÑÓ³¤½µµÍ 1.2 µ½ 6.7 ±¶¡£
ÔÚÕâÖÖÉè¼ÆÖУ¬ÏµÍ³½öÆô¶¯Ò»¸ö GPU ÄÚºËÀ´Ö´ÐÐÕû¸öÄ£ÐÍ ¡ª¡ª ´ÓÖð²ãÍÆËãµ½ GPU ¼äͨѶ ¡ª¡ª Õû¸ö¹ý³ÌÎÞÐèÖжϡ£ÕâÖÖ²½ÖèÌṩÁËÒÔϼ¸¸ö¹Ø¼üµÄ»úÄÜÓÅÊÆ£º
½â³ýÄÚºËÆô¶¯¿ªÏú£ºÍ¨¹ýÔ¤·À³Á¸´µÄÄÚºËŲÓ㬼´±ãÊÇÔÚ¶à GPU »·¾³Ï£¬Ò²Äܽâ³ýÄÚºËÆô¶¯¿ªÏú£»ÊµÏÖ¿ç²ãÈí¼þ pipeline ÔÊÐíÄÚºËÔÚÍÆË㵱ǰ²ãµÄͬʱ£¬ÆðͷΪÏÂÒ»²ã¼ÓÔØÊý¾Ý£»³ÁµþÍÆËãÓëͨѶ£ºÓÉÓÚ¾ÞÐÍÄÚºËÄܹ»Í¬Ê±Ö´ÐÐÍÆËã²Ù×÷ºÍ GPU ¼äͨѶ£¬´Ó¶ø°µ²ØÍ¨Ñ¶ÑÓ³¤¡£
ÏÖÓеĸ߼¶ ML ¿ò¼Ü ¡ª¡ª Èç PyTorch¡¢Triton ºÍ TVM£¬ËüÃÇ×ÔÉí²¢²»Ö§³Ö¶Ëµ½¶Ë¾ÞÐÍÄÚºËÌìÉú¡£´Ë±í£¬ÏÖ´ú LLM ϵͳÓɸ÷Àà·ÖÆçµÄרÓÃÄں˿⹹½¨¶ø³É£ºÓÃÓÚͨѶµÄ NCCL »ò NVSHMEM£¬ÓÃÓÚ¸ßЧ°ÑÎÈÁ¦ÍÆËãµÄ FlashInfer »ò FlashAttention£¬ÒÔ¼°ÓÃÓÚ×Ô½çËµÍÆËãµÄ CUDA »ò Triton¡£
ÄÇôÄÜ·ñͨ¹ý±àÒë×Ô¶¯»¯Õâ¸ö¹ý³ÌÄØ£¿Êܵ½Õâ¸öÎÊÌâµÄÆô·¢£¬À´×Ô CMU¡¢»ªÊ¢¶Ù´óѧ¡¢¼ÓÖÝ´óѧ²®¿ËÀû·ÖУ¡¢Ó¢Î°´ïºÍÇ廪´óѧµÄÍŶӿª·¢³öÁË MPK¡ª¡ª Ò»¸ö±àÒëÆ÷ºÍÔËÐÐʱϵͳ£¬ËüÄÜ×Ô¶¯½«¶à GPU µÄ LLM ÍÆÀíת»»Îª¸ß»úÄܵľÞÐÍÄںˡ£MPK ¿ªÊÍÁ˶˵½¶Ë GPU ÈںϵÄЧÁ¦ÓÅÊÆ£¬Í¬Ê±Ö»±ØÒª¿ª·¢ÕßÖ§³ö¼«Ó×µÄÊÖ¶¯ÖÂÁ¦¡£
MPK µÄÒ»¸ö¹Ø¼üÓÅÊÆÔÚÓÚ£ºÍ¨¹ý½â³ýÄÚºËÆô¶¯¿ªÏú£¬²¢×î´óˮƽµØ³Áµþ¿ç²ãµÄÍÆËã¡¢Êý¾Ý¼ÓÔØºÍ GPU ¼äͨѶ£¬ÊµÏÖÁ˼«µÍµÄ LLM ÍÆÀíÑÓ³¤¡£
³ýÁ˵¥ GPU ÓÅ»¯£¬MPK »¹½«ÍÆËãÓë GPU ¼äͨѶÈںϽøÒ»¸öµ¥Ò»µÄ¾ÞÐÍÄںˡ£ ÕâÖÖÉè¼ÆÊ¹µÃ MPK ¿ÉÄÜ×î´óˮƽµØ³ÁµþÍÆËãÓëͨѶ¡£Òò¶ø£¬MPK Ïà¶ÔÓÚµ±Ç°ÏµÍ³µÄ»úÄÜÌáÉýËæ×Å GPU ÊýÁ¿µÄÔö³¤¶øÔö´ó£¬Ê¹ÆäÔÚ¶à GPU ²¿Ê𳡾°ÏÂÓÈΪ¸ßЧ¡£
Part 1£ºMPK ±àÒëÆ÷£¬Æä½« LLM µÄÍÆËãͼת»¯ÎªÓÅ»¯µÄ¹¤×÷ͼ£»Part 2£ºMPK ÔËÐÐʱϵͳ£¬¸ÃϵͳÔÚµ¥¸ö¾ÞÐÍÄÚºËÄÚÖ´Ðй¤×÷ͼ£¬ÒÔʵÏÖ¸ßÍÌÍÂÁ¿ÓëµÍÑÓ³¤¡£
LLM µÄÍÆËã¹ý³Ìͨ³£°µÊ¾ÎªÍÆËãͼ£¬ÆäÖÐÿ¸ö½Úµã¶ÔÓ¦Ò»¸öÍÆËãËã×Ó£¨Èç¾ØÕó³Ë·¨¡¢°ÑÎÈÁ¦»úÔ죩»ò¼¯ÖÐͨѶÔÓÈç all-reduce£©£¬±ß°µÊ¾Ëã×Ó¼äµÄÊý¾ÝÒÀÀµ¹ØÏµ¡£ÏÖÓÐϵͳͨ³£ÎªÃ¿¸öËã×ÓÆô¶¯¶ÀÁ¢µÄ GPU Äںˡ£
È»¶ø£¬ÕâÖÖ¡¸µ¥Ëã×Óµ¥Äںˡ¹µÄÖ´ÐÐÄ£ÐÍÄÑÒÔʵÏÖ pipeline ÓÅ»¯£¬ÓÉÓÚÒÀÀµ¹ØÏµÊÇÔÚÕû¸öÄں˵ĴÖÁ£¶È²ãÃæÇ¿ÔìÖ´Ðе쬶ø·ÇÏÖʵÊý¾Ýµ¥Ôª²ãÃæ¡£
µäÐͰ¸ÀýÈç¾ØÕó³Ë·¨£¨matmul£©ºó½Ó all-reduce ²Ù×÷£ºÏÖÓÐϵͳÖУ¬all-reduce Äں˱ØÐëÆÚ´ýÕû¸ö matmul ÄÚºËʵÏÖ¡£¶øÏÖʵÉÏ£¬all-reduce µÄÿ¸öÊý¾Ý·Ö¿é½öÒÀÀµ matmul Êä³öµÄ²¿ÃÅÁ˾֡£ÕâÖÖÂß¼ÒÀÀµÓëÏÖʵÒÀÀµµÄ´íÅ䣬ÑϳÁÏÞ¶ÈÁËÍÆËãÓëͨѶµÄ³ÁµþDZÁ¦¡£
ÏÂͼ 2 չʾÁË MPK ±àÒëÆ÷½« PyTorch ½ç˵µÄ LLM ÍÆËãͼת»¯ÎªÓÅ»¯Ï¸Á£¶È¹¤×÷ͼ£¬×î´ó»¯Â¶³ö²¢ÐÐÐÔ¡£ÓÒ²àչʾ´ÎÓŹ滮 ¡ª¡ª ÆäÒýÈë²»ÓÃÒªµÄÊý¾ÝÒÀÀµÓëÈ«¾Ö·®À飬µ¼Ö¿ç²ãÁ÷Ë®ÏßÓÅ»¯»úÓöÊÜÏÞ¡£
ΪÏàʶ¾ö´ËÎÊÌ⣬MPK ÒýÈëµÄ±àÒëÆ÷¿É½« LLM ÍÆËãͼ×Ô¶¯×ª»¯ÎªÏ¸Á£¶È¹¤×÷ͼ¡£¸Ã¹¤×÷ͼÔÚ×ÓÄں˼¶±ðÏÔʽ²¶»ñÒÀÀµ¹ØÏµ£¬ÊµÏÖ¸ü¼¤½øµÄ¿ç²ãÁ÷Ë®ÏßÓÅ»¯¡£
¹¤×÷£¨¾ØÐΰµÊ¾£©£¬´ú±í·ÖÅ䏸µ¥¸ö GPU Á÷ʽ¶à´¦ÖÃÆ÷£¨SM£©µÄÍÆËã / ͨѶµ¥Ôª¡£ÊÂÎñ£¨Ô²ÐΰµÊ¾£©£¬°µÊ¾¹¤×÷¼äµÄͬ²½µã¡£´¥·¢»úÔ죬ÿ¸ö¹¤×÷·¢³öÖ¸Ïò´¥·¢ÊÂÎñµÄ±ß£¬¸ÃÊÂÎñÔÚ¹ØÁª¹¤×÷È«ÊýʵÏֺ󼤻ÒÀÀµ»úÔ죬ÿ¸ö¹¤×÷½Ó¹ÜÀ´×ÔÒÀÀµÊÂÎñµÄ±ß£¬Åú×¢ÊÂÎñ¼¤»îºó¹¤×÷Á¢¼´Æô¶¯¡£
¹¤×÷ͼʹ MPK ¿ÉÄÜÍÚ¾òÍÆËãͼÖÐÎÞ·¨ÊµÏÖµÄ pipeline ÓÅ»¯»úÓö¡£ÀýÈ磬MPK Äܹ»¹¹½¨ÓÅ»¯¹¤×÷ͼ ¡ª¡ª ÆäÖÐÿ¸ö all-reduce ¹¤×÷½öÒÀÀµÓÚÌìÉúÆäÊäÈëµÄ¶ÔÓ¦ matmul ¹¤×÷£¬´Ó¶øÊµÏÖ·Ö¿éÖ´ÐÐÓëÍÆËãͨѶ³Áµþ¡£
MPK Ô̺¬ÄÚÖà GPU ÔËÐÐʱϵͳ£¬¿ÉÔÚµ¥¸ö GPU ¾ÞÐÍÄÚºËÄÚÆëȫִÐй¤×÷ͼ¡£ÕâʹµÃϵͳÄÜÔÚÍÆÀí¹ý³ÌÖÐÎÞÐè¶î±íÄÚºËÆô¶¯µÄÇé¿öÏ£¬ÊµÏÖ¹¤×÷Ö´ÐÐÓëµ÷¶ÈµÄϸÁ£¶È½ÚÔì¡£
»ñÈ¡¹¤×÷£º´Ó¶ÓÁÐÖÐÌáÈ¡ÏÂÒ»´ýÖ´Ðй¤×÷¡£Ö´ÐÐÍÆË㣺ÔËÐй¤×÷£¨Èç¾ØÕó³Ë·¨ / °ÑÎÈÁ¦»úÔì / GPU ¼äÊý¾Ý´«Ê䣩¡£ÊÂÎñ´¥·¢£º¹¤×÷ʵÏÖºó֪ͨ´¥·¢ÊÂÎñ¡£Ñ»·Ö´ÐУº³Á¸´ÉÏÊö¹ý³Ì¡£
µ÷¶È¾ö²ßÓÉ MPK µÄÉ¢²¼Ê½µ÷¶Èµ¥Ôª´¦Öã¬Ã¿¸öµ÷¶Èµ¥ÔªÔËÐÐÓÚµ¥¸öÏß³ÌÊø£¨warp£©ÉÏ¡£ÓÉÓÚÿ¸öÁ÷ʽ¶à´¦ÖÃÆ÷£¨SM£©Äܹ»°üÈݶà¸öÏß³ÌÊø£¬Òò¶øµ¥ SM ×î¶à¿É²¢·¢ÔËÐÐ 4 ¸öµ÷¶Èµ¥Ôª¡£Ã¿¸öµ÷¶Èµ¥ÔªÊØ»¤¼¤»îÊÂÎñ¶ÓÁУ¬²¢³ÖÐøÖ´ÐÐÒÔϲÙ×÷£º
ÏÂͼ 3 չʾÁË MPK µÄÖ´Ðй¦·òÏߣ¬ÆäÖÐÿ¸ö¾ØÐδú±íÒ»¸öÔÚ¹¤×÷µ¥ÔªÉÏÔËÐеŤ×÷£»Ã¿¸öԲȦ´ú±íÒ»¸öÊÂÎñ¡£µ±Ò»¸ö¹¤×÷ʵÏÖʱ£¬Ëü»áµÝÔöÆä¶ÔÓ¦´¥·¢ÊÂÎñµÄ¼ÆÊýÆ÷¡£µ±ÊÂÎñ¼ÆÊýÆ÷´ïµ½Ô¤ÉèãÐֵʱ£¬¸ÃÊÂÎñ±»ÊÓΪÒѼ¤»î£¬²¢±»²ÎÓëµ÷¶Èµ¥ÔªµÄÊÂÎñ¶ÓÁС£Ëæºó£¬µ÷¶Èµ¥Ôª»áÆô¶¯ËùÓÐÒÀÀµÓÚ¸ÃÊÂÎñµÄÏÂÓι¤×÷¡£
ÓÉÓÚËùÓеĵ÷¶ÈºÍ¹¤×÷Çл»¶¼²úÉúÔÚµ¥Ò»Äں˸ߵÍÎÄÄÚ£¬¹¤×÷¼äµÄ¿ªÏú¼«µÍ£¬Í¨³£½öÐè 1-2 ΢Ã룬´Ó¶ø¿ÉÄܸßЧµØÖ´Ðжà²ã¡¢¶à GPU µÄ LLM ¹¤×÷¸ºÔØ¡£
ÍÅ¶Ó¶Ô MPK µÄÔ¸¾°ÊÇʹ¾ÞÐÍÄں˱àÒë¼ÈÒ×ÓÚʹÓÃÓ־߱¸¸ß»úÄÜ¡£Ä¿Ç°£¬ÄãÖ»Ð輸ʮÐÐ Python ´úÂë£¨ÖØÒªÓÃÓÚÖ¸¶¨¾ÞÐÍÄں˵ÄÊäÈëºÍÊä³ö£©¼´¿É½«Ò»¸ö LLM ±àÒë³ÉÒ»¸ö¾ÞÐÍÄںˡ£´Ë·½ÏòÈÔÓÐÁÉÀ«µÄË÷Çó¿Õ¼ä£¬Ä¿Ç°ÔÚ»ý¼«¹¥¹ØµÄһЩ¹Ø¼üÁìÓòÔ̺¬ÈçÏ£º
Ö§³ÖÏÖ´ú GPU ¼Ü¹¹¡£ÏÂÒ»¸öÀï³Ì±®Êǽ« MPK À©´óµ½Ö§³ÖÏÂÒ»´ú¼Ü¹¹£¬ÀýÈç NVIDIA Blackwell¡£Ò»¸öÖØÒªÌôÕ½ÔÚÓÚÈôºÎ½«Ïß³ÌÊø×¨Òµ»¯£¬ÕâÊÇÐÂÐÍ GPU µÄÒ»Ïî¹Ø¼üÓÅ»¯¼¼Êõ£¬Óë MPK µÄ¾ÞÐÍÄÚºËÖ´ÐÐÄ£ÐÍÏ༯³É¡£´¦Öù¤×÷¸ºÔض¯Ì¬ÐÔ¡£MPK Ŀǰ¹¹½¨µÄÊǾ²Ì¬¹¤×÷ͼ£¬ÕâÏÞ¶ÈÁËËü´¦Öö¯Ì¬¹¤×÷¸ºÔØ£¨Èç MoE Ä£ÐÍ£©µÄÄÜÁ¦¡£ÍŶÓÔÚ¿ª·¢ÐµıàÒëÕ½Êõ£¬Ê¹ MPK ¿ÉÄÜÔÚ¾ÞÐÍÄÚºËÄÚ²¿Ö§³Ö¶¯Ì¬½ÚÔìÁ÷ºÍǰÌáÖ´ÐС£¸ß¼¶µ÷¶Å×빤×÷·ÖÅä¡£MPK ÔÚÖ°Îñ¼¶±ð½âËøÁËеÄϸÁ£¶Èµ÷¶ÈÄÜÁ¦¡£¹ÌÈ»µ±Ç°µÄʵÏÖʹÓõ¥Ò»µÄÂÖѯµ÷¶ÈÔÚÁ÷ʽ¶à´¦ÖÃÆ÷£¨SM£©Ö®¼ä·ÖÅ乤×÷£¬µ«ÍŶӿ´µ½ÁËÔڸ߼¶µ÷¶ÈÕ½Êõ£¨ÈçÓÅÏȼ¶¸ÐÖª»òÍÌÍÂÁ¿ÓÅ»¯Õ½Êõ£©·½ÃæÁîÈËÐ˷ܵĻúÓö£¬¿ÉÀûÓÃÓÚÖîÈçÑÓ³¤·þÎñµÈ¼¶Ö¸±ê£¨SLO£©Çý¶¯µÄ·þÎñ»ò»ìºÏÅú´¦Öõȳ¡¾°¡£
ÍŶÓÏàÐÅ£¬MPK ´ú±íÁËÔÚ GPU ÉϱàÒëºÍÖ´ÐÐ LLM ÍÆÀí¹¤×÷¸ºÔØ·½Ê½µÄµ××ÓÐÔת±ä£¬²¢ÈÈÇеȴýÓëÉçÇøºÏ×÷£¬¹²Í¬Íƶ¯ÕâÒ»Ô¸¾°Ïòǰ·¢Õ¹¡£
《少爷的女佣》正版观看最初,薛之谦和朋友李渊林一起在上海开了第一家“上上谦串串香火锅店”。那时,品牌很大程度上受益于薛之谦的个人影响力,生意一度非常红火。据公开报道,鼎盛时期,上上谦在全国开出了8家直营店和约20家加盟店,门店遍布上海、广州、杭州等一线和新一线城市。作为曾主导OpenAI首个智能体产品的核心研究员,姚顺雨并未回避。他给出了一个十分“非典型”的回答:“感觉应该是我问你的问题。”《少爷的女佣》正版观看¡¼ûÀÈÝÔº3:ÌØÊâ´ýÓö¡·°Ù¶È°Ù¿Æ车票收益则按另一套完全不同的商业逻辑执行。观光摆渡车费由稻城亚丁景区旅游开发有限责任公司收取,据天眼查信息,该公司由甘孜州产投集团持股45.9%,稻城县投资集团持股40%,甘孜州文旅投持股9%,四川省财政厅持股5.1%。这意味着,公司税后利润在完成法定分配流程后,由股东会审议通过分红方案向全体股东按持股比例分红。从历史罪责来看,日本首相以下跪表达日本政府对侵略血债的忏悔,并无什么不妥。二战期间,日军铁蹄遍及亚太地区,澳大利亚也未能免于日本军国主义的魔爪。1942年2月19日,242架日本海军战机突袭达尔文港,打破了澳大利亚本土的宁静。澳大利亚国防部解密文件显示,日军当天投弹量甚至超过珍珠港事件,此后20个月里,澳大利亚北部更是遭遇了97次空袭。就在高市此行访问的纪念馆中,“拉哈大屠杀”条目如此记载:“1942年2月6日至20日之间,这些战俘分4批被屠杀在机场附近。一些人被刺刀刺死,一些人被砍头,一些人被棒打致死……”无名烈士墓更刻着“我们不会忘记”的字样。
20260608 ? 《少爷的女佣》正版观看据报道,Codex目前500万周活跃用户中,多数为付费用户,但仍有相当比例尚未付费。相比之下,Anthropic的Claude Code和Claude Cowork仅向付费用户开放,不披露用户数量。¾ÁÐÁÄεĸ¡éäTXT"所有重大技术变革都会催生泡沫。没有人能完全精准把握时机。你要么投入巨额资金抢占市场份额而不计较是否过度投资,要么因投入不足而失去市场份额。"
20260608 ? 《少爷的女佣》正版观看根据SpaceX周五提交的文件,谷歌将从今年10月起至2029年6月,每月向SpaceX支付9.2亿美元的算力费用,合同总金额约达300亿美元。这是谷歌在数周内与AI领域竞争对手达成的第二笔此类协议。¡¶Ò§ºÛ¡·byÇá·ç¼¸Ðí据央视新闻援引路透社援引知情人士消息报道称,美国太空探索技术公司(SpaceX),计划在首次公开募股中,以每股135美元的价格,募资750亿美元,这将使其成为历史上规模最大的IPO。