ÕâЩÐźÅÖ¸Ïòͳһ¸öÇ÷Ïò£ºAI ²»ÔÙÖ»ÊÇ̸Ìì¿òÀïµÄ»Ø¸²Õߣ¬¶øÊÇÔÚ½ø¶¯ÊÖ»úÕâ¸ö×îÈÕ³£¡¢×ÔÓ¡¢Ò²×î¾ß״̬ÐÔµÄÍÆËã»·¾³¡£
ÌÚѶ»ìԪǣͷ£¬½áºÏ The Chinese University of Hong Kong¡¢The Chinese University of Hong Kong, Shenzhen¡¢Tsinghua UniversityµÈ»ú¹¹µÄ×îÐÂ×êÑÐ PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools ¹Ø×¢Ò»¸ö¸ü»ù´¡µÄÎÊÌ⣺µ± AI ÕæÔÚÊÖ»úÉÏÐж¯£¬ÎÒÃÇÈôºÎÈÃËüÕæÕýʵÏÖ¹¤×÷£¬²¢ÑéÖ¤ËüµÄȷʵÏÖÁË£¿
ÊÖ»ú Agent µÄÖ÷Ìâ²»Ö»ÊÇ¡¸¸ü»áµãÆÁÄ»¡¹£¬¶øÊÇÄÜÆ¾¾Ý¹¤×÷Ñ¡Ôñ CLI¡¢GUI¡¢MCP ¹¤¾ßµÈÏàÒ˵ÄÐж¯Ãæ£»ÕæÊµÊÖ»ú workflow ±ØÒª¿ÉÑéÖ¤µÄ¸±×÷ÓãºÎļþÊÇ·ñÌìÉú¡¢ÉèÖÃÊÇ·ñŤת¡¢Óʼþ / ÈÕÀú¶ÔÏóÊÇ·ñÕæµÄ´´½¨£¬¶¼²»ÄÜÖ»¿¿Ä£ÐÍ¿ÚÍ·»Ø¸²£»PhoneHarness Ìṩ mixed-action Ö´ÐÐ harness£»PhoneHarness Bench ÔòÓà trace¡¢ÏµÍ³×´Ì¬¡¢App Á˾ֺͰ²È«Õ½ÊõÆÀ¹À¹¤×÷ÊÇ·ñÕæµÄʵÏÖ¡£
ÔںöàÊÖ»ú Agent ÆÀ²âÀ¹¤×÷±»²ð³ÉÒ»Á¬´® GUI ²Ù×÷¡£Ä£Ð͹۲ìÆÁÄ»£¬¾ö¶¨ÏÂÒ»²½µãÄÄÀï¡¢»¬ÄÄÀï¡¢Êäʲô¡£ÈôÊÇ×îºó UI ״̬¿´ÆðÀ´¶Ô£¬¾ÍË㹤×÷ʵÏÖ¡£
°ÑÊÖ»ú¹¤×÷µ±×÷¿ç CLI¡¢GUI¡¢MCP ¹¤¾ßµÄÆëÈ« workflow£»ÆÀ¹À³Áµã²»ÊÇ¡¸¿´ÆðÀ´ÊµÏÖ¡¹£¬¶øÊǸ±×÷ÓÃÊÇ·ñÕæÊµ²úÉú¡¢trace ÊÇ·ñ¿ÉÉ󼯣»¸üÊʺÏϵͳÉèÖá¢Îļþ¡¢ËÑË÷¡¢Óʼþ¡¢ÈÕÀúºÍ¿ç App ¹¤×÷¡£
ÀýÈ磬¡¸²éÒ»¸ö App ÄÚµÄÐÅÏ¢£¬ÔÙ½áºÏÍøÒ³ËÑË÷²¹³ä²¼¾°£¬²¢Õû¶Ù³ÉÓʼþ¡¹ÕâÀ๤×÷£¬²»ÊÇÒ»¸ö¸ü³¤µÄµã»÷Á´¡£ËüͬʱÔ̺¬ App ÄÚ GUI ½»»¥¡¢±í²¿ÐÅÏ¢¼ìË÷¡¢Îı¾´¦Öá¢Óʼþ¸±×÷Óã¬ÒÔ¼°×îÖÕÁ˾ÖÑéÖ¤¡£
ÈôÊÇÆÀ²âÖ»¿´×îÖջظ²£¬¾Í»á©µô×î¹Ø¼üµÄÎÊÌ⣺ģÐ͵½µ×ÓÐûÓвé¶ÔÆðÔ´¡¢ÓÐûÓÐÕæµÄ´´½¨Îļþ¡¢ÓÐûÓÐÕæµÄ·¢³öÓʼþ¡¢ÓÐûÓÐÈÆ¹ýÁËÓ¦¸Ã±»È·Èϵĸ߷çÏÕ²Ù×÷£¿
Ö÷ÌâÅжϣºPhoneHarness µÄÆô³ÌµãºÜÖ±½Ó£ºÊÖ»ú Agent µÄÆÀ²â²»ÄÜÖ»ÎÊ¡¸Ëü»á²»»áµãÆÁÄ»¡¹£¬¶øÒªÎÊ¡¸ËüÄܲ»ÄÜÔÚÕæÊµÊÖ»ú»·¾³Àï°ÑÒ»¼þÊÂ×öÍ꣬²¢ÁôÏ¿ÉÑéÖ¤Ö¤¾Ý¡¹¡£
¹Ø¼üÇø±ð£ºÎÊÌâ²»ÊÇ¡¸´¿ GUI ÀíÂÛÉÏÄܲ»ÄÜ×ö¡¹£¬¶øÊÇ¡¸´¿ GUI ÊÇ·ñÊÇ¿¿µÃס¡¢¸ßЧ¡¢¿ÉÑéÖ¤µÄ×÷Ϊ³éÏ󡹡£ÕæÊµÊÖ»ú workflow ÍùÍùͬʱÓâԽϵͳ״̬¡¢App ½çÃæ¡¢Îļþ¡¢ÍøÒ³¡¢Óʼþ¡¢ÈÕÀúºÍ°²È«Ììǵ¡£GUI ÊdzÁÒªÈë¿Ú£¬µ«²»Ó¦¸ÃÊÇΨһÈë¿Ú¡£
Òò¶ø£¬mixed-action ²»ÊǸø GUI agent ¼Ó¼¸¸ö±í¹Ò¹¤¾ß£¬¶øÊÇÈà agent ÔÚÖ´Ðйý³ÌÖÐΪ·ÖÆç×ÓÖ¸±êÑ¡ÔñÏàÒ赀 action surface£ºÄÜÓÃÈ·¶¨ÉúºÅÁî¶Áȡ״̬£¬¾Í²»Ó÷´¸´µãÉèÖÃÒ³£»±ØÐë½øÈë App ÄÚʵÏÖ½»»¥Ê±£¬²Å½»¸ø GUI£»±ØÒª±í²¿ÐÅÏ¢¡¢Îļþ´¦ÖûòÁ˾ָ´ºËʱ£¬ÔòŲÓà host-side tools »ò verifier¡£
ÕâÒâζ×Å£¬PhoneHarness ÀïµÄ agent ²»ÓðÑËùÓй¤×÷¶¼Ó²Èû½ø GUI µã»÷Á´¡£ËüÄܹ»ÅжϣºÊ²Ã´Ê±³½¸Ã×ßϵͳºÅÁʲôʱ³½¸Ã½»¸ø GUI worker£¬Ê²Ã´Ê±³½¸ÃŲÓÃËÑË÷¡¢Îĵµ¡¢Óʼþ¡¢ÈÕÀúµÈ¹¤¾ß¡£
ÕâÖÖÉè¼Æ¸ü¿¿½ü AI ÊÖ»úʱÆÚµÄÕæÊµÐèÒª¡£AI ÊÖ»ú²»ÊÇ¡¸ÔÚÊÖ»úÀï·ÅÒ»¸ö̸Ìì»úеÈË¡¹£¬¶øÊÇÈÃÖÇÄÜÌåÄÜÔÚ¸´ÔÓÊÖ»ú»·¾³ÀïÀí½âÖ¸±ê¡¢Ñ¡ÔñÐж¯¡¢Ö´Ðй¤×÷£¬²¢²úÉú¿É²é³µÄÁ˾֡£
PhoneHarness Bench ³ÉÁ¢ÔÚ PhoneHarness Ö®ÉÏ£¬²»°Ñ¹¤×÷д³É³éÏóÎÊ´ðÌ⣬¶øÊÇд³ÉÒ»¶ÎÄܹ»Ö´ÐÓ×¢¼Í¼ºÍ¸´ºËµÄ phone workflow¡£Agent ÔÚÖ´Ðйý³ÌÖлáÁôϽØÍ¼¡¢CLI / MCP ²Ù×÷¡¢Îļþ±ä¶¯¡¢ÏµÍ³×´Ì¬ºÍ App ²àÁ˾֣»benchmark ÔÙͨ¹ý task-specific verifier ÅжϹ¤×÷¸±×÷ÓÃÊÇ·ñÕæÊµ²úÉú¡£
Bench µÄ¹Ø¼ü£ºPhoneHarness Bench ²»ÎÊ¡¸Ä£ÐÍÓÐûÓÐ˵×Ô¼º×öÍ꡹£¬¶øÊÇ¿´¡¸¹¤×÷Ö¤¾ÝÁ´ÊÇ·ñÖ§³ÖËüÕæµÄ×öÍ꡹¡£ÕâÒ²ÊÇËüÇø±ðÓÚ´¿ÎÊ´ðʽÆÀ²âºÍ´¿ GUI ״̬ÆÀ²âµÄ¹Ø¼ü¡£
ÿ¸ö PhoneHarness Bench task ¶¼Ô̺¬Ò»¸öÓû§Ö¸±ê¡¢Ò»×é¿ÉŲÓÃÐж¯Ã棬ÒÔ¼°Ò»¸öÃæÏò¸±×÷ÓÃµÄ verifier¡£ÕâÑù£¬benchmark ÆÀ¹ÀµÄ²»Êǵ¥²½ GUI ²Ù×÷£¬¶øÊÇÆëÈ« workflow£º¹¤×÷ÊäÈë¡¢agent loop¡¢»ìºÏ×÷ΪִÐÓ×¢trace ¼Í¼¡¢Á˾ÖÑéÖ¤ºÍʧ°Ü¹éÒò¡£
ÕâÌõÁ´Â·ÈÃʧ°Ü²»ÔÙÖ»ÊÇÒ»¸ö³éÏóµÄ¡¸Ã»×ö¶Ô¡¹¡£ÎÒÃÇÄܹ»½øÒ»²½·Ö±æ£ºÊDZí²ã controller ûÓй滮ºÃ£¬ÊÇ GUI worker ûÓеã¶Ô£¬Êǹ¤¾ßŲÓÃʧ°Ü£¬ÊÇ»·¾³²»²»±ä£¬»¹ÊÇ verifier ûÓп´µ½Ô¤ÆÚ¸±×÷Óá£
PhoneHarness µÄÊÕÒæÖØÒªÀ´×ÔÄÇЩ´æÔÚÈ·¶¨ÐÔõè¾¶¡¢¹¤¾ß¸¨Öúõè¾¶»ò¿ÉÑéÖ¤¸±×÷ÓõŤ×÷¡£ºÃ±ÈÉ豸״̬²éÎÊ¡¢Îļþ´¦Öá¢ÍøÒ³¼ìË÷¡¢ÈÕÀú / Óʼþ / ÎĵµÓÐ¹Ø workflow£¬ÒÔ¼°±ØÒª¿çÐж¯Ãæ×éºÏµÄÊÖ»ú¹¤×÷¡£
³¢ÊÔ½â¶Á£ºÕâ¸ö½áÂÛ·´¶ø¸ü³ÁÒª£ºÊÖ»úÖÇÄÜÌåµÄδÀ´²»ÊÇ¡¸°Ñ GUI µã»÷Ä£ÐÍ×öµÃ¸ü´ó¡¹£¬¶øÊÇÒªÈà agent ѧ»áÑ¡ÔñÏàÒ˵ÄÐж¯Ã棬²¢ÈÃÿһ²½Ö´Ðж¼Äܱ»ÑéÖ¤¡£
ÈôÊÇ˵´ÓǰÊÖ»ú Agent µÄ¾ºÕù¸üÏñ¡¸Ë¸ü»á¿´ÆÁÄ»µã°´Å¥¡¹£¬ÄÇô AI ÊÖ»úʱÆÚÕæÕý³ÁÒªµÄÎÊÌâ»áÔì³É£ºËÄܰÑÕæÊµÊÖ»ú workflow ×öÍ꣬ËÄÜÁôÏ¿ÉÐÅÖ¤¾Ý£¬ËÄÜÔÚ°²È«ÌìǵÄÚ²»±äÖ´ÐС£
AI ÊÖ»ú²»Êǵ¥Ò»µØ°Ñ´óÄ£ÐÍÈû½øÏµÍ³¡£ËüÒâζ×ÅÊÖ»ú´Ó App-centric device ×ßÏò Agent-centric device£ºÓû§±í°×Ö¸±ê£¬agent ÕÆ¹ÜÑ¡Ôñõè¾¶¡¢Å²Óù¤¾ß¡¢²Ù×÷ App£¬²¢ÊµÏÖ¿ÉÑéÖ¤µÄÁ˾֡£
Ò»¾ä»°×ܽ᣺AI ÊÖ»úʱÆÚ£¬¹Ø¼üÎÊÌâ²»Ö»ÊÇÄ£ÐÍÄܲ»ÄÜÀí½âÆÁÄ»£¬¶øÊÇËüÄÜ·ñÔÚÕæÊµÊÖ»ú»·¾³ÀïÑ¡ÔñÕýÈ·Ðж¯Ã桢ʵÏÖ¿ÉÑéÖ¤¹¤×÷£¬²¢ÁôÏ¿ÉÉ󼯵ÄÖ´Ðй켣¡£
快穿之活大器好的系统宋清欢TXT乔治·基耶利尼在蓝衣军团有两次成功经历。首先是2003年在列支敦士登赢得U19欧青赛的甜蜜回忆:“很多人都拥有了成功的职业生涯,教练是伟大的贝雷蒂尼,他是青年队的传奇人物。”上海市公安局奉贤区分局刑侦支队刑科所技术员 钟愉:触发了警报,导致他过于紧张,开始慌不择路,但是他又不甘心空手而归。所以他想了很多办法,去把玻璃敲碎。快穿之活大器好的系统宋清欢TXT¡¶ÌìÃÀÐǿմóÏóMVÅÔ¹ÛÃâ·Ñ°Ù¶È¡·分子之心创始人许锦波教授是全球蛋白质结构预测领域的开创者之一,其早期工作为后续AlphaFold等突破性成果奠定了重要方法论基础。MMDesign及其核心引擎——全原子结构预测模型MMFold也延续了分子之心的创新基因。第二次中标候选人公示后,多家企业表达了对结果的不满,不止一家投标单位告诉澎湃新闻,他们向主管部门进行了实名举报。
20260606 ? 快穿之活大器好的系统宋清欢TXT从某种程度上来说,AI 才刚刚开始,下半场也才刚刚拉开序幕。我不认为 ChatGPT 和 Claude Code 会是唯一的超级应用,如果真是那样,这个世界会非常灰暗。未来一定会有源源不断的新机会诞生,现在的 AI 行业,就像上世纪 70 年代个人电脑刚刚诞生的阶段,还有无数的事情等着我们去做。¡¶ÄÐŮ֮¼ä²úÉúÄÇÖÖÊÂ×÷ΪÊÓÆµ¡·据统计,这是法国队自2010年以来首次在大赛前的热身赛中输球。2010年,法国队在南非世界杯前0-1不敌中国队,当时进球的队员是邓卓翔。南非世界杯上,法国队1平2负出局,战绩非常糟糕。
20260606 ? 快穿之活大器好的系统宋清欢TXTONE既希望成为所有人每天都会打开的入口,又希望解决足够深的问题;既需要覆盖大多数用户,又需要证明商业价值;既承担战略意义,又背着增长指标。一个面向全体用户的产品,通常解决的是共性需求;真正愿意持续付费的场景,很多时候来自具体行业和具体业务。ÖÆÆ·ÍøÕ¾1688Ãâ·ÑÈë¿ÚÍøÒ³°æÔõôµÇ¼有伊朗分析人士指出,美国看似给伊朗协议和战争两种选择,但实质目的就是迫使伊朗“投降”,而伊朗不会放弃自身立场,接受一项只符合美以利益的协议。