ÕâЩÐźÅÖ¸Ïòͳһ¸öÇ÷Ïò£ºAI ²»ÔÙÖ»ÊÇ̸Ìì¿òÀïµÄ»Ø¸²Õߣ¬¶øÊÇÔÚ½ø¶¯ÊÖ»úÕâ¸ö×îÈÕ³£¡¢×ÔÓ¡¢Ò²×î¾ß״̬ÐÔµÄÍÆËã»·¾³¡£
ÌÚѶ»ìԪǣͷ£¬½áºÏ The Chinese University of Hong Kong¡¢The Chinese University of Hong Kong, Shenzhen¡¢Tsinghua UniversityµÈ»ú¹¹µÄ×îÐÂ×êÑÐ PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools ¹Ø×¢Ò»¸ö¸ü»ù´¡µÄÎÊÌ⣺µ± AI ÕæÔÚÊÖ»úÉÏÐж¯£¬ÎÒÃÇÈôºÎÈÃËüÕæÕýʵÏÖ¹¤×÷£¬²¢ÑéÖ¤ËüµÄȷʵÏÖÁË£¿
ÊÖ»ú Agent µÄÖ÷Ìâ²»Ö»ÊÇ¡¸¸ü»áµãÆÁÄ»¡¹£¬¶øÊÇÄÜÆ¾¾Ý¹¤×÷Ñ¡Ôñ CLI¡¢GUI¡¢MCP ¹¤¾ßµÈÏàÒ˵ÄÐж¯Ãæ£»ÕæÊµÊÖ»ú workflow ±ØÒª¿ÉÑéÖ¤µÄ¸±×÷ÓãºÎļþÊÇ·ñÌìÉú¡¢ÉèÖÃÊÇ·ñŤת¡¢Óʼþ / ÈÕÀú¶ÔÏóÊÇ·ñÕæµÄ´´½¨£¬¶¼²»ÄÜÖ»¿¿Ä£ÐÍ¿ÚÍ·»Ø¸²£»PhoneHarness Ìṩ mixed-action Ö´ÐÐ harness£»PhoneHarness Bench ÔòÓà trace¡¢ÏµÍ³×´Ì¬¡¢App Á˾ֺͰ²È«Õ½ÊõÆÀ¹À¹¤×÷ÊÇ·ñÕæµÄʵÏÖ¡£
ÔںöàÊÖ»ú Agent ÆÀ²âÀ¹¤×÷±»²ð³ÉÒ»Á¬´® GUI ²Ù×÷¡£Ä£Ð͹۲ìÆÁÄ»£¬¾ö¶¨ÏÂÒ»²½µãÄÄÀï¡¢»¬ÄÄÀï¡¢Êäʲô¡£ÈôÊÇ×îºó UI ״̬¿´ÆðÀ´¶Ô£¬¾ÍË㹤×÷ʵÏÖ¡£
°ÑÊÖ»ú¹¤×÷µ±×÷¿ç CLI¡¢GUI¡¢MCP ¹¤¾ßµÄÆëÈ« workflow£»ÆÀ¹À³Áµã²»ÊÇ¡¸¿´ÆðÀ´ÊµÏÖ¡¹£¬¶øÊǸ±×÷ÓÃÊÇ·ñÕæÊµ²úÉú¡¢trace ÊÇ·ñ¿ÉÉ󼯣»¸üÊʺÏϵͳÉèÖá¢Îļþ¡¢ËÑË÷¡¢Óʼþ¡¢ÈÕÀúºÍ¿ç App ¹¤×÷¡£
ÀýÈ磬¡¸²éÒ»¸ö App ÄÚµÄÐÅÏ¢£¬ÔÙ½áºÏÍøÒ³ËÑË÷²¹³ä²¼¾°£¬²¢Õû¶Ù³ÉÓʼþ¡¹ÕâÀ๤×÷£¬²»ÊÇÒ»¸ö¸ü³¤µÄµã»÷Á´¡£ËüͬʱÔ̺¬ App ÄÚ GUI ½»»¥¡¢±í²¿ÐÅÏ¢¼ìË÷¡¢Îı¾´¦Öá¢Óʼþ¸±×÷Óã¬ÒÔ¼°×îÖÕÁ˾ÖÑéÖ¤¡£
ÈôÊÇÆÀ²âÖ»¿´×îÖջظ²£¬¾Í»á©µô×î¹Ø¼üµÄÎÊÌ⣺ģÐ͵½µ×ÓÐûÓвé¶ÔÆðÔ´¡¢ÓÐûÓÐÕæµÄ´´½¨Îļþ¡¢ÓÐûÓÐÕæµÄ·¢³öÓʼþ¡¢ÓÐûÓÐÈÆ¹ýÁËÓ¦¸Ã±»È·Èϵĸ߷çÏÕ²Ù×÷£¿
Ö÷ÌâÅжϣºPhoneHarness µÄÆô³ÌµãºÜÖ±½Ó£ºÊÖ»ú Agent µÄÆÀ²â²»ÄÜÖ»ÎÊ¡¸Ëü»á²»»áµãÆÁÄ»¡¹£¬¶øÒªÎÊ¡¸ËüÄܲ»ÄÜÔÚÕæÊµÊÖ»ú»·¾³Àï°ÑÒ»¼þÊÂ×öÍ꣬²¢ÁôÏ¿ÉÑéÖ¤Ö¤¾Ý¡¹¡£
¹Ø¼üÇø±ð£ºÎÊÌâ²»ÊÇ¡¸´¿ GUI ÀíÂÛÉÏÄܲ»ÄÜ×ö¡¹£¬¶øÊÇ¡¸´¿ GUI ÊÇ·ñÊÇ¿¿µÃס¡¢¸ßЧ¡¢¿ÉÑéÖ¤µÄ×÷Ϊ³éÏ󡹡£ÕæÊµÊÖ»ú workflow ÍùÍùͬʱÓâԽϵͳ״̬¡¢App ½çÃæ¡¢Îļþ¡¢ÍøÒ³¡¢Óʼþ¡¢ÈÕÀúºÍ°²È«Ììǵ¡£GUI ÊdzÁÒªÈë¿Ú£¬µ«²»Ó¦¸ÃÊÇΨһÈë¿Ú¡£
Òò¶ø£¬mixed-action ²»ÊǸø GUI agent ¼Ó¼¸¸ö±í¹Ò¹¤¾ß£¬¶øÊÇÈà agent ÔÚÖ´Ðйý³ÌÖÐΪ·ÖÆç×ÓÖ¸±êÑ¡ÔñÏàÒ赀 action surface£ºÄÜÓÃÈ·¶¨ÉúºÅÁî¶Áȡ״̬£¬¾Í²»Ó÷´¸´µãÉèÖÃÒ³£»±ØÐë½øÈë App ÄÚʵÏÖ½»»¥Ê±£¬²Å½»¸ø GUI£»±ØÒª±í²¿ÐÅÏ¢¡¢Îļþ´¦ÖûòÁ˾ָ´ºËʱ£¬ÔòŲÓà host-side tools »ò verifier¡£
ÕâÒâζ×Å£¬PhoneHarness ÀïµÄ agent ²»ÓðÑËùÓй¤×÷¶¼Ó²Èû½ø GUI µã»÷Á´¡£ËüÄܹ»ÅжϣºÊ²Ã´Ê±³½¸Ã×ßϵͳºÅÁʲôʱ³½¸Ã½»¸ø GUI worker£¬Ê²Ã´Ê±³½¸ÃŲÓÃËÑË÷¡¢Îĵµ¡¢Óʼþ¡¢ÈÕÀúµÈ¹¤¾ß¡£
ÕâÖÖÉè¼Æ¸ü¿¿½ü AI ÊÖ»úʱÆÚµÄÕæÊµÐèÒª¡£AI ÊÖ»ú²»ÊÇ¡¸ÔÚÊÖ»úÀï·ÅÒ»¸ö̸Ìì»úеÈË¡¹£¬¶øÊÇÈÃÖÇÄÜÌåÄÜÔÚ¸´ÔÓÊÖ»ú»·¾³ÀïÀí½âÖ¸±ê¡¢Ñ¡ÔñÐж¯¡¢Ö´Ðй¤×÷£¬²¢²úÉú¿É²é³µÄÁ˾֡£
PhoneHarness Bench ³ÉÁ¢ÔÚ PhoneHarness Ö®ÉÏ£¬²»°Ñ¹¤×÷д³É³éÏóÎÊ´ðÌ⣬¶øÊÇд³ÉÒ»¶ÎÄܹ»Ö´ÐÓ×¢¼Í¼ºÍ¸´ºËµÄ phone workflow¡£Agent ÔÚÖ´Ðйý³ÌÖлáÁôϽØÍ¼¡¢CLI / MCP ²Ù×÷¡¢Îļþ±ä¶¯¡¢ÏµÍ³×´Ì¬ºÍ App ²àÁ˾֣»benchmark ÔÙͨ¹ý task-specific verifier ÅжϹ¤×÷¸±×÷ÓÃÊÇ·ñÕæÊµ²úÉú¡£
Bench µÄ¹Ø¼ü£ºPhoneHarness Bench ²»ÎÊ¡¸Ä£ÐÍÓÐûÓÐ˵×Ô¼º×öÍ꡹£¬¶øÊÇ¿´¡¸¹¤×÷Ö¤¾ÝÁ´ÊÇ·ñÖ§³ÖËüÕæµÄ×öÍ꡹¡£ÕâÒ²ÊÇËüÇø±ðÓÚ´¿ÎÊ´ðʽÆÀ²âºÍ´¿ GUI ״̬ÆÀ²âµÄ¹Ø¼ü¡£
ÿ¸ö PhoneHarness Bench task ¶¼Ô̺¬Ò»¸öÓû§Ö¸±ê¡¢Ò»×é¿ÉŲÓÃÐж¯Ã棬ÒÔ¼°Ò»¸öÃæÏò¸±×÷ÓÃµÄ verifier¡£ÕâÑù£¬benchmark ÆÀ¹ÀµÄ²»Êǵ¥²½ GUI ²Ù×÷£¬¶øÊÇÆëÈ« workflow£º¹¤×÷ÊäÈë¡¢agent loop¡¢»ìºÏ×÷ΪִÐÓ×¢trace ¼Í¼¡¢Á˾ÖÑéÖ¤ºÍʧ°Ü¹éÒò¡£
ÕâÌõÁ´Â·ÈÃʧ°Ü²»ÔÙÖ»ÊÇÒ»¸ö³éÏóµÄ¡¸Ã»×ö¶Ô¡¹¡£ÎÒÃÇÄܹ»½øÒ»²½·Ö±æ£ºÊDZí²ã controller ûÓй滮ºÃ£¬ÊÇ GUI worker ûÓеã¶Ô£¬Êǹ¤¾ßŲÓÃʧ°Ü£¬ÊÇ»·¾³²»²»±ä£¬»¹ÊÇ verifier ûÓп´µ½Ô¤ÆÚ¸±×÷Óá£
PhoneHarness µÄÊÕÒæÖØÒªÀ´×ÔÄÇЩ´æÔÚÈ·¶¨ÐÔõè¾¶¡¢¹¤¾ß¸¨Öúõè¾¶»ò¿ÉÑéÖ¤¸±×÷ÓõŤ×÷¡£ºÃ±ÈÉ豸״̬²éÎÊ¡¢Îļþ´¦Öá¢ÍøÒ³¼ìË÷¡¢ÈÕÀú / Óʼþ / ÎĵµÓÐ¹Ø workflow£¬ÒÔ¼°±ØÒª¿çÐж¯Ãæ×éºÏµÄÊÖ»ú¹¤×÷¡£
³¢ÊÔ½â¶Á£ºÕâ¸ö½áÂÛ·´¶ø¸ü³ÁÒª£ºÊÖ»úÖÇÄÜÌåµÄδÀ´²»ÊÇ¡¸°Ñ GUI µã»÷Ä£ÐÍ×öµÃ¸ü´ó¡¹£¬¶øÊÇÒªÈà agent ѧ»áÑ¡ÔñÏàÒ˵ÄÐж¯Ã棬²¢ÈÃÿһ²½Ö´Ðж¼Äܱ»ÑéÖ¤¡£
ÈôÊÇ˵´ÓǰÊÖ»ú Agent µÄ¾ºÕù¸üÏñ¡¸Ë¸ü»á¿´ÆÁÄ»µã°´Å¥¡¹£¬ÄÇô AI ÊÖ»úʱÆÚÕæÕý³ÁÒªµÄÎÊÌâ»áÔì³É£ºËÄܰÑÕæÊµÊÖ»ú workflow ×öÍ꣬ËÄÜÁôÏ¿ÉÐÅÖ¤¾Ý£¬ËÄÜÔÚ°²È«ÌìǵÄÚ²»±äÖ´ÐС£
AI ÊÖ»ú²»Êǵ¥Ò»µØ°Ñ´óÄ£ÐÍÈû½øÏµÍ³¡£ËüÒâζ×ÅÊÖ»ú´Ó App-centric device ×ßÏò Agent-centric device£ºÓû§±í°×Ö¸±ê£¬agent ÕÆ¹ÜÑ¡Ôñõè¾¶¡¢Å²Óù¤¾ß¡¢²Ù×÷ App£¬²¢ÊµÏÖ¿ÉÑéÖ¤µÄÁ˾֡£
Ò»¾ä»°×ܽ᣺AI ÊÖ»úʱÆÚ£¬¹Ø¼üÎÊÌâ²»Ö»ÊÇÄ£ÐÍÄܲ»ÄÜÀí½âÆÁÄ»£¬¶øÊÇËüÄÜ·ñÔÚÕæÊµÊÖ»ú»·¾³ÀïÑ¡ÔñÕýÈ·Ðж¯Ã桢ʵÏÖ¿ÉÑéÖ¤¹¤×÷£¬²¢ÁôÏ¿ÉÉ󼯵ÄÖ´Ðй켣¡£
干爹你好狂[香江]免费阅读北京市中闻(西安)律师事务所谭敏涛律师指出,L4高度无人驾驶车辆在试点路段合规行驶发生事故,车辆一方存在过错的,车辆运营公司、车辆所有人先行全额赔付;查实事故根源是算法缺陷、零部件出厂故障的,运营方赔付完毕后,凭产品质量鉴定向整车厂、自动驾驶研发企业追偿;因后台运维人员远程操作失误导致事故,运营企业对内追责运维人员,对外先行承担民事赔偿。1、为什么不怕亏:奥尔特曼说算力价格一直在降,但人们想用的量涨得比价格跌得更快;真正点燃这一轮需求的是编程模型。干爹你好狂[香江]免费阅读¡¶ÂèÂèÅ®ÐöÈ«¼¯Ãâ·Ñ¿´¡·蓝天救援队员寻找一天无果后报警。当晚10点左右,门头沟区消防救援支队接到公安部门的转警,随即派出队员搜救。接下来的两天时间里,门头沟消防共出动66人次,不间断搜索。库拉索是什么国家?你没听说过也正常,但你可能听说过它的邻居:阿鲁巴(x)。这是隶属荷兰王国的海外自治国,以前他叫荷属安的列斯群岛。地处加勒比海南部,南距委内瑞拉西北海岸约65公里,与阿鲁巴和波内赫并称 “ABC 群岛”,是小安的列斯群岛尾端的岛屿。
20260606 ? 干爹你好狂[香江]免费阅读假如黑洞真能作为近乎理想的时钟,那么它的计时行为就应该像量子时钟一样,计时过程会在热力学性质以及它释放的辐射熵中留下印记,例如量子关联如何扩散、信息如何被打乱。韦鲁基和科波的下一步工作,就是分析黑洞模型的热力学性质,并寻找能在量子时钟里看到的与熵动力学相似的规律。¡¶¶¯Âþ¡¶MEMEME¡·ÆëÈ«°æ¡·“经过几年,等你长大之后,请务必再看一次这部作品。我想,你一定可以找到和现在不同的,非常重要的东西。我现在就很期待你重读的那一天。”
20260606 ? 干爹你好狂[香江]免费阅读外界还注意到,印度股市正经历有史以来最快的资金外流。自2月28日美以伊冲突爆发以来,海外投资者已从印度股市撤资近210亿美元。¡¶ÎҵIJ»Á¼Òå½ã¡·¶¯Âþ°æ°Ù¶ÈÔÆ事先说明两名未上榜球员:需要说明的是,内马尔团队虽已与辛辛那提开启谈判,但他今夏并非自由身,与桑托斯的合同年底才到期,因此未入选榜单;萨拉赫虽公开告别利物浦,目前也尚未恢复自由身。以下为今夏大概率登陆美职联的合同到期球星盘点。