CA88

《娇生灌养》作者:十有九溺AI手机时期必要怎么的Agent Harness？

2026-06-06 12:18:24 起源：周红艳

字号：默认大超大 | 打印 |

这些信号指向统一个趋向：AI 不再只是谈天框里的回覆者，而是在进动手机这个最日常、最复杂、也最具状态性的推算环境。腾讯混元牵头，结合 The Chinese University of Hong Kong、The Chinese University of Hong Kong, Shenzhen、Tsinghua University等机构的最新钻研 PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools 关注一个更基础的问题：当 AI 真在手机上行动，我们若何让它真正实现工作，并验证它的确实现了？手机 Agent 的主题不只是「更会点屏幕」，而是能凭据工作选择 CLI、GUI、MCP 工具等相宜的行动面；真实手机 workflow 必要可验证的副作用：文件是否天生、设置是否扭转、邮件 / 日历对象是否真的创建，都不能只靠模型口头回覆；PhoneHarness 提供 mixed-action 执行 harness；PhoneHarness Bench 则用 trace、系统状态、App 了局和安全战术评估工作是否真的实现。在好多手机 Agent 评测里，工作被拆成一连串 GUI 操作。模型观察屏幕，决定下一步点哪里、滑哪里、输什么。若是最后 UI 状态看起来对，就算工作实现。把手机工作当作跨 CLI、GUI、MCP 工具的齐全 workflow；评估沉点不是「看起来实现」，而是副作用是否真实产生、trace 是否可审计；更适合系统设置、文件、搜索、邮件、日历和跨 App 工作。例如，「查一个 App 内的信息，再结合网页搜索补充布景，并整顿成邮件」这类工作，不是一个更长的点击链。它同时蕴含 App 内 GUI 交互、表部信息检索、文本处置、邮件副作用，以及最终了局验证。若是评测只看最终回覆，就会漏掉最关键的问题：模型到底有没有查对起源、有没有真的创建文件、有没有真的发出邮件、有没有绕过了应该被确认的高风险操作？主题判断：PhoneHarness 的启程点很直接：手机 Agent 的评测不能只问「它会不会点屏幕」，而要问「它能不能在真实手机环境里把一件事做完，并留下可验证证据」。关键区别：问题不是「纯 GUI 理论上能不能做」，而是「纯 GUI 是否是靠得住、高效、可验证的作为抽象」。真实手机 workflow 往往同时逾越系统状态、App 界面、文件、网页、邮件、日历和安全天堑。GUI 是沉要入口，但不应该是唯一入口。因而，mixed-action 不是给 GUI agent 加几个表挂工具，而是让 agent 在执行过程中为分歧子指标选择相宜的 action surface：能用确定生号令读取状态，就不用反复点设置页；必须进入 App 内实现交互时，才交给 GUI；必要表部信息、文件处置或了局复核时，则挪用 host-side tools 或 verifier。这意味着，PhoneHarness 里的 agent 不用把所有工作都硬塞进 GUI 点击链。它能够判断：什么时辰该走系统号令，什么时辰该交给 GUI worker，什么时辰该挪用搜索、文档、邮件、日历等工具。这种设计更靠近 AI 手机时期的真实需要。AI 手机不是「在手机里放一个谈天机械人」，而是让智能体能在复杂手机环境里理解指标、选择行动、执行工作，并产生可查抄的了局。 PhoneHarness Bench 成立在 PhoneHarness 之上，不把工作写成抽象问答题，而是写成一段能够执杏注纪录和复核的 phone workflow。Agent 在执行过程中会留下截图、CLI / MCP 操作、文件变动、系统状态和 App 侧了局；benchmark 再通过 task-specific verifier 判断工作副作用是否真实产生。 Bench 的关键：PhoneHarness Bench 不问「模型有没有说自己做完」，而是看「工作证据链是否支持它真的做完」。这也是它区别于纯问答式评测和纯 GUI 状态评测的关键。每个 PhoneHarness Bench task 都蕴含一个用户指标、一组可挪用行动面，以及一个面向副作用的 verifier。这样，benchmark 评估的不是单步 GUI 操作，而是齐全 workflow：工作输入、agent loop、混合作为执杏注trace 纪录、了局验证和失败归因。这条链路让失败不再只是一个抽象的「没做对」。我们能够进一步分辨：是表层 controller 没有规划好，是 GUI worker 没有点对，是工具挪用失败，是环境不不变，还是 verifier 没有看到预期副作用。 PhoneHarness 的收益重要来自那些存在确定性蹊径、工具辅助蹊径或可验证副作用的工作。好比设备状态查问、文件处置、网页检索、日历 / 邮件 / 文档有关 workflow，以及必要跨行动面组合的手机工作。尝试解读：这个结论反而更沉要：手机智能体的未来不是「把 GUI 点击模型做得更大」，而是要让 agent 学会选择相宜的行动面，并让每一步执行都能被验证。若是说从前手机 Agent 的竞争更像「谁更会看屏幕点按钮」，那么 AI 手机时期真正沉要的问题会造成：谁能把真实手机 workflow 做完，谁能留下可信证据，谁能在安全天堑内不变执行。 AI 手机不是单一地把大模型塞进系统。它意味着手机从 App-centric device 走向 Agent-centric device：用户表白指标，agent 掌管选择蹊径、挪用工具、操作 App，并实现可验证的了局。一句话总结：AI 手机时期，关键问题不只是模型能不能理解屏幕，而是它能否在真实手机环境里选择正确行动面、实现可验证工作，并留下可审计的执行轨迹。

《娇生灌养》作者:十有九溺

                                《娇生灌养》作者:十有九溺周跃峰表示，唯有将Token成本、一体化调度、RL（强化学习）效率与安全自治做到极致，才能主导Agentic AI时代基础设施发展主动权。华为云将通过软硬芯协同系统创新，做厚企业级Agentic AI的“硅基黑土地”，持续引领Agentic Infra新范式，为Agentic时代应用加速落地奠定坚实基础。6月5日凌晨，法网女单半决赛赫瓦林斯卡对阵施耐德。本场比赛资格赛突围的赫瓦林斯卡，延续了自己的黑马之旅，她直落两盘将施耐德淘汰出局，职业生涯首次闯入大满贯决赛，成为了法网历史上首位闯入决赛的资格赛选手。《娇生灌养》作者:十有九溺《叔叔的娇娃娃LN笔趣阁最新章节列表》第三是认知负担。大约 48% 的员工表示，言语交流是办公室里最令人分心的噪音来源。工人们平均每天因对话干扰损失 21.5 分钟的工作时间。你可能想通过语音输入来提高效率，但你的同事可能正在被你的低语声打断思路。2018年一个周末，武汉长江边一把旋转着进行钻削的菠萝刀吸引了正在散步的魏翔。如果手术刀也能如此“穿心旋切”，全国数百万肥厚型梗阻性心肌病患者就不必承受开胸20厘米、心脏停跳与体外循环之苦。一个大胆的设想由此萌生。
                            

                                20260606 ? 《娇生灌养》作者:十有九溺一个更显著的现象是热门歌手演唱会场次的爆发。原来，一场演唱会开二到三场就算比较饱和了，现在像张杰、五月天一开就是十几场，“这已经是跟国际大牌歌星基本一个水准了，甚至超过了绝大部分国外歌手的场次安排。”张海君以鸟巢为例介绍说，一场演唱会五六万名观众，十几场就是近百万人，这还不包括未买到票在场外聆听的歌迷。这些观众中跨城观演比例极高，他们不仅看演出，还会在城市停留、游览、消费，形成了全程联动、同频共振的状态，带动了文旅商体展全新的消费格局。电影《儿媳忠于本能》演员表第三，当然，我们肯定会尽可能地消化掉部分原料和成本的上涨，给用户一个非常实在的价格。不过，我们也在网上看到一些用户的预期，需要强调的是，乐道L60的本质不会卷价格，我们要卷的是最好的用户体验和科技感，而不是把价格拉到什么程度，整体的思考不会偏离我们的目标和初衷。
                            

《娇生灌养》作者:十有九溺

? 邓柏林记者张东皓摄

                                20260606 ? 《娇生灌养》作者:十有九溺在季后赛首轮爆冷不敌76人后，如果绿军篮球运营总裁布拉德·史蒂文斯决定出手争夺字母哥级别的超巨，这完全在情理之中。在球队新老板比尔·奇斯霍尔姆的治下，绿军的唯一目标就是年年争冠。上赛季，尽管核心杰森·塔图姆因跟腱伤势长期缺阵，绿军依然以东部大热姿态杀入季后赛。然而，打出MVP级别常规赛表现的杰伦·布朗在面对76人时却屡现挣扎，这不禁让外界浮想联翩：如果史蒂文斯决定孤注一掷追求字母哥，剧情会如何发展？《JM》在教育的征程中，考试与志愿填报无疑是至关重要的节点。明天，一年一度的高考即将打响，随后学考、中考也将接踵而至。每年的这个时候，对于考生而言，分数固然关键，但比丢分更可怕的，是自己精心填报的志愿被人悄悄篡改。海南近期宣判的一起案件，就给所有考生和家长敲响了警钟。
                            

《娇生灌养》作者:十有九溺

? 罗琴琴记者杨兴元摄

                            ? 费内巴切主席候选人哈坎-萨菲近日再次抛出重磅引援承诺。在此前宣称已经与葡萄牙体育前锋路易斯-苏亚雷斯达成协议后，他又表示，如果自己在本周日的俱乐部主席选举中获胜，还将签下马赛球星格林伍德。回复术士的沉来人生免费旁观齐全版
                        

【我要推荐】更多推荐：韩国前国脚朴主永：我以为韩国会以一胜两平的战绩晋级32强

扫一扫在手机打开当前页

链接：
全国人大
|
全国政协
|
国度监察委员会
|
最高人民法院
|
最高人民检察院

国务院部门网站
|
处所当局网站
|
驻港澳机构网站
|
驻表机构

red

中国当局网 | 关于本网 | 网站申明 | 联系CA88 | 网站纠错

主办单元：《娇生灌养》作者:十有九溺　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452　京ICP备05070218号　 2018guohui03 京公网安备11010202000001号

CA88(中国区)唯一官方网站

国务院客户端

CA88(中国区)唯一官方网站

国务院客户端幼法式

中国当局网微博、微信

gtrs_red

主办单元：中国当局网　运行守护单元：中国当局网运行中心

版权所有：中国当局网　中文域名：中国当局网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】