这项由美国伊利诺伊大学厄巴纳-香槟分校(UIUC)与微软钻研院结合发展的钻研,于2026年6月颁布在预印本平台arXiv上,论文编号为arXiv:2606.02031。有兴致深刻相识的读者能够通过该编号查问齐全论文。
每天,全球罕见十亿人打开浏览器,在网页上搜索商品、填写表单、比价购物、查阅信息。这些操作对人类来说垂手可得,但对AI来说,却是一座难以翻越的山。网页是动态的、混乱的、充斥弹窗和验证码的,并且每隔一段功夫就会改版——这对必要"看懂网页、点对处所、实现工作"的AI智能体来说,险些是噩梦般的训练场。
目前最严害的网页AI智能体,根基都把握在OpenAI、Google这样的科技巨头手中,属于不合表公开训练细节的"黑箱系统"?瓷缜倘灰苍谥铝,但普遍依赖一种叫做"监督进建"的方式——也就是先网络大量人类操作网页的示范录像,再让AI仿照。这种方式有个致命短板:录像拍摄既昂贵又费时,并且录造实现的一刻起就起头"过期",底子跟不上互联网一日千里的变动节拍。
正是在这样的布景下,UIUC与微软的钻研团队决定另辟蹊径。他们的主题思路是:与其让AI死记硬背人类的操作示范,不如让AI直接在真实网站上"自己去试",从成功和失败中进建。这个方向被称为"在线强化进建",对于视觉化的网页智能体来说,它此前险些还是一片空缺地带。
钻研团队将这套齐全的训练框架定名为OpenWebRL,并在此基础上训练出了一个4B参数规模的模型OpenWebRL-4B。这个模型仅凭400条初始示范轨迹和2200个在线训练工作,就在三个顶级网页智能体测评基准上刷新了开源最高分,部门指标甚至超过了OpenAI和Google的贸易系统。
一幼我学骑自行车,会从跌倒中履历到平衡的沉要性,并鄙人次调整姿势。这个反馈是即时的、清澈的。但让AI在网页上进建实现工作,面对的反馈环境要复杂得多。网页是活的——今天还能正常显示的按钮,明天可能被移走;今天能跑通的登录流程,明天可能多了一路验证码;某些网站会把频仍的自动化操作鉴别为"机械人"并直接关闭接见。这些都是"环境噪声",很容易让AI误以为是自己做错了,从而学偏。
更难的问题在于:网页工作的"成功与否"往往要比及整个工作实现后能力判断。你无法在AI点击第三个按钮的时辰通知它"这一步做得对",只能在它最终回覆出"这款鞋的最廉价是299元"之后,能力评价整个过程对不合。这种"过后才知路了局"的反馈机造,对训练算法的设计提出了很高的要求。
与此同时,视觉信息的处置价值极高。每一步操作,AI都要"看"一张网页截图——这张截图可能蕴含数百个元素,亏损大量推算资源。若是每一步汗青截图都保留在AI的"影象"中,一个30步的工作轨迹甚至会超出大无数模型的高低文承载上限。
钻研团队在论文中系统性地梳理了这些挑战,并为每一个挑战设计了具体的解决规划,这些规划共同组成了OpenWebRL框架的主题。
能够把这套系统理解为给AI搭建了一个"沙盒游乐场"——每个训练工作都在独立的虚褂委览器窗口中运行,互不滋扰,就像每位学员都有自己专属的训练跑路,不会由于别人的失误影响自己。这套基础设施基于Playwright和Chromium构建,运行在Kubernetes容器化环境中,支持上百个浏览器事俘同时并走运作。
但真实网页的麻烦在于,即便环境搭好了,各类意表随时会产生:某个网站加载太慢、某次网络要求超时、某页面忽然弹出验证码、某个按钮由于反自动化机造而回绝被点击。钻研团队为此设计了美满的"容错机造"——系统会自动分辨"是AI做错了"还是"是网站出问题了",并将失败原因具体纪录下来,以便后续分析。对于那些反复出现网络故障的网站,系统还会自动将其列入黑名单,预防训练资源浪费在底子无法接见的地址上。
仅靠截图,AI很难知路自己的操作是否真的生效了。点了一个按钮之后,页面可能看起来没什么变动,但现实上可能已经偷偷导航到新页面、或者填写进去的内容底子没被接受。
OpenWebRL解决这个问题的方式,是给每一次操作都附上一条"文字反馈",相当于给AI建设了一个实时助理,在它每次操作后耳语提醒:"刚才你点的那个按钮成功了,页面跳转到了xxx",或者"你输入的文字和现实接受的内容不一致,把稳看"。这条文字反馈是通过度析操作前后的网页DOM树(网页结构树)变动来天生的,内容简洁但信息密度高。
这条反馈的沉要性在后续尝试中得到了明确验证——去掉这个文字反馈,AI在多个基准测试上的成功率会降落5到8个百分点。尤其是在必要多步操作的长程工作中,少了这个反馈,AI就像在阴郁中摸索,很容易在一个已经失败的操作上反复纠缠,或者没意识到某个关键步骤已经犯错。
OpenWebRL为AI建设了一套由13个基础操作工具组成的工具箱,涵盖鼠标点击(单击、双击、右键)、键盘输入、页面滚动、网址跳转、前进后退、标签页治理,以及最沉要的"实现并汇报"操作——这是AI通知系统"工作做完了,我的答案是xxx"的唯一方式。
更有趣的是,AI每次不必要只挪用一个工具。钻研团队允许AI在一次"思虑-行动"周期中陆续挪用多个工具。好比,AI能够在一次输出中同时实现"点击搜索框、输入关键词、按回车"这三个陆续作为,而不必要经历三次"截图→思虑→操作→期待截图"的齐全循环。这个设计大大提高了训练效能,削减了不用要的模型与环境之间的来回交互。
一个30步的网页操作工作,若是把每一步的截图都保留在AI的影象中,数据量之大足以撑爆大无数模型的高低文限度。钻研团队的解决规划既简洁又高效:只保留最近一张截图,但齐全保留汗青文字信息。
路理其实很朴素:人在做复杂工作时,不必要同时盯着之前每一步的操作界面,只必要记住之前做了什么、了局怎么,以及当前屏幕上看到的内容就够了。AI也是如此。汗青截图被抛弃,但每一步的操作纪录、环境反馈和AI自己的"思虑过程"都齐全保留,作为文字大局的"工作影象"。
尝试了局批注,只保留最近一张截图(K=1)与保留最近两张相比,成效险些没有差距,但推算成本却显著降低——保留两张截图会让训练时长从约240 GPU幼时增长到400 GPU幼时。这个发现通知我们,在多模态智能体的长程工作中,说话影象的价值往往比视觉汗青更为关键。
OpenWebRL的训练分为两个阶段,这两个阶段的设计思路,很像人类进建新技术的经典蹊径:先随着教员学根基功,再独立上场实战提升。
第一阶段是"监督微调",也就是让AI先仿照高手操作。钻研团队使用Qwen3-VL-235B(一个占有2350亿参数的超大模型,能够理解为行业顶尖水平的"教员")来实现一批网页工作,筛选出成功的轨迹,而后从中精心遴选412条最具代表性的轨迹,让4B的幼模型来仿照进建。
之所以只选412条而不是用几十万条,是有沉思熟虑的理由的。钻研团队发现,若是喂太多示范数据,幼模型会把教员的操风格格学得过于枯燥,反而在后续的实战训练中不足"可塑性",难以被进一措施整优化。就像一个从幼被逼着照本宣科的学生,反而不如那个只学了根基准则、但保留了自主索求能力的学生进取更快。
尝试中,钻研团队对比了四种分歧的初始化方式:齐全不做监督训练、少量训练1轮、适量训练3轮,以及大量数据训练3轮。了局发现,适量的监督预热(412条数据、3轮训练)带来的后续强化进建成效最好,而大量数据预热反而会牵累最终阐发。这个结论有沉要的实际领导意思:初始化的主张是"让AI能起头索求",而不是"把AI调教成一个美满的仿照者"。
每次训练,系统会给AI统一个工作,让它独立尝试5次(一组),天生5条分歧的操作轨迹。有些轨迹成功实现了工作,有些失败了。系统随后推算这5次尝试的均匀成功率,而后通知AI:比均匀水平高的那些轨迹,应该更多去仿照;比均匀水平低的那些轨迹,应该预防沉蹈覆辙。这种"组内相对比力"的方式,让系统不必要一个表部的"美满尺度答案",只必要自己内部的成败对比就能持续进取。
有一个细节极度值得关注:若是某个工作的5次尝试了局齐全一样(好比全数成功或全数失败),这组数据会被直接抛弃,不参加训练更新。路理很单一——全数成功意味着这个工作太单一,AI已经把握了;全数失败意味着这个工作当前太难,临时无法从中学到有效信号。只有那些"有时成功、有时失败"的工作,能力提供最有价值的进建素材。这相当于为AI自动构建了一个难度适中的动态课程。
训练选取了"两阶段滚动步长"的战术:吓酌最多15步的短程工作训练90轮,让模型在较短的工作中成立基础索求能力,再切换到最多30步的长程工作再训练50轮,让模型学会应对真正的长程规划挑战。尝试批注,这种由短到长的课程式训练,比一路头就直接上30步工作的成效要好得多,尤其在WebVoyager这个必要较多步骤的基准上,差距高达7.4个百分点。
一些工作能够用规定判断,好比"找到这款手机的最廉价值",只有查对数字就行。但好多工作的评价必要理解语义,好比"找到一家评分最高且离我最近的五星级牙医",答案可能因网页状态分歧而有合理差距,不是单一对比字符串就能判断对错的。
钻研团队的默认规划是用GPT-4.1作为"评价官",但这会产生显著的用度:一次齐全的训练尝试必要挪用约4.32万次GPT-4.1评价API,总用度约545.5美元。对于很多学术钻研组来说,这是不幼的职守。
为相识决这个问题,钻研团队专门从1.25万条带有GPT-4.1评价标签的真实轨迹数据中,蒸馏训练出了一个8B规模的开源评价模型OpenWebRL-Judge-8B。尝试证明,这个评价模型与GPT-4.1的判断吻合度高达89.8%,综合F1分数达到92.1%,超过了WebJudge-7B、Qwen3-VL-32B甚至GPT-4o等竞争者。用这个本地评价模型代替GPT-4.1之后,最终模型的机能险些没有损失,均匀成功率从68.4%仅微降到68.3%——险些能够忽略不计。
钻研团队还对比了直接用Qwen3-VL-8B(未经专门训练的通用模型)作为评价官的成效,了局令人警惕:训练嘉奖分数看起来越来越高,但现实测试成功率却在持续下滑——这是典型的"嘉奖糊弄"景象,AI学会了若何让评价官中意,而不是真正实现工作。这进一步注明,专门训练的评价模型对于整个训练系统的不变性至关沉要。
WebVoyager是一个覆盖15个主流网站的综合型基准,共595个工作;Online-Mind2Web则蕴含136个网站的300个长程工作,难度更高;DeepShop专一于电商购物场景,要求AI在多沉约束下实现商品搜索与选择,共150个工作。
OpenWebRL-4B在这三个基准上别离获得了74.1%、67.0%和64.0%的成功率,均匀成功率68.4%,成为一致规?茨P椭械淖罡咚。横向对比来看,它不仅大幅超过了FARA-7B(后者在Online-Mind2Web和DeepShop上别离只有34.1%和26.2%)、MolmoWeb-8B(35.3%和42.3%),甚至超过了占有2350亿参数的Qwen3-VL-235B-A22B。更值得关注的是,OpenWebRL-4B在Online-Mind2Web和DeepShop两个基准上还压过了贸易系统OpenAI CUA(58.3%和24.7%)和GPT-5的SoM版本(57.7%和49.1%)。
这些成就的获得,仅使用了412条初始示范轨迹和2200个强化进建训练工作,而竞争敌手如MolmoWeb则使用了超过27.85万条数据——相差了整整两个数量级。这批注,高质量的在线交互训练所带来的提升,齐全能够添补初始数据量上的巨大差距。
一个有趣的发现是:随着训练的推动,AI每一步的输出的确变长了,但总体工作实现所需的步骤数却在削减——均匀步数从第0轮的14步降落到了第80轮的8.9步,整个轨迹的总长度也相应缩短。这注明AI并不是在无效地"啰嗦",而是在更少的步骤内做更充分的思虑。
钻研团队对AI的思虑内容进行了深刻分析,界说了四种常见的"思想模式":汗青总结(回首之前做过什么、去过哪些页面、什么步骤失败了)、阻碍诊断(发现验证码、页面关闭等拦截)、沉试规划(造订新的代替战术)和前提验证(逐一核查工作要求是否满足)。
训练前后,这四种模式的呈显斓率都有显著提升:汗青总结的出现率从14.5%提升到21.4%,阻碍诊断从14.2%提升到23.7%。并且,出现这些思想模式的步骤,其响应长度增长更为显著,从均匀332 token增长到542 token(汗青总结),从273增长到440(阻碍诊断);相比之下,不蕴含这些模式的通常步骤,长度增长极度有限(从282增长到325)。
这注明AI学会了"有选择地深度思虑":在关键决策节点上投入更多认知资源,而不是均匀地在每一步上平摊思虑量。这种行为模式与人类专家的认知方式高度吻合——遇到卡点时深度分析,熟悉操作时急剧执行。
说到底,OpenWebRL证了然一件在AI钻研领域颇具争议的事:对于网页智能体这类必要在复杂、动态环境中做长程决策的工作,"让AI在真实世界里边做边学"不仅是可行的,并且比"堆砌大量人类示范数据"要高效得多。
这对通常用户意味着,未来我们可能会看到更多能真正理解网页、实现复杂在线工作的AI副手,而这些AI不再必要依赖科技巨头把握的海量私罕见据,而是能够通过盛开的框架和有限的初始训练,在公开的互联网上持续自我提升。
从钻研自身的局限性来看,有51%的失败案例源于网页自身的接见问题——验证码关闭、网络衔接失败、反自动化机造等——这些都不是模型能力的问题,而是盛开互联网上AI智能体必须面对的基础设施挑战。另表27%的失败来自模型在长程多约束工作中的规划和跟踪能力不及,13%来自视觉定位的精度问题。这些方向,也正是接下来钻研致力的沉心地点。
钻研团队已颁发将公开颁布训练数据、模型权沉和齐全代码,让学术界和独立钻研者都能在此基础上持续索求。对视觉AI、智能体技术或强化进建感兴致的读者,能够通过arXiv编号2606.02031找到这篇齐全论文,或者接见项目主页openwebrl.github.io获取更多资源。
A:这重要归功于在线强化进建的训练方式。OpenWebRL-4B不是靠死记硬背人类示范来进建,而是在真实网站上自己着手做工作,从成功和失败的了局中总结经验。400条数据只是用于"打基础"的初始监督训练,真正让模型突飞猛进的是后续2200个工作的在线实战操练。单一说,质量高的真实交互经验,比数量大的静态示范数据更有进建价值。
A:两者的评价正确率极度靠近,但成本差距巨大。用GPT-4.1作评价官,一次齐全训练必要破费约545美元的API用度;而OpenWebRL-Judge-8B是一个能够本地运行的开源模型,训练实现后不必要额表付费。更沉要的是,尝试证明用GPT-4.1训练出来的模型和用OpenWebRL-Judge-8B训练出来的模型,最终测评成就险些齐全一样,均匀成功率仅差0.1个百分点。
A:由于截图的信息量极大,保留所有汗青截图会超出模型的处置上限。尝试发现,保留最近两张截图和只保留一张相比,成效险些没有差距,但推算成本从240 GPU幼时增长到400 GPU幼时。AI真正必要的"汗青影象",其实通过保留每步的文字反馈和AI自己的推理纪录就已经足够,这些文字信息比汗青截图更紧凑、更高效地传递了关键信息。
电影《儿媳忠于本能》演员表辛鲍姆计划在宪法广场球迷节观看揭幕战。此前,她已把自己的比赛门票送给了来自东部韦拉克鲁斯州、21岁的原住民女性约莱特-塞万提斯-夸克瓦。面对复杂挑战,顶级球队通常通过简化策略应对,而非试图控制一切。2018年法国队在世界杯获胜后,主教练德尚强调:“面对复杂局面时,我专注于情绪和基础,让球队保持简单。”电影《儿媳忠于本能》演员表《天生媚骨BY阮绵绵》这张照片像一枚重磅炸弹在娱记圈和影迷圈炸开了,天涯论坛也迅速建楼,网友有说她像小陶虹的,有说像大S的,有说像宁静的……大家纷纷行动起来,通过古法人肉,终于找出来这是一位中戏的在校生,兼有表演和舞蹈功底。周五训练中,他参加了对抗练习,但有几次明显皱眉,说明不适依然存在。训练期间,他还与法国队主帅德尚以及体能教练进行了交流。
20260609 ? 电影《儿媳忠于本能》演员表在英格兰等地足球联赛中,球迷通常不能携带瓶装水入场,即便场内购买的饮料,也常常会被移除瓶盖,以降低被当作投掷物的风险。《亚洲中文字幕在线旁观》郭晶晶的跳水实力,早就在国家队时期就打服了一圈对手。2004年雅典奥运会,她站上跳台那一下,全场的眼光都粘在她身上。等她整套动作做完入水,压出来的水花比硬币还小,台下外国教练直接拎包离席。这还比什么,赢面本来就是人家的。
20260609 ? 电影《儿媳忠于本能》演员表而且这场比赛取胜之后,中国女排的世界排名积分增长7.02分,暂时超越美国队回到世界第6,这是让人开心的。特别是第一场比赛输球之后,我们的积分就在暴跌。但能在这场比赛补回一点,并且回到第六的位置,球队的发挥也越来越好,女排全队也会慢慢提升上限,现在的磨合肉眼可见的变好。八沉神子的出错浮殇TXT百度云荣获南京市中青年拔尖人才,南京市德育优秀青年教师,南京市“普通高中教学先进个人”“普通高中教育先进个人”,南京一中“优秀青年教师”、“优秀年级组长”等多项荣誉。曾获南京市历史教师基本功比赛一等奖。