这项由中央大学、韩国科学技术院(KAIST)、首尔国立大学、OnelineAI、NAVER Cloud AI和卡内基梅隆大学结合实现的钻研,于2026年6月颁发,论文编号为arXiv:2606.02404。钻研团队颁布了一个名为K-BROWSECOMP的基准测试集,专门用于丈量AI在韩语网络环境中的"窥伺"能力。
要弄明显这项钻研在做什么,不妨把整件事设想成一场侦探游戏。一名优良的侦探,不仅要能读懂线索,还要能在茫茫信息海洋中顺着蛛丝马迹,一路追踪到最终的答案。这项钻研的主题问题就是:当今最壮大的AI,在韩语这片"信息丛林"里,到底算是一名合格的侦探,还是一个迷途的新手?
答案几多有些令人意表——就连全球公认最壮大的AI模型,在这套测试里也只能答对不到一半的标题,而韩国本土的AI模型,阐发甚至越发惨淡。
在AI领域,评估一个模型的能力,通常要靠"基准测试"——也就是一套专门设计的标题,就像期末考试一样,用来检验AI到底学得好不好。从前几年,全球最顶尖的AI尝试室已经把评估沉心从"会不会做阅读理解"转移到了"能不能像人一样自主实现复杂工作"。后者被称为"智能体评估",调查的是AI在多个步骤之间协调共同、自主决策的能力,就像调查一名侦探能不能重新到尾独立破案,而不仅仅是意识几个单词。
然而,在这场评估革射中,韩语AI界却有些掉队。韩国目前的AI测试,大多还停顿在"考词汇、考阅读"的阶段,不足针对复杂工作的测试工具。这造成了一个现事阀境:钻研者们无法正确知路,韩国本土的AI在面对真实用户需要时,到底阐发若何。
这种缺失不仅仅是技术上的遗憾,背后还有更深层的现实考量。韩国的说话使用人丁相对有限,网络上的韩语内容在规模和覆盖面上天然不如英语,这意味着当用户必要查问韩国本地的机构信息、文化知识、地理数据时,AI的阐发可能远不如处置英语问题时不变;痪浠八,韩国用户在使用AI副手时,面对的是一种结构性的信息不平等。
正是为了添补这个空缺,钻研团队成立了K-BROWSECOMP,一套专门针对"韩语网络搜索智能体"的测试集,用400路精心设计的标题,检验AI能否在韩语互联网的复杂环境中,像一名纯熟的侦探一样找到正确答案。
K-BROWSECOMP的设计灵感来自一个已有的英语测试项目BrowseComp,但它并不是单一的翻译。钻研团队出格强调,这套标题必须"扎根于韩国语境",也就是说,每路题都要涉及韩国特有的机构、文化景象、教育系统、处所地理或媒体内容,单靠查英语资料或依赖通用知识底子无法作答。
每路题都必须满足几个严格尺度。答案必须是唯一的、不会随功夫变动的具体信息,并且必须能够在公开的网页上找到文字证据。标题不能直接通过搜索关键词找到答案——必须经过至少四个步骤的推理或同时满足至少四个独立前提,能力锁定正确答案。
这套测试蕴含两种题型,它们代表了两种分歧的侦探工作模式。第一种叫做"多跳推理",就像侦探顺着线索链条一步一步追踪:先找到A,用A去找B,用B再去找C,最终得出答案。第二种叫做"并行约束满足",就像侦探面对一群嫌疑人,必须同时核实多个独立前提,找出唯一起时满足所有前提的那一幼我。
以论文中给出的两个示例来感触一下难度。第一路题是这样的:2025年刊行的某张专辑的第四首歌曲,标题去掉空格后是五个字,歌词中出现了七次"???"(不要紧),这首歌是什么?第二路题则更为复杂:韩国教育课程评估院2018年6月针对高三学生进行的仿照考试,国语科目第29题考查的文章,该文章的诗人在生前出版的第十本诗集中,排在第十三位的那首诗,标题是什么?
测试集分为两个部门。第一部门是"已验证子集",共300路题,全数由真人韩语母语者手工编写和验证。钻研团队召集了17名标注人员,蕴含钻研人员和非钻研人员,给他们一份具体的编写指南,要求他们从一个已知的指标事实启程,反向设计出一路难以直接搜索但答案容易核实的问题。
这个"反向设计"的思路极度关键,好比一名出题教员已经知路答案是"埃菲尔铁塔建于1889年",而后绕开这个信息,设计一路必要通过五步推理能力得出这个答案的标题,而不是直接问"埃菲尔铁塔建于哪年"。
编写实现的标题要经过严格的审核流程。钻研团队会逐一查抄每路题的金尺度答案、中央实体和引用起源是否都能在公开网页上找到。若是证据无法接见、不充分或相互矛盾,标题就会被退回给原作者批改。审核过程中还有一路出格的关卡:若是基线AI模型给出了一个和尺度答案分歧但同样合理的答案,钻研团队会人为判断这个答案是否也成立,若是成立,标题必须批改或删除,以确保每路题的答案的确是唯一的。
最终通过审核的300路题,覆盖了10个类别。娱乐与媒体是最大的类别,有109路题,占比超过三分之一。其次是地址与地域48路,教育与考试35路,体育与游戏26路,科技与学术20路,美食餐饮19路,文学与说话15路,产品与品牌14路,汗青文化10路,以及经济与政策4路。在题型散布上,多跳推理题160路占53.3%,并行约束题140路占46.7%,两者相对平衡。
参加编写的非钻研人员依照每10至15路题约100,000韩元(约合60至70美元)的尺度获得报答,这个金额对应约莫4幼时的工作量,高于2025年韩王法定最低时薪。
钻研团队拔取了全球11个主流AI模型进行测试,覆盖封关源模型和开源模型两大堡垒,以及专门针对韩语优化的本土模型。所有模型使用统一的测试框架,每个问题最多允许进行10次网络搜索,并且只有一次回覆机遇。
这些数字单独看似乎还好,但一旦和同样这些模型在英语版BrowseComp上的成就比力,差距就显得触目惊心了。GPT-5.5在英语版BrowseComp上得分84.4%,换到韩语版直接掉到了45.67%,降幅将近40个百分点。DeepSeek-V4-Pro在英语版得分83.4%,在韩语版只有30.00%,险些腰斩。这种断崖式下滑,明显地批注这些模型并没有真正把握韩语网络环境的特殊性,而不是通常的随机颠簸。
最令人印象深刻的是韩国本土模型的阐发。K-EXAONE-236B-A23B是一个参数量高达2360亿(其中约230亿为激活参数)的重大模型,也是韩国当局"自主AI基础模型项目"赞助的成就之一,但它在这套测试里只得了10.33%。A.X-4.0得分5.33%,HyperCLOVAX-SEED-Think-32B得分2.33%,而Kanana-2-30B-A3B-Thinking-2601则得了0分,齐全没有答对任何一路题。韩国本土模型整体得分领域在0%至10.33%之间,与全球顶尖模型相比,差距超过了35个百分点。
钻研团队还额表推算了每个模型的"校准误差",这个指标衡量的是模型对自己答案的自负水平是否合理。若是一个模型对一个谬误答案极度自负,或者对一个正确答案极度不确定,校准误差就会很高。HyperCLOVAX-SEED-Think-32B的校准误差高达77.37%,意味着它的自负水平和现实阐发严沉脱节,时时在答错的时辰反而最自负。GPT-5.5在这个维度上阐发相对较好,校准误差为31.86%,在高正确率和合理自负之间获得了相对较好的平衡。
光有分数还不够,钻研团队还深刻分析了模型的"窥伺过程",试图找出它们到底在哪一步走错了路。经过大量的人为审查,他们综合出了九种典型的失败模式,形成了一套系统的"谬误分类表"。
第一种失败是"轨迹不齐全或输出体式谬误",最极端的情景——模型压根没能走齐全个搜索流程,或者最终没能给出一个别式正确的答案,就像侦探还没勘测完现场就颁发烧毁了。第二种是"初始搜索方向无效",模型一路头就选错了搜索战术,就像侦探在面对一路产生在图书馆的案子时,第一反映是去查抄停车场的监控,齐全跑偏了方向。第三种是"搜索接见结构失败",手印型无法接见暗藏在复杂页面结构后面的证据,好比必要按特定挨次分列内容能力看到的信息。第四种是"跨源跳转失败",手印型无法未来自分歧网站的证据拼接在一路,就像侦探能别离看懂两份文件,却不知路这两份文件讲的是统一幼我。第五种是"半结构化页面解析失败",手印型在面对表格、排名、数据库等体式化内容时,读错了数据——好比看着一张成就单,却把第三名的分数记成了第一名的。第六种是"搜索了局选择失败",手印型找到了有关证据,但选错了具体起源或候选答案,就像侦探找到了几个嫌疑人但指认错了人。第七种是"稀少实体归一化失败",手印型无法正确鉴别罕见人名、别号、分歧拼写方式或汗青名称,好比一个汗青人物有好几种分歧的写法,模型却以为是分歧的人。第八种是"约束追踪失败",手印型找到了部门候选答案,却没能验证所有前提都得到满足——这是最常见也最致命的问题之一。第九种是"中央推理失败",指在必要进行日期推算、排序、计数或比力的步骤中犯错。
钻研团队进一步观察到,好多谬误并不产生在搜索阶段,而是产生在搜索之后;痪浠八,模型往往已经找到了正确的证据,却在处置这些证据的过程中出了问题。这个发现极度关键,由于它意味着仅仅改善搜索能力是不够的,真正必要解决的是模型在多步推理过程中维持"证据状态"的能力。
第一种叫"候选人过早锁定"。这产生在模型在验证完所有上游前提之前,就把把稳力锁定在某个看似合理的候选答案上。尔后的所有搜索都萦绕这个候选答案发展,造成了"找证据来支持我的猜测",而不是"持续寻找真相"。一旦提交,这个答案表表上看有证据支持,现实上却违反了标题标齐全要求。
第二种叫"证据分支未归并"。模型对每个前提别离进行了搜索,每次搜索都成立了一个独立的证据分支,但这些分支从未被汇总到统一个候选名单里进行交叉比对。轨?雌鹄春芟低,如同每个线索都查了,但候选名单在每一步之后都是混乱的,最终给出的答案其实没有通过所有前提的验证。
第三种叫"中央了局角色绑定谬误"。模型沿着一条看似合理的搜索链条走下去,却在某个中央步骤把一个了局套用到了谬误的角色上。出格是当标题必要在分歧步骤之间切换实体类型时,一个高曝光度的实体很容易"抢占"本应属于另一个指标实体的地位,导致最后的答案固然在部门逻辑上说得通,但整个推理链条其实早就偏离了轨路。
钻研团队对此进行了专门分析,结论是:搜索次数并不是重要瓶颈。数据显示,对于大无数模型,答错的题比答对的题使用了更多的搜索次数,并且往往靠近10次的上限。GPT-5.5在答对的题上均匀用了7.08次搜索,在答错的题上均匀用了9.30次——答错时搜得更多,但依然没有找到答案。DeepSeek-V4-Pro的数据是7.47次对9.80次,Gemma-4-31B-IT是5.20次对8.10次。
这个发现注明,模型在答错的题上并不是由于"搜索不够致力"而失败的,而是由于即便搜索了很屡次,依然无法有效地把信息整合起来。搜索量是成功的弱预测因子,真正的关键在于模型能否在屡次搜索之间维持一致的候选集钟注约束前提和实体角色状态。
几个韩国本土模型在这方面的阐发尤为值得关注。A.X-4.0在答对和答错的标题上,均匀搜索次数别离只有2.38次和1.43次,远低于其他模型,注明它往往在尝试不多的情况下就提前烧毁了搜索。HyperCLOVAX-SEED-Think-32B在答对和答错的标题上搜索次数险些没有差距,别离是6.71次和6.84次,注明它的问题不在于搜索致力水平,而在于无法从搜索了局中不变地提炼出最终答案。Kanana-2-30B-A3B-Thinking-2601则越发特殊,它时时连有效的工具挪用体式都无法正确输出,导致好多搜索底子没能执行,这是一种最基础的和谈层面的失败,与内容理解能力无关。
这个问题背后有一个沉要的信息不合称:对于网络搜索类工作,解题可能极度难题,但一旦知路了正确答案和证据蹊径,验证一个候选答案就相对容易了。钻研团队以为,这种不合称同样存在于出题端——若是已经有了一个指标答案和对应的网页,反向设计出一路难题,是否比正向找到答案更容易?
为了验证这个设法,他们让一个能上网的AI智能体(使用claude-opus-4.7)表演出题者的角色。这个AI的工作流程如下:先接见一个指标网页,而后以"逆向设计"的方式编写一路标题——也就是从答案启程,构建一条必要多步推理能力达到答案的问题蹊径,同时刻意暗藏答案自身、起源网址和页面上最显眼的实体名称,并且针对已经综合出的某个特定失败模式来设计难点。每路题经过至多四轮"草稿→测试→批改"的迭代能力定稿。
每路候选题必须通过三路挨次分列的过滤关卡,只有未能通过肆意一关,就会被退回批改。第一关是"可搜索性测试":让AI自己搜几下,若是答案直接呈此刻搜索了局里,注明标题太容易,必要改写成更难被直接找到的版本。第二关是"良构性测试":给一个"参考解题者"齐全的指标网页和标题,看它能不能从页面中唯一、靠得住地找到答案,确保标题标答案是客观存在且不歧义的。第三关是"匹敌难度测试":让一个只能上网搜索、不能直接接见指标页面的"搜索解题者"来作答,只有当GPT-5.4-mini和Gemini-3-flash-preview两个模型都答错(蕴含答错和明确暗示不知路两种情况),这路题才算通过。
在268路候选题中,最终有100路通过了所有过滤,通过率约37.3%。这100路题的重要难点集中在第五种失败模式"半结构化页面解析"(59路)和第八种"约束追踪"(21路),其次是第三种"搜索接见结构失败"(14路)和第九种"中央推理失败"(13路)。被裁减的168路题,重要失败原因是答案在搜索了局中太容易被直接找到,还有66路是由于其中一个模型答对了,无法满足"两个模型都答错"的要求。
这100路机械天生的标题,在内容散布上与人为验证的300路有所分歧。娱乐与媒体类标题标比例从36.3%大幅降至9.0%,而科技与学术类标题标比例则从6.7%猛增至33.0%。标题标均匀字符数也从174.46增长到了248.40,变得更长、更复杂。钻研团队还用向量类似度的方式测试两组标题标散布差距,发现一个单一的分类器仅凭标题文本就能以0.8873的高精度分辨两组标题,注明它们在风格和领域上的确有显著分歧。正因如此,这100路合成题被单独汇报,作为一套补充性的"压力测试",而不是直接与人为题归并推算。
在这套压力测试上,所有模型的得分都在0%到26%之间,没有任何模型超过30%。GPT-5.5在这套题上得了26%,DeepSeek-V4-Pro得22%,GLM-5.1得19%,而GPT-5.4-mini由于在出题过滤阶段就被设置为"必须答错"的指标模型,所以得了0%——这是设计如此,并非真实能力体现。这些数字批注,机械辅助的出题方式,在钻研团队综合的失败模式框架疏导下,的确可能天生足够有挑战性的诊断题。
A.X-4.0是成立在Qwen2.5基础上、专门用韩国数据做过持续预训练的模型。它的重要问题是"浅层证据节造":模型往往只是扫了一眼搜索了局的片段,就潦草地得出结论,而没有把这些片段整合成一个能够逐步筛选的候选名单。在搜索次数上,它也是所有模型里最守旧的,显示出一种"看了两眼就算了"的搜索习惯,而不是对峙追踪证据链直到所有前提都得到验证。
K-EXAONE-236B-A23B参数量极度大,但它的问题出在"跨源链条漂移"上:它能成功地实现第一步搜索,找到指标事务或指标实体的线索,但在接下来的搜索中,这个中央实体逐步"失忆",后续搜索起头左袒其他有关但并不正确的实体。这注明,单靠堆砌参数量并不能解决长链条推理中的状态守护问题。
HyperCLOVAX-SEED-Think-32B的问题在于"答案终结能力不及":它能启动一个合理的搜索过程,但很难把这个过程收敛到一个别式正确、内容明确的最终答案。它的正确试次和谬误试次在搜索次数上险些没有差距,注明失败不是由于搜索不致力,而是由于不知路什么时辰应该停下来给出答案。
Kanana-2-30B-A3B-Thinking-2601则面对最基础的问题——工具挪用和谈兼容性。这个模型在测试框架下时时输出体式谬误的工具挪用指令,导致搜索底子无法执行,整个测试流程就其中断。钻研团队以为,这反映的是对工具使用范式的适配不齐全,而不是内容理解能力的问题。
归根结底,这项钻研揭示的主题问题能够用一句话概括:当今的AI模型,蕴含全球最强的那些,在面对真实的韩语网络搜索工作时,最大的瓶颈不是"搜不到",而是"整合不了"。
模型能够接见正确的网站,能够找到有关的段落,但它往往无法像一名真正的侦探那样,把来自分歧处所的碎片化线索拼接成一个齐全的、前后一致的答案。候选名单在追踪过程中偷偷换了对象,约束前提在逾越多个搜索步骤后逐步被忘却,中央实体在从一个网站跳到另一个网站时产生了"角色混合"——这些问题,不是更多的搜索次数可能解决的,也不是更大的模型参数量可能自动建复的。
对于韩国本土的AI研发团队来说,K-BROWSECOMP提供了一个清澈的诊断靶标:分歧模型在分歧阶段出现了分歧类型的瓶颈,解决规划必要有针对性,而不是抽象地"增长数据量"或"扩大模型规模"。对于全球AI领域来说,这项钻研也提出了一个更宏观的命题:在非英语、文化特异性强的说话环境中构建真正有效的搜索智能体,必要的不只是说话能力,还必要更强的长程状态守护和多源证据整合能力。
这项钻研的数据集、评估代码和所有问题都已开源,感兴致的钻研者和开发者能够通过arXiv编号2606.02404查阅齐全论文,也能够通过GitHub项目prometheus-eval/K-BrowseComp获取有关资源。
A:K-BROWSECOMP测试的是AI在韩语网络环境中进行多步推理搜索的能力,具体蕴含:能否通过多个网站的证据逐步推理得出唯一正确答案,以及在整个搜索过程中能否持续追踪候选答案、记住约束前提、不混合分歧起源的实体信息。它不是调查AI懂不懂韩语,而是调查AI能不能像一个熟悉韩国本地网络的侦探一样,在真实复杂的信息环境中找到答案。
A:钻研发现韩国本土模型的失败原因各不一样。A.X-4.0搜索次数少且过早下结论,没有把证据整合成候选名单;K-EXAONE-236B-A23B能实现第一步搜索但后续会"健忘"中央了局,链条追踪能力弱;HyperCLOVAX-SEED-Think-32B搜索致力但无法收敛出一个明确答案;Kanana-2-30B-A3B-Thinking-2601甚至连工具挪用体式都时时犯错,导致搜索无法执行。总体来看,问题不在于不懂韩语,而在于长链条推理中的状态治理能力不及。
A:英语版BrowseComp中GPT-5.5得分84.4%,换到K-BROWSECOMP只有45.67%,降幅将近40个百分点。这种差距反映了韩语网络环境的特殊性:韩国本地机构页面、考试资料、文化媒体内容的结构和信息密杜纂英语网页差距很大,好多答案暗藏在半结构化的表格、排名页面或必要特定搜索习惯能力接见的本地网站中。模型对韩语网络的搜索通例、页面结构和实体定名方式的适应能力,显著不如处置英语内容时成熟。
香蕉视频从承载老挝学子跨境求学的入境首站,到各国游客跨境漫游的边境驿站,再到双向货流互通的冷链商贸枢纽,磨憨,这座边陲小镇,见证着中老两国之间互联互通与深度交融。斯帕莱蒂还已经与瑟洛特有过交流,球员首先在人品方面给他留下了不错印象。而瑟洛特也不会是尤文锋线唯一的新援,因为尤文希望为斯帕莱蒂带来两名前锋。香蕉视频《飘雪影院在线旁观免费版电视剧》马刺进入总决赛,首战竟然以95-105告负。除开布伦森的末节13分之外,文班亚马投丢15球(得到26分12个篮板3次盖帽),还失误6次,成为本场比赛马刺告负的关键点。文班亚马要奋起,他如果打不开,马刺便失却核心。这是不言自明的事儿。我们来分析一下小鹏汽车这个回应是啥意思?第一时间排查分析事发地车辆数据,未发现车辆热失控相关信息。 第一时间分析了车辆数据,可能就包括电池管理系统(B MS)检测到的各种数据,如果电池内部出现了热失控,这些数据肯定会有所表现。
20260607 ? 香蕉视频老师们不得不去琢磨新校长的喜好,调整自己的行事方式。这种琢磨本身就是巨大的精力消耗。本该用在备课、教研、辅导学生上的心思,被分散到了适应新领导上。《攻略错男主后(1VN)全書訂購價格》他还表示,冲突结束后,汽油价格会下降。他同时承认曾用愤怒言辞与以色列总理内塔尼亚胡进行了交谈,并对内塔尼亚胡不断与黎巴嫩真主党交战感到不安。
20260607 ? 香蕉视频词元出海的背后,离不开国内算力基础设施与硬件配套实力的稳步增强。原本抽象的电力资源、算力资源,如今变成能够计价、交易、跨境交付的数字化服务产品。暴躁姐姐BGM国语版下载百度云资源根据目前信息,场馆内瓶装水价格预计为4至6美元(约3至4.5英镑),部分场馆如亚特兰大甚至可能低至3美元,但总体仍被认为价格偏高。