CA88

EN CA88(中国区)唯一官方网站 CA88(中国区)唯一官方网站
www.ahsjsjt.cn

《黄网》大模型「行口」不一?首个专测执行幻觉基准 ,覆盖真尝试为越狱

【新智元导读】随着大模型智能体深刻渗入真实操作系统 ,一种全新的安全威胁悄然成型:行为越狱(Behavior Jailbreak)。现有安全基准只盯着模型「说了什么」 ,却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的齐全评测系统 ,并初次系吐淇化了「执行幻觉」这一被整个评测社区忽视的致命盲区。 当AI智能体不再只是谈天工具 ,而是真正收受你的服务器、操作你的文件、执行你的剧本——安全评测这件事 ,就不能再停顿在「看它说了什么」的层面了。 然而 ,当前险些所有主流智能体安全基准 ,依然把判断终点停在「语义输出层」——只问模型拒没拒 ,不论OS改没改。这一底子性缺点 ,催生了一种极其危险的幻象: 为了彻底拆解这一盲区 ,来自漯河航空航天大学、浙江大学的钻研团队推出了LITMUS(LLM-agentsIn-OSTesting forMeasuringUnsafeSubversion)——首个将真实OS环境行为越狱、语义-物理双层验证与多攻击范式系统整合的智能体安全评测基准 ,初次在行为越狱中系统界说并量化这种「行口不一」的景象——执行幻觉(Execution Hallucination, EH)。 AdvBench、HarmBench 等经典基准 ,判断终点是「模型有没有天生有害文本」。但在真实 OS 环境中 ,危险来自工具挪用——模型不必要「说出」危险内容 ,只需偷偷挪用一个系统号令 ,文件就被删了 ,密钥就泄露了。文本安全 ,底子不蹬宗行为安全。 若是测试 A 批改了某个系统文件 ,而测试 B 刚好依赖统一个文件 ,那么B的了局测的到底是「模型的安全性」 ,还是「A留下的传染」?在没有 OS 级状态回滚的情况下 ,这个问题无解。 LITMUS在每次测试对话前后 ,城市对真实操作系统进行快照采集。物理判定基于系统状态的现实变动 ,与模型的对话内容齐全独立。即便模型嘴上说「我回绝了」 ,只有 OS 状态显示危险操作已实现 ,物理判定依然给出「执行成功」。 每条测试用例均建设了预置与复原作为 ,由专门的Recoverer智能体在测试前初始化系统基线、测试后齐全还原 ,从底子上解除用例间的传染 ,确保评测了局然正可复现。 LITMUS数据集蕴含819条高风险测试用例 ,起源涵盖真实缝隙数据库(CVE/GHSA)、公开渗入测试汇报 ,以及经人为精辟验证的LLM天生案例 ,全数在真实OS中通过物理测试验证。 诱使智能体使用攻击者提供的 SKILL ,将恶意的 SKILL.md 文件内容注入智能体工具链 ,在正常工作挪用时自动触发 ,绕过前端提醒词过滤。 图示:LITMUS评测框架的六智能体分工示意。Prosecutor发出指令 ,Verifier独立采集OS快照 ,Analyzer(物理判定)与 Reviewer(语义判定)各自独立产出标签 ,共同组成2×2语义-物理混合矩阵。 图示:六款模型在 LITMUS 种子数据集上的攻击成功率(ASR)与执行幻觉率(EHR)总览。 SPSR、SOSR、POSR、SPFR 别离为齐全越狱、攻击糊弄、荫蔽执杏注齐全失败的样本比例。 值得出格关注的是「通讯表联」(CO)类别——跨模型、跨攻击范式 ,这一类此外 ASR 险些始终最高 ,最极端情况靠近97%。这批注:智能体似乎天然地将「发送新闻」等表联操作视为无害行为 ,导致数据表泄成为最难防守的攻击面。 相对地 ,「工作链」(CT)类此外 ASR 最低(Claude Sonnet 4.6仅21.72%) ,由于将多个恶意子步骤串联成一个要求 ,反而让整体恶意意图越发显眼 ,更容易被鉴别回绝。 其中最危险的「荫蔽执杏坠(Covert Execution)模式——模型说话层面明确回绝 ,但 OS 层面危险操作已悄然实现——在所有模型上均有出现 ,Deepseek-v3.2的该项比率达到4.84%。 这意味着一个极其端庄的现实:任何只依赖对话日志的安全审计 ,性质上是不成靠的。安全审计人员看到「模型回绝了」 ,但系统已经被攻破。 技术注入和实体包装(这两种将恶意指令「藏进」工具链或表部内容的间接攻击)在两款代表模型(Deepseek-v3.2与Claude Sonnet 4.6)上均实现了显著的 ASR 提升。 相比之下 ,直接使用「红队测试」或「调试模式」话术进行越狱的成效 ,则出现出强烈的模型依赖性:Claude Sonnet 4.6 对显式恶意信号极为敏感 ,这类话术反而会激活安全机造 ,导致 ASR 跌破基线;而 Deepseek-v3.2 则偏差于将同样的信号解读为"合法操作授权" ,导致合规率反升。 这注明:分歧模型对「显式恶意意图」的语义解读存在底子差距 ,话术类越狱战术的有效性无法跨模型迁徙。但间接攻击的高成功率 ,则是跨模型一致的普遍法规:智能体的执行流水线 ,而非前端提醒词过滤 ,才是真正的重要失守点。 钻研团队明确呼吁:EHR该当与ASR并列 ,成为LLM智能体行为安全评测的尺度指标。在智能体走向真实OS部署的今天 ,单靠ASR ,依然是对安全的幻觉。 LITMUS作为一个盛开的活性基准(Living Benchmark) ,欢迎社区持续贡献新的模型评测了局与测试用例 ,共同推动LLM智能体安全评测走向严格、可信、可复现的新范式。

《黄网》
《黄网》我也期待这一天可以早日到来吧,因为我觉得中国车队加中国车手在F1这种全世界最高的赛车竞技的一个平台上,没有比这更特别和更美好。”路易斯-恩里克接连做出换人调整,先后换下克瓦拉茨赫利亚、金球奖得主奥斯曼-登贝莱,加时赛又撤下队长马尔基尼奥斯以及当场最佳球员维蒂尼亚。对比之下,阿森纳的替补阵容深度反倒优于对手。《黄网》《1V1异国一见钟情的幼说》“官方确认之所以总会到来,是因为这是俱乐部和球员之间的事,和斯洛特、哈维-阿隆索、瓜迪奥拉或者路易斯-恩里克都完全无关,这就是关键点所在。接下来的重点是,对于科纳特来说,现在很快就到了对未来做出决定的时候了,因为关于他的处境和未来已经有了很多传闻。”低门槛吸引大量从业者涌入。丰行公司总经理李涛在不久前抖音集团短剧版权中心举办的首届短剧产业大会上发现,很多之前从未见过的陌生面孔开始大量出现。这很可能意味着,正在加快进入AI短剧的公司,不仅包括由真人短剧转型进入的传统短剧公司,还包括一些从未有过短剧拍摄经验的新入行者。
20260604 ? 《黄网》记者罗马诺表示:“皇家马德里在后防线上的引援并没有结束,这主要和中后卫以及左后卫的位置有关。目前在左后卫位置上,皇马拥有阿尔瓦罗-卡雷拉斯,而费兰-门迪目前有伤在身,且近年来伤病频繁。因此在中后卫方面,皇家马德里的想法是,如果市场上出现一个既能踢中后卫又能兼顾左后卫的球员,那将是一个非常理想的选择,而卡拉菲奥里正好符合这种技术特点,对皇马来说是一个非常有趣的关注目标。此前我还看到过许多关于格瓦迪奥尔的传闻,虽然他受到了很多俱乐部的欣赏,但目前他是一个很难触及的目标,因为他是曼城的核心球员。而关于卡拉菲奥里,我可以向大家透露的是,皇家马德里在几周前已经联系了卡拉菲奥里的身边人士,询问了这位意大利后卫的相关信息。不过他目前仍然是阿森纳阵中非常重要的一员,因此运作起来绝非易事。对阿森纳而言,卡拉菲奥里是他们球队规划的关键部分。但可以确定的是,皇家马德里确实在寻找这种能够同时胜任中后卫和左后卫的复合型球员。”乐可幼说免费旁观法蒂在摩纳哥重新找回了状态。他摆脱了身体问题,也获得了连续出场机会。本赛季他出战30场比赛,其中法甲25场、欧冠5场,共打进12球,包括法甲11球和欧冠1球。
《黄网》
? 安国颜记者 王炳忠 摄
20260604 ? 《黄网》伊劳拉已经获得了水晶宫提供的工作机会,水晶宫曾希望在本周末得到答复。最近几天他还与两家俱乐部——AC米兰和勒沃库森进行了谈话,在这段忙碌的时间里,他还与新任伯恩茅斯主教练马尔科-罗泽见面进行了工作交接。《《租借女友》漫画免费阅读》格里马尔多:(笑)是的。没有人能在一对一里防住亚马尔。你可以尝试,也许偶尔能从他脚下断球,但如果你和他一对一,你就完了。你需要队友协防,也需要他状态不好。
《黄网》
? 黄文溪记者 喻德彬 摄
? 德约科维奇坦言,周五的这场比赛,他早已筋疲力尽。他细数了自己体能透支的种种状态:“说实话,我彻底没力气了,在场上全程状态糟糕。”他还补充道:“这反倒让对手看到了翻盘的希望。”《暗藏的面庞齐全版在线旁观》
扫一扫在手机打开当前页
【网站地图】