关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4830人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

多只明星基金减仓茅台,为啥茅台不被资本欢迎了?

江瀚视野 浏览 1351

麻省理工学院发明“可注射”脑机芯片,有潜力用于治疗老年痴呆症

IT之家 浏览 4209

宋慧乔怎么不会老啊?

时尚COSMO 浏览 3301

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻 浏览 3415

姆巴佩已完成职业生涯400球,为最年轻达成此成就球员

懂球帝 浏览 3951

一针注射,体外控波,科学家研发新型无线神经刺激器重塑疼痛管理

DeepTech深科技 浏览 152

单依纯演唱会再唱“区区三万天”宣战

凛若秋霜 浏览 1626

内娱白月光,毁于潜规则?

阿淫记录生活日常 浏览 4585

稳了,“毁容式”出演县长的胡歌,已经走上了演员的“上坡路”

娱乐圈笔娱君 浏览 3331

这些年轻科学家不再满足于“追赶美国”

知识分子 浏览 5036

纳瓦拉同平台/油耗6.8L 郑州日产金锐骐上市8.68万元起

网易汽车 浏览 3504

纳瓦罗收获个人中网首胜

体坛周报 浏览 5120

宁愿净身出户与闫妮离婚,邹伟现在怎么样了?

洲洲影视娱评 浏览 4692

香港中文大学突破AI训练难题:单个词汇也能让机器学得更聪明

科技行者 浏览 4550

文晏回应争奖!直言不认识白百何否认沪圈投资,白百何再次内涵

萌神木木 浏览 4489

谁将是下一个劈开海外万亿市场的中国黑马?

虎嗅APP 浏览 4572

直击海上训练场!多舰协同补给现场震撼来袭

环球网资讯 浏览 776

加沙地带民防部门:以军袭击一车辆 同一家庭9人死亡

央视新闻客户端 浏览 4656

特朗普:美军在与伊朗冲突中可能还会出现更多伤亡

界面新闻 浏览 2628

限量 100 台 电动 MINI JCW 蒙特卡洛 60 周年版上市

网易汽车 浏览 4527

世体:姆巴佩顺利通过考试,已拿到驾照

懂球帝 浏览 2831
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1