关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1044人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

工作人员霸占电脑拒给群众办证 官方:调离工作岗位

每日经济新闻 浏览 88634

环球圆桌对话:G7打造“稀土联盟”更像是政治表演

环球网资讯 浏览 884

书记戴的AI眼镜全网刷屏!今年东博会这个含量“爆表”

国是直通车 浏览 1611

普京指挥俄战略核力量演习 发射洲际弹道导弹

新华社 浏览 904

也门胡塞武装称美英空袭荷台达省港口

界面新闻 浏览 12193

牛弹琴:中国驻韩大使撂下狠话 韩国人坐不住了

北京日报客户端 浏览 88728

拉萨的年轻人,原来是这样生活的

幕味儿 浏览 722

抖音留不住头部主播?东方甄选进军淘宝直播,俞敏洪亲自带队

澎湃新闻 浏览 14165

亨德利复出!首秀轰生涯第776杆破百1-4负NO.25

网易体育 浏览 26475

朝鲜昨日发射弹道导弹 日本急发“避难警报”

环球网资讯 浏览 18971

国内牛肉价格稳健背后

北京商报 浏览 662

迟蓬:65岁,我不急

时尚COSMO 浏览 2056

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 748

男子应聘船员出海严重晕船自缢:一吃就吐 甚至用头撞墙

极目新闻 浏览 6182

《名侦探柯南》现"九转大肠厨师" 当事人:他们在擦边

上游新闻 浏览 104888

talksport:皮克福德是曼联头号目标门将,目前交易价格3000万镑

直播吧 浏览 16081

4年1亿也能接受!曝湖人愿匹配任何里夫斯报价:为何仍准备替代者

罗说NBA 浏览 15748

工信部释放重磅信号 三大主线成形!两大背离信号隐现

券商中国 浏览 26297

给渔船装Wi-Fi,85后“海归”干出一个IPO!

野马财经 浏览 10763

【英超】枪手迎蓝月,大中锋对决,瓜塔师徒再较高下

体坛周报 浏览 1559

航行警告:渤海部分海域进行军事演习

央视军事 浏览 1692
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1