关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro3921人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

松岛辉空颁奖毫无喜色!世排升第8生涯新高 日球迷高呼比张本可靠

颜小白的篮球梦 浏览 3446

这一天:杨幂蚂蚁腰无敌了,赵丽颖生图抗打,陈坤咋长这样了

娱乐圈笔娱君 浏览 2524

合纵连横更进一步,本赛季双子星同参赛无一冠军旁落!

网球之家 浏览 3453

标普将全球最大稳定币运营商Tether资产评级下调至最低等,质疑挂钩美元能力

华尔街见闻官方 浏览 3176

欧冠首秀造乌龙,堂安律社媒:如梦似幻并顺利取胜,感谢球迷支持

直播吧 浏览 4421

巨星传奇想摆脱“周杰伦依赖”

北京商报 浏览 3442

何超欣出席阿联酋策展,与胡兵同台交流

素素娱乐 浏览 2552

美媒:马杜罗政权过渡或不会像特朗普希望的那样顺利

澎湃新闻 浏览 9845

“这条围巾”才是今年的顶流单品,时髦的女人都有它

LinkFashion 浏览 3470

辽宁98-86送北控3连败,威尔斯31+7,廖三宁9中9空砍22+7

懂球帝 浏览 2991

ELLE盛典红毯状况百出,有人摔倒、有人背手像逛大街,秒变菜市场

萌神木木 浏览 3739

小伙贷款30万炒"数字藏品" 共70多万充进平台打水漂

环球网资讯 浏览 6378

下一个周期,我们为什么必须关注这十大黄金赛道?

智谷趋势 浏览 3399

阿维塔科技:五载深耕中的坚守与进化

网易汽车 浏览 496

特朗普称已考虑接替穆杰塔巴的人选 外交部表态

潇湘晨报 浏览 32382

集微咨询发布《2025中国电源管理芯片行业上市公司研究报告》

爱集微 浏览 2935

媒体:国足21年首进亚洲大赛四强 是触底反弹的信号弹

新民晚报 浏览 6801

阿尔特塔:我们会对英联杯全力以赴;热苏斯的斗志非常出色

懂球帝 浏览 2919

春季穿衣千万别太暗沉!试试蓝白配色、选基础款裤子,大方得体

静儿时尚达人 浏览 468

连马斯克都盯上了这块“肥肉”

汽车公社 浏览 3348

美团:“明厨亮灶”补贴将增加至5亿元,已有30万商家加入

IT之家 浏览 4401
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1