关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4454人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

明年新能源汽车销量将超2000万辆

大象新闻 浏览 3551

龚俊《暗河传》首波口碑出炉了!现场观众的评价“一针见血”

娱乐圈笔娱君 浏览 4202

2026款大众迈腾上市 售价17.99-24.69万元

车质网 浏览 2991

2025秋冬最火的5件外套,今年流行的风格都离不开它们!

LinkFashion 浏览 6479

剑桥大学团队揭秘:如何让计算机像管家一样聪明地分配工作

科技行者 浏览 2847

一加 15 /Ace 6 适配《金铲铲之战》原生 165 超高帧模式

IT之家 浏览 4249

宋伊人新剧被传谣,是要逼人“剖腹取粉”吗?

麻辣婊 浏览 3563

宝马圣诞视频暗藏新车剪影

大象新闻 浏览 3338

印媒:印度将在印巴边境地区启动大规模三军联合演习

环球网资讯 浏览 3983

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 4883

“聪明的阿凡提”,来自土耳其?

时尚COSMO 浏览 3816

前三季度私募产品“超涨”十强!复胜、远信、歌汝等夺冠!

私募排排网 浏览 4337

“勃肯鞋”今年冬天爆火!这几双怎么搭都好看

LinkFashion 浏览 3378

吴佩慈发大S照片悼念:我失去的岂止是一个好朋友

素素娱乐 浏览 2956

B81 2.0共创版亮相 北京越野开启共创模式新实践

网易汽车 浏览 3172

马斯克圣诞礼物:X上所有图片都能一键AI改图了,全球画师暴怒

机器之心Pro 浏览 2665

CES2026开幕,英伟达黄仁勋提到多个中国大模型,这些中国产品将亮相

文汇报 浏览 3359

3D唇妆风好大,人类对唇线笔的开发不足1%

时尚COSMO 浏览 3357

特斯拉Q3销量首超梅赛德斯奔驰,一个时代终结了?

江瀚视野 浏览 4277

17个街道年投入逾亿元 资质错配、服务动力不足何解?

南方都市报 浏览 3560

别小看这几小事,坚持到过年那状态得有多好啊?

黎贝卡的异想世界 浏览 3118
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1