关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4447人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

始祖鸟发布道歉信 但海内外版本不一致

极目新闻 浏览 23421

国防部:中国不参与任何形式的军备竞赛

环球网资讯 浏览 4603

宁德时代再出手!1月内从弃控到增资,深度绑定富临精工磷酸铁锂版图

时代周报 浏览 2971

利润激增200%,半导体巨头,护城河太深!

飞鲸投研 浏览 2923

马尔科-席尔瓦:大马丁百分之百禁区内犯规了,裁判没给我们点球

懂球帝 浏览 4905

鸿蒙智行10月交付新车68216台 创单月交付量新高

网易汽车 浏览 3980

斩获700亿订单,机器人独角兽,锋芒毕露!

飞鲸投研 浏览 3443

何超莲晒全家福,三太瘦了很多,窦骁仍缺席

素素娱乐 浏览 106

智能跃迁 广汽丰田威兰达新老款车型对比

车质网 浏览 3673

普京:俄方已无兴趣等待乌从其占领区撤出

每日经济新闻 浏览 3381

特斯拉“连续5年保费”曝光:保险只要1900?比油车还便宜!

少数派报告Report 浏览 3179

库克将正式卸任苹果CEO:创造4万亿帝国 访华达20次

澎湃新闻 浏览 30921

郑丽文再次公布人事任命朱立伦尴尬了 洪秀柱罕见喊话

策略述 浏览 10030

阿斯:卡马文加要去看牙医,因此缺席出战赫塔费

懂球帝 浏览 2578

以色列发起猛攻 加沙城深陷战火

新京报 浏览 5185

新鹏城豪取两连胜!7分领先保级在望,中超首胜三镇,连破4魔咒

奥拜尔 浏览 4264

朱媛媛去世后辛柏青首露正脸,眼神空洞憔悴

胡一舸南游y 浏览 4031

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

静儿时尚达人 浏览 2635

苹果发布 iPhone 17e 搭载 A19 芯片 4499 元起售

威锋网 浏览 2475

业主反映多户顶楼业主违规加盖房屋 持续多年无法拆除

红星新闻 浏览 7968

王玉雯激动发合照,评论区林一破防

鲁中晨报 浏览 4101
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1