关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4448人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

神舟二十一号成功发射 九阳太空厨房已保障航天员超1500天

封面新闻 浏览 4116

油头粉面别演穷人!《命悬一生》几个镜头告诉你,真穷人是什么样

娱乐圈笔娱君 浏览 4350

范佩西首次征召儿子进入费耶诺德比赛名单,但并未安排他出场

懂球帝 浏览 3704

预计一季度上市 尚界高颜值轿跑Z7预告图发布

网易汽车 浏览 3200

何聪睿剧扑甩锅女主,本人发声道歉

扒虾侃娱 浏览 3126

消费降级2年,大家2025年还会买什么?

黎贝卡的异想世界 浏览 4124

金棕榈年度女性最佳力作,首次造访艺术影院

幕味儿 浏览 4276

火速认错!孙怡驾驶法拉利跑车违规

今古深日报 浏览 3238

超34.2万人爆仓,比特币一度跌破10万美元关口

观察者网 浏览 3980

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 8346

强奸大嫂凶手出狱后去大嫂家 大嫂吓得穿内衣跑出求救

澎湃新闻 浏览 5103

搭载华为乾崑舱内激光 全新深蓝S07限时15.99万元起

网易汽车 浏览 1373

第二次学贾玲也没用,亏损超1亿?

靠谱电影君 浏览 4191

美国宣布针对伊朗实施新一轮制裁

上观新闻 浏览 2966

摩恩电气深V之意

富凯财经 浏览 3930

即将空降!26集都市大剧来袭,蒋欣王子文领衔

娱乐圈笔娱君 浏览 3021

一千多人牺牲结局,无法改写,但于和伟临刑前一个动作,升华全剧

皮皮电影 浏览 4110

有种的冲这儿打!

电影最TOP 浏览 4199

移动联通重押雷鸟创新背后:智能眼镜发出“独立宣言”,欲告别“手机附属品”标签

华夏时报 浏览 3232

美军突袭马杜罗的秘密武器 遭特朗普披露

环球时报国际 浏览 3010

特斯拉进入平价棋局 不足4万美元的新车又是鲶鱼?

禾颜阅车 浏览 4249
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1