关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1009人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高贤贞澄清当年与赵寅成机场同框绯闻:旁边还有宋仲基李敏镐等人

好丹 浏览 12637

亚历山大:我不会做招惹对手说垃圾话的事,只会拿30分赢球走人

懂球帝 浏览 964

土外长称美曾建议土向乌提供S-400防空系统

参考消息 浏览 18530

中央巡视组刚到就落马的"老虎" 其老下属也被公诉

上观新闻 浏览 80644

失去杨幂!嘉行一年内走4位大咖 新东家实力各不同

叶公子 浏览 18797

中汽协:我国2023年汽车销量突破3000万辆,出口491万,再创新高

Nice好车 浏览 12449

新官上任三把火,特朗普的第一把火会烧给谁?

浏览 22904

《孤注一掷》爆了!可惜片中有两个败笔……

不八卦会死星人 浏览 14629

女子称13岁遭强奸后怀孕引产 报案近3年嫌犯尚未受审

澎湃新闻 浏览 89387

这样的女爱豆真就不能是内娱打造的吗?

伊周潮流 浏览 11813

CIA前分析师:美国想除掉泽连斯基 并嫁祸给俄罗斯

红星新闻 浏览 14456

轰20战略轰炸机或即将首飞,美国媒体已经把害怕打在屏幕上

趣看热点 浏览 26012

一文解读杨振宁的百年人生密码 曾与爱因斯坦做同事

北京日报客户端 浏览 3118

宁波象山沿海进行军事演练 禁止驶入

极目新闻 浏览 1661

米体:米兰今夏本想租借戴维带最终失败 已将他视为明年首选目标

直播吧 浏览 14185

真正优雅的50、60岁女人,不留黑长直,更不扮嫩,这样太美了

静儿时尚达人 浏览 12883

更换平面化设计 马自达全新品牌LOGO发布

车质网 浏览 728

乌克兰防长:基辅将无法在夏季"反攻"中使用F-16

参考消息 浏览 16753

4000万的印度寡妇,只能算半个人

她刊 浏览 12917

“龙茅”开售!抢到就赚5000元?

中新经纬 浏览 12515

把连衣裙穿得美的女人,从来都不简单

世界音乐公号 浏览 19944
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1