关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1004人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

微信AI团队,悄悄干了件大事,算力消耗暴降44%!

智东西 浏览 663

宝马M3旅行版正式上市 售价94.39万元

车质网 浏览 677

井柏然刘雯现身机场,两人先后乘车返回住处,交往两年感情稳定

扒虾侃娱 浏览 12818

显气质的夏季穿搭,看这些气质女神就对了,适合30-50岁女人

静儿时尚达人 浏览 11416

农妇收玉米时遇山体坍塌失联4天 周边马路出现大坑

红星新闻 浏览 11823

环球圆桌对话:G7打造“稀土联盟”更像是政治表演

环球网资讯 浏览 828

奚梦瑶登时尚杂志封面 穿黑色连衣裙凹出S型身材

闲聊小神龙 浏览 13049

奥尼尔:真嫉妒当代中锋,多希望我当年也能站出来投三分

懂球帝 浏览 10829

红毯再现女星风采 秦岚造型真大胆

御姐风尚志 浏览 16231

特朗普下令立即重启美国核试验 以应对其他国家核威胁

中安在线 浏览 5791

别再尬吹“韩女”了,这才是韩国人该申遗的东西!

Yuki女人故事 浏览 14841

5月开车撞利物浦球迷的司机承认故意撞人,预计12月15日宣判

懂球帝 浏览 351

维珍银河首度完成太空旅行"纯玩团" 乘组创下多项历史纪录

财联社 浏览 15033

重磅!上海放松限购,支持非沪籍单身人士购房!曾多次调整…

北京商报 浏览 12769

慢镜头:科莫球迷主场静默15分钟,抗议米兰vs科莫的海外赛

懂球帝 浏览 937

接过430Phev的棒,上汽大众帕萨特ePro广州车展实拍来了!

凡兮说 浏览 366

国产无人侦察机"天鹰"首飞视频公开

政知新媒体 浏览 12473

“小黑靴”今年冬天又火了!这4组搭配照着搭就很时髦

LinkFashion 浏览 680

乌方将向美提交新20点和平计划 泽连斯基表态

财联社 浏览 67

在马来西亚失联男子姐姐:不知道弟弟是跟女生一起出游

极目新闻 浏览 1460

18岁男青年被控猥亵5岁女童获刑5年半 家属:证据不足

红星新闻 浏览 96241
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1