研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-29 01:20:50   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容肇庆市某某玩具厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功肇庆市某某玩具厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 泽连斯基:乌美未就运营扎波罗热核电站事宜达成一致

      据乌克兰媒体12月24日报道,乌克兰总统泽连斯基表示,乌克兰和美国就如何管理和运营扎波罗热核电站事宜未能达成一致。  泽连斯基会见记者时说,美国提议由美国、乌克兰和俄罗斯按照各33%的股份比例共同
    2025-12-29
  • 全国高考通知:多个省份理科分数线暴涨,最猛上涨37分!

    经过两个星期的漫长等待,2024年高考成绩终于陆续公布。这决定考生命运的时刻,最终成绩的高低,会影响到学生选择学校的档次和专业。学生除了关注自身高考成绩、全省排名以外,还需要关注各省教育考试院公布的高
    2025-12-29
  • 美洲杯|阿根廷队揭幕战2球完胜 谁说“梅球王”老了?

    北京时间6月21日上午,第48届美洲杯足球赛在美国亚特兰大拉开帷幕。卫冕冠军阿根廷队凭借阿尔瓦雷斯、劳塔罗下半时的进球,以2比0战胜加拿大队,取得开门红。还有几天就将年满37岁的梅西,作为队长代表阿根
    2025-12-29
  • SIFF丨DAY9:金爵奖颁奖典礼就在今晚

    第二十六届上海国际电影节金爵奖颁奖典礼即将拉开帷幕!在这个光影交织的夜晚,我们将一同见证电影艺术的辉煌与荣耀。电影学堂:金爵奖评委会主席大师班——陈英雄、动画片单元入围影片剧组见面会、第26届上海国际
    2025-12-29
  • 多省市公布26考研报考人数!猛跌!

    2026 年全国硕士研究生招生考试已顺利落幕!大家都开始估分了吗?不管考场上发挥如何,都先放平心态,给自己放个短假轻松一下吧。休整过后,就可以着手准备复试的相关事宜啦!目前,多个省份已经陆续公布了本次
    2025-12-29
  • 体坛联播|张之臻成大满贯种子创历史,三人女篮赛季首战摘银

    张之臻张之臻成大满贯种子选手创历史6月22日,ATP500哈雷站男单半决赛,中国球员张之臻以4比6、6比7的比分连丢两盘,不敌现世界排名第一的意大利球员辛纳,无缘决赛。但即便如此,张之臻依然凭借本站出
    2025-12-29

最新评论

rofo.wpf5p.hdup.0n7ae.wp2s2.akem.dslgw.aln.laoying.sbs