研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2026-01-02 18:52:37   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容杭州市某某设备厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功杭州市某某设备厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 26岁广西球王,在质疑声中成为本土得分王

    CBA常规赛第五轮,四连败的天津男篮主场对阵四连败的江苏男篮,比赛还剩1分19秒,天津男篮一波9比0将比分追至82比82。罚球、突破、长传,送出这一波的来自同一个球员,一个26岁的大龄新秀——庞峥麟。
    2026-01-02
  • 普京:今年底俄通胀率将在6%左右甚至更低

      俄罗斯总统普京12月8日在战略发展和国家项目委员会会议上宣布,到2025年底,俄罗斯通胀率将在6%左右甚至更低。  普京表示,随着通胀率下降,俄国内生产总值GDP)增速也在放缓。到年底,GDP增速
    2026-01-02
  • 图赫尔:这是一个很困难的小组;现在考虑选人还太早

    2026年世界杯分组抽签结果出炉,英格兰与克罗地亚、加纳和巴拿马同组,抽签结束后,英格兰队主帅图赫尔在混合区接受了媒体的采访。谈抽签结果一个有意思的小组,一个困难的小组,我想首场比赛也很难。我们还有巴
    2026-01-02
  • 内娱史无前例!肖战新片17家品牌狂包1400场,预售5天破亿太疯了

    在最近的娱乐新闻中,肖战主演的电影《得闲谨制》因其非凡的预售表现引发了广泛讨论。这部影片在尚未正式上映之前,就凭借17家品牌的协作,实现了1400场包场,票房在短短5天内突破1亿元,记录的热度不仅让人
    2026-01-02
  • 乌总统:一定条件下可考虑在顿涅茨克设自由经济区

      乌克兰总统泽连斯基当地时间23日表示,在乌克兰获得安全保障后,可以考虑在顿涅茨克地区建立自由经济区。  他表示,如果做出这一决定,乌克兰、美国和俄罗斯将另行签署一项协议,以确定该特殊经济区的地位,
    2026-01-02
  • 8强争霸!世界杯暗藏疯狂剧本:C罗vs梅西 巴西再战英格兰

    北京时间12月6日凌晨1点,2026年世界杯小组赛抽签仪式在美国华盛顿进行。48支球队尚有6席未决出)落位12个小组,世界排名第1、欧洲杯冠军西班牙落位上半区的H组;世界排名第2、世界杯卫冕冠军阿根廷
    2026-01-02

最新评论

hgtkbf.com