研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容广元市某某工业设备培训中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功广元市某某工业设备培训中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
11月30日,商务部发布公告2025年第77号,公布对原产于日本、美国、韩国和马来西亚的进口聚苯硫醚所适用的反倾销措施发起期终复审调查。 2020年11月30日,商务部发布2020年第53号公告
...[详细]
-
[环球时报驻法国、德国特派特约记者 尚凯元 青木 于文]经过20多天的磋商,中方赴布鲁塞尔就欧盟对华电动汽车加征反补贴税进行谈判的技术团队10月12日返回国内。中国商务部12日发布答记者问表示,自
...[详细]
-
当地时间13日,针对朝鲜劳动党中央委员会副部长金与正做出的“如果在平壤上空再次发现韩国无人机,将发生惨痛的悲剧”的发言,韩国国防部表示,若对韩国国民安全造成危害,朝鲜政权将终结。 韩国国防部称,
...[详细]
-
[环球时报综合报道]据英国《卫报》12日报道,全球变暖趋势导致冬天来得越来越晚,由于缺乏足够的冰雪,欧洲传统的冬季旅游业正在陷入困境之中。 因为湖面结冰的时间越来越延后,瑞典中部的户外俱乐部已把
...[详细]
-
ChatGPT发布三周年:它重塑了世界,却也把自己逼到了悬崖边
作者 | 小小出品 | 网易科技“今天,我们推出了ChatGPT。”三年前的今天,也就是2022年11月30日,OpenAI首席执行官山姆·奥特曼Sam Altman)用这句轻描淡写的话,向世界推开了
...[详细]
-
当地时间10月14日,联合国秘书长发言人迪雅里克在例行记者会上表示,秘书长古特雷斯谴责以色列连日来袭击加沙北部和中部,包括医院和学校设施,造成大量平民伤亡的行为。他敦促冲突各方遵守国际人道主义法,
...[详细]
-
青海省委常委、政法委书记杨发森涉嫌严重违纪违法,主动投案,目前正接受中央纪委国家监委纪律审查和监察调查。 总台央视记者 李本杨)
...[详细]
-
近日,一则“XX银行明天就要倒闭,有业务的今天赶紧提取,否则明天就提不出来,信不信由你”的信息在微信群传播,引起大量网民关注与担忧。经查证,该银行一直正常营业,运营状况良好,“银行要破产倒闭”的言
...[详细]
-
当地时间12月1日,哥伦比亚总统佩特罗宣布,恢复与委内瑞拉之间的民用航空服务。佩特罗说,美国无权关闭委内瑞拉领空,美国可以要求本国航空公司遵守其要求,但无权要求世界其他国家的航司。 由于美国联邦
...[详细]
-
耳朵总是痒,却掏不出任何东西?可能在暗示你这4个问题,别忽视
刘大叔今年67岁,他从年轻的时候就喜欢掏耳朵,在退休之后更是经常闲着没事就拿着挖耳勺挖耳朵,很享受掏耳朵的感觉。大约从上个月开始,他的耳朵时不时会瘙痒、疼痛,他觉得是上火发炎所致,购买了抗生素和滴耳液
...[详细]

日本一钢铁厂发生爆炸并引发火灾 大火仍未扑灭
这种水果好处大大的
香港大埔火灾已致4死5伤,其中3人危殆