「宪法守护者」诞生,Claude越狱梦碎:Anthropic 创新技术大幅降低风险

标题:宪法守护者:Anthropic创新技术降低大型语言模型风险

随着人工智能技术的飞速发展,大型语言模型如Claude等在许多领域展现出惊人的能力。然而,这些模型也带来了一些安全风险,尤其是涉及化学、生物、放射和核(CBRN)相关内容的风险。为了应对这一挑战,OpenAI的竞争对手Anthropic推出了一种名为“宪法分类器”的新概念,旨在将一套类似人类价值观植入大型语言模型,守护人工智能工具免受滥用自然语言提示的侵害。

在应对大型语言模型安全风险的过程中,Anthropic的安全保障研究团队取得了一项重大突破。他们在一篇新学术论文中公布了这一新的安全措施,旨在遏制Claude 3.5 Sonnet的越狱行为。实施宪法分类器后,针对Claude模型的成功越狱情况减少了81.6%,同时该系统对性能的影响极小,“生产流量拒绝率仅绝对增加0.38%,推理开销增加23.7%”。这一成果无疑为大型语言模型的安全防护树立了新的标杆。

大型语言模型在生成大量有害内容方面具有显著能力,但Anthropic以及OpenAI等同行越来越关注CBRN相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。为了验证宪法分类器的价值,Anthropic发布了一个演示项目,向用户发起挑战,让他们尝试突破8个与CBRN内容相关的越狱关卡。这一举措引发了一些争议,有人认为这是在众包安全志愿者或“红队队员”。

然而,Anthropic指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们。他们列举了两种越狱方法:良性释义和长度利用。良性释义是指将有害提示转化为无害表述,例如将“从蓖麻豆糊中提取蓖麻蛋白”改为“提取蛋白质”。长度利用则是通过无关细节迷惑大型语言模型,使其产生混淆。这两种方法在宪法分类器的防御下并未成功,这充分证明了该技术的有效性。

尽管如此,Anthropic也承认在宪法分类器测试期间提交的提示“拒绝率高得离谱”,并认识到其基于规则的测试系统存在误报和漏报的可能性。这需要Anthropic继续优化其技术,提高分类器的准确性和鲁棒性。

总的来说,Anthropic的宪法分类器是一项创新的技术,旨在保护大型语言模型免受滥用自然语言提示的侵害。通过将一套类似人类价值观植入大型语言模型,宪法分类器大幅降低了风险,为人工智能技术的发展开辟了新的道路。未来,我们期待看到更多类似的技术创新,以保障人工智能工具的安全和可信度。

在文章结尾,我们再次强调大型语言模型的发展潜力巨大,但同时也需要关注其带来的风险。作为人工智能的守护者,我们需要不断创新技术,以应对各种挑战,确保人工智能工具的安全和可信度。而像Anthropic这样的公司,正是走在这样的道路上,为人工智能的发展贡献着力量。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/25556

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2025年2月5日
下一篇 2025年2月5日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注