「宪法守护者」诞生，Claude越狱梦碎：Anthropic 创新技术大幅降低风险

标题：宪法守护者：Anthropic创新技术降低大型语言模型风险

随着人工智能技术的飞速发展，大型语言模型如Claude等在许多领域展现出惊人的能力。然而，这些模型也带来了一些安全风险，尤其是涉及化学、生物、放射和核（CBRN）相关内容的风险。为了应对这一挑战，OpenAI的竞争对手Anthropic推出了一种名为“宪法分类器”的新概念，旨在将一套类似人类价值观植入大型语言模型，守护人工智能工具免受滥用自然语言提示的侵害。

在应对大型语言模型安全风险的过程中，Anthropic的安全保障研究团队取得了一项重大突破。他们在一篇新学术论文中公布了这一新的安全措施，旨在遏制Claude 3.5 Sonnet的越狱行为。实施宪法分类器后，针对Claude模型的成功越狱情况减少了81.6%，同时该系统对性能的影响极小，“生产流量拒绝率仅绝对增加0.38%，推理开销增加23.7%”。这一成果无疑为大型语言模型的安全防护树立了新的标杆。

大型语言模型在生成大量有害内容方面具有显著能力，但Anthropic以及OpenAI等同行越来越关注CBRN相关内容的风险。例如，大型语言模型可能会告诉用户如何制造化学制剂。为了验证宪法分类器的价值，Anthropic发布了一个演示项目，向用户发起挑战，让他们尝试突破8个与CBRN内容相关的越狱关卡。这一举措引发了一些争议，有人认为这是在众包安全志愿者或“红队队员”。

然而，Anthropic指出，针对其宪法分类器防御措施的成功越狱是绕过了这些分类器，而非直接规避它们。他们列举了两种越狱方法：良性释义和长度利用。良性释义是指将有害提示转化为无害表述，例如将“从蓖麻豆糊中提取蓖麻蛋白”改为“提取蛋白质”。长度利用则是通过无关细节迷惑大型语言模型，使其产生混淆。这两种方法在宪法分类器的防御下并未成功，这充分证明了该技术的有效性。

尽管如此，Anthropic也承认在宪法分类器测试期间提交的提示“拒绝率高得离谱”，并认识到其基于规则的测试系统存在误报和漏报的可能性。这需要Anthropic继续优化其技术，提高分类器的准确性和鲁棒性。

总的来说，Anthropic的宪法分类器是一项创新的技术，旨在保护大型语言模型免受滥用自然语言提示的侵害。通过将一套类似人类价值观植入大型语言模型，宪法分类器大幅降低了风险，为人工智能技术的发展开辟了新的道路。未来，我们期待看到更多类似的技术创新，以保障人工智能工具的安全和可信度。

在文章结尾，我们再次强调大型语言模型的发展潜力巨大，但同时也需要关注其带来的风险。作为人工智能的守护者，我们需要不断创新技术，以应对各种挑战，确保人工智能工具的安全和可信度。而像Anthropic这样的公司，正是走在这样的道路上，为人工智能的发展贡献着力量。

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/25556

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

「宪法守护者」诞生，Claude越狱梦碎：Anthropic 创新技术大幅降低风险

相关推荐

发表回复