普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型生成有害内容。他们警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。研究结果揭示了隐藏在合规回答中的潜在危害,该方法成功率高达98%。
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/21991
该文观点仅代表作者本人,平台仅提供信息存储空间服务。
[db:摘要]
普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型生成有害内容。他们警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。研究结果揭示了隐藏在合规回答中的潜在危害,该方法成功率高达98%。
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/21991
该文观点仅代表作者本人,平台仅提供信息存储空间服务。