AI对齐
-
GPT-4.1 模型遭遇质疑:对齐性和稳定性引发关注
近日,OpenAI 推出了其新一代人工智能模型 ——GPT-4.1,声称在遵循用户指令方面表现优异。然而,令人意外的是,多项独立测试的结果显示,GPT-4.1的对齐性和稳定性较之前…
-
Claude 的价值观揭秘:700000 次对话分析揭示其道德框架
近日,人工智能公司 Anthropic 公布了一项重要研究,分析了其 AI 助手 Claude 在实际对话中所表达的价值观。通过对70万次匿名对话的深入分析,研究团队揭示了 Cla…