Anthropic让 Claude 接受“心理治疗”,测试AI的情绪稳定性

据 Ars Technica 报道,Anthropic 近日披露了一项颇具实验色彩的研究:公司让旗下模型 Claude 参与约 20 小时的精神科访谈与评估,以观察其在心理层面的稳定性与行为表现。这一项目中的模型被称为 Mythos,Anthropic 将其描述为“迄今训练过的心理状态最稳定的模型”。从报道来看,这并非把 AI 当作真正的病人,而是试图借助临床心理学的方法,更系统地理解模型在对话中的一致性、情绪倾向与潜在风险。随着生成式 AI 被越来越多地用于陪伴、咨询和高频互动场景,模型是否会表现出不稳定、迎合或误导性特征,正成为行业关注重点。Anthropic 此举也显示出一个新方向:除了能力和安全评测,AI 开发者开始尝试用更贴近人类心理观察的方式,评估模型在长期交流中的可靠性。

来源:Ars Technica
原始发布时间:Thu, 09 Apr 2026 21:20:31 +0000