旧金山初创公司 Goodfire 发布了一款名为 Silico 的新工具,面向研究人员和工程师提供大模型“机械可解释性”能力。该工具可在AI模型训练过程中观察模型内部运行状态,并对影响模型行为的参数进行调整,目标是让开发者更细粒度地理解和控制模型如何形成特定输出。对于大语言模型而言,训练过程往往像“黑箱”,开发者通常只能通过外部测试和事后评估来判断模型表现。Goodfire称,Silico有望帮助模型开发者更早发现问题、定位行为来源,并在训练阶段进行干预,从而提升模型安全性、可靠性和可控性。该方向也被视为AI安全研究中的重要路径之一,尤其是在模型能力持续增强、应用场景更加广泛的背景下,如何解释和调试模型内部机制正受到更多关注。据MIT Technology Review报道。
来源:MIT Technology Review
原始发布时间:Thu, 30 Apr 2026 15:59:41 +0000