微软于6月2日发布 Adaptive Spec-driven Scoring for Evaluation and Regression Testing,这是一个面向开发者的开源框架,用于创建 AI 评估和回归测试。其核心用途是让开发者通过文本描述来定义希望检查的 AI 行为,再据此生成测试评分流程,帮助团队在模型或应用更新后判断回答方式是否发生偏离。与传统依赖人工编写大量测试用例的做法相比,这类工具的差异在于把“想测试什么”先写成自然语言规范,再转化为可重复执行的评估流程,更适合频繁迭代的 AI 应用。不过,素材未披露该框架的具体性能数据、适配模型范围或企业采用情况,实际效果仍取决于测试描述质量、评分标准设计和开发者社区参与度。据TechCrunch报道。
来源:TechCrunch
原始发布时间:Tue, 02 Jun 2026 19:02:21 +0000