拾象 SHIZO ← 返回今日简报
热点 · WORLD

Google DeepMind 高级研究员 Lun Wang 离职 长文谈"评估失效"问题

SHIZO Editorial ·

Google DeepMind 高级研究员 Lun Wang 周二在 X (前 Twitter) 公开宣布从 DeepMind 离职,并附长文《Your Evals Will Break and You Won't See It Coming》总结他在 DeepMind 期间对 AI 评估机制的思考。核心论点:模型评估 (evals) 当前还能跟上现有模型,但对"即将构建的、跨入新能力区间的模型"则会显著失效。"我们终将拥有自我演化的模型,但在那之前,我们需要自我演化的评估。"Wang 表示对 DeepMind 这段经历"无比感激",称该团队塑造了他对"研究、产品、评估,以及如何在真实规模下构建 AI 系统"的认知。这是继 OpenAI 高层多次离职潮后,DeepMind 一线研究层的代表性离职事件,也对 GenAI 时代的"模型评估方法论"提出公开挑战——如果 evals 无法捕捉前沿能力风险,安全研究方法论就需要范式更新。

原始来源 · SOURCES The Times of India
← 返回今日简报 Twitter / X 分享