Reddit热议：前沿AI模型真的能“看懂”一幅画吗？

作者做了一个小实验，想看前沿多模态模型能否仅凭视觉信息对艺术品进行估值判断。他测试了4个前沿模型，样本是15幅拍卖总价值约14.6亿美元的画作，并设置了两种条件：只给图像，以及给图像再加基础元数据。作者认为最核心的发现是“识别与承诺之间的落差”：模型在一些情况下似乎能仅凭像素认出作品或画家，但这并不总会转化为它们愿意只依据图像作出相应估值判断。元数据的帮助在不同模型间差异明显，其中Gemini 3.1 Pro在两种条件下都最强，GPT-5.4则是在加入元数据后提升很明显。作者关注的重点不是简单宣称模型会不会“看”，而是区分“看见了什么”和“是否真正依赖所见信息”这两件事，并进一步征求大家对这种框架是否有用、如何更干净地测试视觉依赖与文本依赖、以及艺术估值是否适合作为多模态 grounding 探针的看法。

来源：Reddit（r/MachineLearning）
原始发布时间：2026-04-16 19:00

Reddit热议：前沿AI模型真的能“看懂”一幅画吗？

更多文章

消息称 Meta 一名 AI 基础设施高管离职

Reddit热议：前沿AI模型真的能“看懂”一幅画吗？

Reddit热议：谷歌获AI专利：网站将因人而异呈现不同界面

微软迎来意外亮点：LinkedIn 的 AI 智能体产品受到关注