Reddit热议:前沿AI模型真的能“看懂”一幅画吗?

作者做了一个小实验,想看前沿多模态模型能否仅凭视觉信息对艺术品进行估值判断。他测试了4个前沿模型,样本是15幅拍卖总价值约14.6亿美元的画作,并设置了两种条件:只给图像,以及给图像再加基础元数据。作者认为最核心的发现是“识别与承诺之间的落差”:模型在一些情况下似乎能仅凭像素认出作品或画家,但这并不总会转化为它们愿意只依据图像作出相应估值判断。元数据的帮助在不同模型间差异明显,其中Gemini 3.1 Pro在两种条件下都最强,GPT-5.4则是在加入元数据后提升很明显。作者关注的重点不是简单宣称模型会不会“看”,而是区分“看见了什么”和“是否真正依赖所见信息”这两件事,并进一步征求大家对这种框架是否有用、如何更干净地测试视觉依赖与文本依赖、以及艺术估值是否适合作为多模态 grounding 探针的看法。

来源:Reddit(r/MachineLearning)
原始发布时间:2026-04-16 19:00