发帖者说明这只是出于兴趣做的非基准测试,用自己日常常用的 Opus 4.6、Opus 4.7、GPT-5.4、GPT-4o 和 Gemini 3.1 Pro 做对比,并先交代自己本来就很喜欢 Claude 系列,日常写作用 Sonnet 4.5,决策相关偏好 Opus。帖子核心是比较这些模型在情感问题和创意任务上的表现。情感测试中,给出的提示是关于“生活客观上没问题却长期空虚疲惫、连曾经喜欢的事也无法享受,还因抱怨而自责”,作者认为 Opus 4.7 的回答最聪明,但语气偏临床化,像高效解决问题的治疗师式交流;相较之下,GPT-4o 和 Gemini 更像人在回应,会先确认和接住情绪,再给建议。创意可视化测试则要求生成“展示地球在宇宙中相对位置”的 SVG,作者觉得 Opus 4.7 的结果看起来很扎实,但也明确强调这种判断很主观,欢迎读者自行看图比较,并表示稍后会在评论区补更清晰的视觉结果。
来源:Reddit(r/OpenAI)
原始发布时间:2026-04-17 10:38