发帖者正在搭建一个众包照片采集平台,设想由贡献者用智能手机拍照,再用 YOLO 和 CLIP 自动标注,并为每张图片补充40多项元数据,例如天气、时间、GPS 和 OCR 结果。他想先确定最值得优先收集的方向,因此核心问题不是泛泛讨论图像数据,而是询问大家当前真正缺乏、如果存在就会实际使用的图像或视频训练数据类型。正文里他给出了一些候选方向,包括欧洲街景,尤其认为现有数据集没有覆盖瑞士和法国;带有通过 OCR 提取价格信息的超市货架;模拟式公用事业仪表;带价格的餐厅菜单;以及按类型区分的电动车充电站。作者关注点很明确:先判断需求,再决定采集优先级与类别,而不是介绍平台细节或讨论模型方法本身。
来源:Reddit(r/MachineLearning)
原始发布时间:2026-04-10 18:08