发帖人因为觉得自己最近太依赖 Claude Code,想亲自验证在不借助 AI 生成代码的情况下,从零实现一个扩散语言模型到底有多难,于是在等待硕士论文训练任务期间动手做了一个原型。他表示只用了几小时,就在 MacBook Air M2 上把模型训练到了能输出结果的程度,并用 Karpathy 的 tiny Shakespeare 数据集训练,在提示词“to be, ”下生成了带有莎士比亚风格但明显还很粗糙的文本。帖子给出的关键信息是,这个模型大约有 750 万参数,词表大小为 66,即 65 个字符加一个 [MASK]。作者也明确强调自己训练时间远远不够,只是因为没时间继续,所以结果并不成熟;他更看重的是通过亲手实现,去理解离散扩散、编码器、解码器、分词器这些原本让人望而生畏的概念,并希望这样的尝试能鼓励到别人。
来源:Reddit(r/MachineLearning)
原始发布时间:2026-04-22 01:23