Reddit热议：从零开始构建我自己的扩散语言模型，比我想象中更容易

发帖人因为觉得自己最近太依赖 Claude Code，想亲自验证在不借助 AI 生成代码的情况下，从零实现一个扩散语言模型到底有多难，于是在等待硕士论文训练任务期间动手做了一个原型。他表示只用了几小时，就在 MacBook Air M2 上把模型训练到了能输出结果的程度，并用 Karpathy 的 tiny Shakespeare 数据集训练，在提示词“to be, ”下生成了带有莎士比亚风格但明显还很粗糙的文本。帖子给出的关键信息是，这个模型大约有 750 万参数，词表大小为 66，即 65 个字符加一个 [MASK]。作者也明确强调自己训练时间远远不够，只是因为没时间继续，所以结果并不成熟；他更看重的是通过亲手实现，去理解离散扩散、编码器、解码器、分词器这些原本让人望而生畏的概念，并希望这样的尝试能鼓励到别人。

来源：Reddit（r/MachineLearning）
原始发布时间：2026-04-22 01:23

Reddit热议：从零开始构建我自己的扩散语言模型，比我想象中更容易

更多文章

美国航天局计划于9月发射罗曼太空望远镜

特斯拉一季度营收回升，继续押注 AI 与机器人业务

社交平台 X 测试用 Grok 定制信息流，iOS 付费用户可抢先体验

生成式人工智能竞争升温，ServiceNow 上调业绩预期