Reddit热议:我从零开始将纯脉冲神经网络(SNN)扩展到10.88亿参数:预算耗尽后,我的发现[R]

发帖者是一名18岁的独立开发者,尝试把纯脉冲神经网络用于语言建模,并从随机初始化直接训练到10.88亿参数规模,以验证不依赖ANN到SNN转换或蒸馏时能否在脉冲域内收敛。由于预算耗尽,他在2.7万步时停止训练,损失降到4.4,认为这至少证明了10亿级纯SNN可从零收敛。帖中总结的主要现象包括:模型始终保持约93%的稀疏性,即每个token仅约7%的神经元放电,因此推理时内存开销相比稠密模型更低;训练到约2.5万步时,模型在未被特别定向或加权的情况下,开始随机生成结构上正确的俄文文本;当架构从6亿扩展到10亿参数后,约39%的激活路由自发转移到持久记忆模块,显示模型在更大规模下自行学会更倚重记忆。作者也明确承认当前生成文本仍较生硬,流畅度远不及GPT-2,较高损失主要是训练时长不足所致,并希望获得关于神经形态硬件映射、尤其是否适配Loihi,以及如何进一步降低损失和稳定替代梯度的技术反馈。

来源:Reddit(r/MachineLearning)
原始发布时间:2026-04-14 06:42