LLM 架构图鉴

一个把主流大模型架构画成统一格式图解的项目在 HN 上广受欢迎:从 GPT 到 MoE 到各家变体,一页页翻下来像逛博物馆。

图鉴里有什么

项目做的事朴素而费工:把各主流模型的架构,注意力机制的变体、归一化的位置、MoE 的路由方式、位置编码的选择,用统一的图例画出来,并排可比。读论文时这些细节散落在文字和公式里,对齐着看才能发现门道:各家架构的差异其实集中在少数几个设计点上,大部分组件已经收敛成行业共识。对学习者,这比啃十篇论文的效率高;对从业者,这是一份难得的「考古地图」。

收敛与分化的现状

把图鉴整体看完会得到一个有趣的判断:Transformer 之后,架构层面的革命少,演化多,业界的竞争重心早就转向了数据、训练方法和工程效率,架构图越来越像,模型却越拉越开,说明胜负手不在图上。但图鉴的另一半价值恰恰是记录分化的苗头:状态空间模型、混合架构这些「非主流」分支也被收录在册,万一哪天范式转移,回头看这份图鉴就是历史现场。值得收藏夹里留个位置,它还在持续更新。

via: Hacker News