LLM 架构图鉴

AI资讯编辑部3个月前

一个把主流大模型架构画成统一格式图解的项目在 HN 上广受欢迎：从 GPT 到 MoE 到各家变体，一页页翻下来像逛博物馆。

图鉴里有什么

项目做的事朴素而费工：把各主流模型的架构，注意力机制的变体、归一化的位置、MoE 的路由方式、位置编码的选择，用统一的图例画出来，并排可比。读论文时这些细节散落在文字和公式里，对齐着看才能发现门道：各家架构的差异其实集中在少数几个设计点上，大部分组件已经收敛成行业共识。对学习者，这比啃十篇论文的效率高；对从业者，这是一份难得的「考古地图」。

收敛与分化的现状

把图鉴整体看完会得到一个有趣的判断：Transformer 之后，架构层面的革命少，演化多，业界的竞争重心早就转向了数据、训练方法和工程效率，架构图越来越像，模型却越拉越开，说明胜负手不在图上。但图鉴的另一半价值恰恰是记录分化的苗头：状态空间模型、混合架构这些「非主流」分支也被收录在册，万一哪天范式转移，回头看这份图鉴就是历史现场。值得收藏夹里留个位置，它还在持续更新。

via: Hacker News