Taalas 怎么把大模型「印」进芯片

一篇博客解析了 Taalas 的技术路线,把训练好的大模型直接固化进定制芯片硬件。一个挑战「模型必须跑在通用 GPU 上」的激进方向。

「印进芯片」是什么意思

今天的模型推理几乎都跑在通用芯片(GPU、TPU)上,芯片是通用的,模型是加载进去的软件。Taalas 的思路截然不同:把一个特定模型直接「烧」进定制硬件,让模型的结构变成芯片电路本身的一部分。代价是失去灵活性,这块芯片基本只能跑这一个模型,换模型就得换芯片。换来的回报可能极为可观,在能效和速度上,专用硬件相对通用硬件往往有数量级的优势。

为什么这条路值得关注

这种「软件硬化」的思路在计算史上反复出现过,当某种计算变得足够普遍、足够稳定,把它从软件固化到专用硬件就开始划算(ASIC 之于比特币挖矿就是先例)。如果某些 AI 模型趋于稳定、需要海量低成本推理(想想塞进每一个设备里的端侧小模型),那么「印进芯片」的极致能效就有了用武之地。它指向的未来是,AI 不再只是数据中心里耗电的庞然大物,而可能变成无处不在、近乎零边际成本的嵌入式能力。当然,这条路的商业可行性仍待验证,模型迭代太快,硬化的灵活性损失是硬伤。但它代表了 AI 硬件想象力的一个重要分支,效率的前沿,不只在更大的集群,也在更专的芯片。

via: Hacker News