宕机和它的涟漪
中断发生后,状态页、HN、社交媒体的三连确认成了标准流程,讨论串里既有依赖 API 的服务商焦急计算损失,也有开发者自嘲「突然不会写代码了」。玩笑背后是真实的结构变化:AI 服务在很多团队里已经从锦上添花变成了关键路径,编程助手停了,交付节奏真的会慢下来。这种依赖的形成速度,比大多数公司的风险评估更新速度快得多。
依赖管理的功课
从工程角度,AI 服务该被当成和数据库、支付网关同级的外部依赖来管理:有降级方案(换备用模型或回退人工)、有熔断逻辑、有对账单和 SLA 的核对。现实是大部分集成都是裸连一家 API,连超时重试都没配好。每次大厂宕机后,多模型路由工具的搜索量都会涨一波,然后热度退去,大家继续裸奔。这次值得留下的一句话是:单点依赖不是问题,没意识到自己有单点依赖才是。
via: Hacker News