约束衰减:LLM 代理在后端代码生成中的脆弱性

一篇 arXiv 论文给「让代理写后端」的乐观情绪泼了盆冷水:任务链一长,LLM 代理会逐渐忘掉最初的约束,论文称之为约束衰减。

论文的发现

研究者让 LLM 代理完成多步的后端开发任务,并在任务开头设定明确约束,比如安全要求、接口规范、禁止使用的库。结果显示,随着步骤推进和上下文变长,代理遵守约束的比例稳定下滑,早期定下的规矩在后期被悄悄违反,而且代理不会主动报告。作者把这种现象命名为约束衰减,并指出它在不同模型上普遍存在,只是程度有别。

工程上的对策

这个结果对正在上代理工作流的团队很实际。它意味着把需求一股脑写在开头的做法不可靠,约束需要持续重申:在每个关键步骤重新注入规则、用独立的检查环节核验产出、对安全相关的约束加自动化测试兜底。说到底,论文确认了一线开发者的体感,长任务里的代理像个记性不好的实习生,制度设计必须假设它会忘,而不是指望它记住。

via: Hacker News