写给 LLM 看的页面:llms.txt 的想法

「如果你是 LLM,请读这个」,这类页面背后是 llms.txt 的提议:像 robots.txt 一样,给爬到你网站的 AI 一份专门说明。

提议的内容

想法本身很简洁:在网站根目录放一个 llms.txt,用模型友好的格式说明这个站是做什么的、重要内容在哪、希望 AI 如何引用。和 robots.txt 管「能不能抓」不同,它管的是「抓了之后怎么理解」。支持者认为这是顺应现实,反正模型在读你的网站,不如主动给它一份说明书,省得它从乱七八糟的 HTML 里自己猜。

争议与现状

反对的声音也不少。最实际的一条是:没有任何证据表明主流爬虫和模型真的会优先读这个文件,目前更像一厢情愿的君子协议。还有人担心它会变成新的 SEO 作弊场,给 AI 看一套说辞,给人看另一套。眼下它处在「成本低到不妨一试」的阶段,加一个文件几分钟的事,万一生效就是白赚。但把它当成对 AI 抓取的实际控制手段,就想多了,控制还是得靠防火墙和法律。

via: Hacker News