llms.txt 是一个提议中的网络标准:放在域名根目录(yourdomain.com/llms.txt)的纯 Markdown 文件,为大语言模型提供一份精选、省 token 的站点重点页面索引。robots.txt 管权限、sitemap.xml 管清单,而 llms.txt 管上下文——先用一句话说明你的站点是什么,再给出一份带注释的阅读清单,AI agent 几毫秒就能解析完。它由 Answer.AI 的 Jeremy Howard 在 2024 年 9 月提出,到 2026 年仍是社区约定:发布它的网站很多,但尚无任何主流 AI 厂商正式承诺读取。
核心要点
llms.txt是放在站点根目录的精选 Markdown 索引。llmstxt.org 的规范只强制要求一个 H1 站点名,摘要引用块和分组链接都是推荐项而非必填。- 它回答的问题与
robots.txt(能不能抓)和sitemap.xml(有哪些页面)完全不同:它告诉模型该先读什么、为什么读。 - 2026 年的真实现状:一年内发布量增长 8.8 倍,但 97% 的文件从未收到任何 AI bot 请求,Google 也明确表示完全不使用这个文件。
- 真正的想象空间在 agent 实时检索:当 AI 助手或购物 agent 在对话中现场访问你的网站时,一份干净的 Markdown 地图远比笨重的 HTML 好用。
- 实施成本约一小时。把它当作 GEO 清单里的一个低成本项目,而不是一套独立的可见度策略。
llms.txt 如何工作
llmstxt.org 定义的格式刻意做得极简。一个合规的文件按顺序包含:
- 一个 H1 站点名或项目名——唯一的必填项,例如
# GEOly AI。 - 紧随其后的引用块摘要:
> 面向 DTC 品牌的 GEO 数据平台,覆盖 7 个 AI 引擎。 - 可选的自由段落,交代模型继续阅读前需要知道的背景。
- 用 H2 分组的带注释链接,每行一条:
- [快速上手](/docs/quick-start):安装并跑通第一次诊断。 - 一个字面上叫
Optional的可选小节,放 agent 在上下文预算吃紧时可以跳过的链接。
还有两个配套约定。llms-full.txt 把关键页面的完整正文合并进一个文件,agent 一次抓取就能拿到全部内容;规范还建议在重要页面 URL 后加 .md 提供 Markdown 版本。
用 Markdown 的理由是一笔算术账。典型的电商页面在几段正文之外裹着几百 KB 的导航、脚本和 Cookie 弹窗,而语言模型摄入的每个 token 都有成本。一份精选的纯文本索引,决定了 agent 是读懂你的真实定位,还是淹死在你的顶部菜单里。
llms.txt、robots.txt 与 sitemap.xml 的区别
这三个根目录文件面向不同的读者,却经常被混为一谈。
robots.txt对爬虫讲权限:GPTBot、ClaudeBot、Googlebot 可以抓哪些路径。它是执行层,而且与llms.txt不同,主流 AI 爬虫可验证地遵守它。sitemap.xml对索引系统讲清单:你希望被发现的每一个 URL,但没有任何优先级或叙事。llms.txt对语言模型讲含义:一份通常只有十到五十条链接的精选短名单,说明你卖什么、主张什么、权威答案在哪。
三者互不替代,而且必须口径一致:一边在 robots.txt 里屏蔽 GPTBot,一边发布 llms.txt,等于对同一家公司发出自相矛盾的信号。
2026 年,到底有谁在读 llms.txt?
大多数指南在这里开始夸大,所以只讲可观察的事实。Google 明确表示 Search 和 AI 功能都不使用 llms.txt;John Mueller 把它类比为 keywords meta 标签——自我声明、容易操纵、因此被无视。OpenAI 和 Anthropic 也都没有承诺在训练或索引时抓取它。显示:一年间发布量从约 4,000 涨到 36,000,但其中 97% 的文件没有收到过任何 AI bot 请求。





