GitHub

摘要

llms.txt 是一个提议中的网络标准：放在域名根目录的精选 Markdown 索引，告诉 AI 模型你站点上最重要的页面是什么——实施只需一小时，2026 年尚无排名证据，却是面向 agent 实时检索时代的低成本对冲。

llms.txt 是一个提议中的网络标准：放在域名根目录（yourdomain.com/llms.txt）的纯 Markdown 文件，为大语言模型提供一份精选、省 token 的站点重点页面索引。robots.txt 管权限、sitemap.xml 管清单，而 llms.txt 管上下文——先用一句话说明你的站点是什么，再给出一份带注释的阅读清单，AI agent 几毫秒就能解析完。它由 Answer.AI 的 Jeremy Howard 在 2024 年 9 月提出，到 2026 年仍是社区约定：发布它的网站很多，但尚无任何主流 AI 厂商正式承诺读取。

核心要点

llms.txt 是放在站点根目录的精选 Markdown 索引。llmstxt.org 的规范只强制要求一个 H1 站点名，摘要引用块和分组链接都是推荐项而非必填。
它回答的问题与 robots.txt（能不能抓）和 sitemap.xml（有哪些页面）完全不同：它告诉模型该先读什么、为什么读。
2026 年的真实现状：一年内发布量增长 8.8 倍，但 97% 的文件从未收到任何 AI bot 请求，Google 也明确表示完全不使用这个文件。
真正的想象空间在 agent 实时检索：当 AI 助手或购物 agent 在对话中现场访问你的网站时，一份干净的 Markdown 地图远比笨重的 HTML 好用。
实施成本约一小时。把它当作 GEO 清单里的一个低成本项目，而不是一套独立的可见度策略。

llms.txt 如何工作

llmstxt.org 定义的格式刻意做得极简。一个合规的文件按顺序包含：

一个 H1 站点名或项目名——唯一的必填项，例如 # GEOly AI。
紧随其后的引用块摘要：> 面向 DTC 品牌的 GEO 数据平台，覆盖 7 个 AI 引擎。
可选的自由段落，交代模型继续阅读前需要知道的背景。
用 H2 分组的带注释链接，每行一条：- [快速上手](/docs/quick-start)：安装并跑通第一次诊断。
一个字面上叫 Optional 的可选小节，放 agent 在上下文预算吃紧时可以跳过的链接。

还有两个配套约定。llms-full.txt 把关键页面的完整正文合并进一个文件，agent 一次抓取就能拿到全部内容；规范还建议在重要页面 URL 后加 .md 提供 Markdown 版本。

用 Markdown 的理由是一笔算术账。典型的电商页面在几段正文之外裹着几百 KB 的导航、脚本和 Cookie 弹窗，而语言模型摄入的每个 token 都有成本。一份精选的纯文本索引，决定了 agent 是读懂你的真实定位，还是淹死在你的顶部菜单里。

llms.txt、robots.txt 与 sitemap.xml 的区别

这三个根目录文件面向不同的读者，却经常被混为一谈。

robots.txt 对爬虫讲权限：GPTBot、ClaudeBot、Googlebot 可以抓哪些路径。它是执行层，而且与 llms.txt 不同，主流 AI 爬虫可验证地遵守它。
sitemap.xml 对索引系统讲清单：你希望被发现的每一个 URL，但没有任何优先级或叙事。
llms.txt 对语言模型讲含义：一份通常只有十到五十条链接的精选短名单，说明你卖什么、主张什么、权威答案在哪。

三者互不替代，而且必须口径一致：一边在 robots.txt 里屏蔽 GPTBot，一边发布 llms.txt，等于对同一家公司发出自相矛盾的信号。

2026 年，到底有谁在读 llms.txt？

大多数指南在这里开始夸大，所以只讲可观察的事实。Google 明确表示 Search 和 AI 功能都不使用 llms.txt；John Mueller 把它类比为 keywords meta 标签——自我声明、容易操纵、因此被无视。OpenAI 和 Anthropic 也都没有承诺在训练或索引时抓取它。显示：一年间发布量从约 4,000 涨到 36,000，但其中 97% 的文件没有收到过任何 AI bot 请求。