GitHub

摘要

AI 爬虫是 OpenAI、Anthropic、Google、Perplexity 等公司用于训练模型或实时检索答案的抓取机器人——你在 robots.txt 中对它们的取舍，直接决定品牌是否存在于 AI 搜索之中。

AI 爬虫（AI Crawlers）是由 AI 公司运营的自动化抓取机器人——OpenAI 的 GPTBot、Anthropic 的 ClaudeBot、PerplexityBot，以及一长串还在快速增加的名字——它们抓取网页内容，要么用于训练大语言模型，要么在 AI 引擎回答问题时实时检索页面。Googlebot 给 URL 建索引、让页面以链接形式排名；AI 爬虫决定的则是你的品牌是否存在于 ChatGPT、Gemini、Perplexity 和 Google AI Overviews 之中。如何在 robots.txt 里对待它们，已成为 GEO（生成式引擎优化）中最具影响的技术决策之一。

核心要点

AI 爬虫分三类：为未来模型收集语料的训练爬虫（GPTBot、ClaudeBot）、为 AI 搜索建索引的搜索爬虫（OAI-SearchBot、PerplexityBot），以及应用户请求实时抓取页面的用户触发抓取器（ChatGPT-User、Perplexity-User）。
屏蔽训练爬虫，内容进不了未来的模型；屏蔽搜索爬虫，今天就会从 AI 答案中消失。争夺 AI 可见性的品牌几乎都应放行搜索与检索类爬虫。
Google-Extended 只控制 Gemini 的训练与 grounding，并不能让你退出 AI Overviews——后者依赖普通的 Googlebot 抓取。
robots.txt 是一份政策声明，不是一堵墙：用户触发的抓取器常常无视它，个别爬虫的合规记录也很差。
先审计再下结论：Cloudflare 自 2025 年年中起对新域名默认屏蔽已知 AI 爬虫，很多品牌在 AI 引擎里隐形并非出于自己的选择。

三种任务，三类爬虫

Googlebot 只有一个任务：为网页建图谱以便排名。AI 爬虫做的是三件不同的事，每一件带来的回报都不一样。

训练爬虫为下一代模型收集大规模语料。GPTBot、ClaudeBot、Meta-ExternalAgent 属于这一类，还有非营利组织 Common Crawl 的 CCBot——许多 AI 实验室都在复用它的数据集。今天被抓取的内容，可能要等下一个模型发布后才影响答案，中间隔着数月。
搜索索引爬虫构建 AI 搜索背后的检索索引。OAI-SearchBot 支撑 ChatGPT search，Claude-SearchBot 服务 Claude 的联网搜索，PerplexityBot 构建 Perplexity 的索引。这类爬虫直接决定你这周能否被答案引用。
用户触发抓取器因某个人的提问而抓取某个具体页面。ChatGPT-User、Claude-User、Perplexity-User 在问题需要实时查看你的网站时被触发——也就是 grounding queries 背后的检索环节。

产出的差异比机制更重要。传统抓取换来一条排名链接，或许还有一次点击；AI 抓取换来的是合成答案里的 AI 引用与品牌提及——这是零点击搜索时代的硬通货。

2026 年需要认识的 AI 爬虫

OpenAI

GPTBot 为未来的 GPT 模型收集训练数据。OAI-SearchBot 为 ChatGPT search 抓取内容，按照 OpenAI 的爬虫文档，它不用于训练。ChatGPT-User 在对话中代表用户实时抓取页面。实际区别在于：屏蔽 GPTBot 影响的是未来模型；屏蔽 OAI-SearchBot，你现在就会从 ChatGPT 的搜索结果中消失。