GitHub

摘要

AI Search 中的品牌提及可以追踪：SparkToro 的 600 人实验证明单次 AI 回答波动极大，但固定 prompt 集经反复采样后，提及率会收敛为可靠指标——本文附 5 步搭建教程与免费上手方式。

能——AI Search 中的品牌提及完全可以追踪，而且方法已经成体系。ChatGPT、Gemini、Perplexity、Grok、Google AI Overviews 生成的是概率性回答，所以你不能像盯 Google 排名那样盯它，而要像民调机构抽样选民那样采样：固定一批购买问题，跨引擎、换问法、反复运行，看似随机的回答就会收敛成稳定的可见性数据。下面拆解它的原理、数据的边界，以及一个下午就能搭完的五步方案。

核心要点

AI Search 中的品牌提及靠采样追踪：固定 prompt 集反复运行，衡量的是提及率这个百分比，而不是排名位置。
SparkToro 与 Gumshoe.ai 组织 600 名志愿者的实验发现：AI 回答内部的品牌排名在多次运行间近乎随机，但品牌是否出现的频率足够稳定，可以量化。
OpenAI 没有提供类似 Search Console 的后台，展示量数据根本不存在；提及率、引用率和 Share of Model 是行业通行的代理指标。
手动抽查适合拿第一版基线，但个性化、记忆功能和 fan-out 查询会让单次检查在几周内失真。
这件事的赌注是真的：ChatGPT 周活用户已在 2025 年 10 月突破 8 亿，Adobe 测得美国零售网站的生成式 AI 来源流量暴涨 1,200%。

为什么每次都在变的东西也能被测量

拿「适合养宠家庭的最佳无线吸尘器」问 ChatGPT 两次，你会得到两个不一样的答案。大语言模型按概率分布生成文本，随机性是设计使然；引擎还普遍做 fan-out 检索——Google AI Mode 和 ChatGPT 会把你的一个问题在后台拆成若干子查询，各自抓取不同信源，连答案背后的证据都在轮换。

这正是单次检查会骗人的原因。SparkToro 与 Gumshoe.ai 让 600 名志愿者向 ChatGPT、Claude 和 Google 的 AI 结果提出同样十二个问题，实验结论是：回答内部的品牌排名几乎随机，但品牌是否出现要稳定得多。Rand Fishkin 的判断很直接：任何号称能给出精确「AI 排名位次」的工具都在夸大，而基于反复运行得出的可见性百分比是站得住的测量。

所以测量单位不是「某一次回答」，而是提及率。某条 prompt 本月跑 30 次、品牌出现 22 次，提及率就是 73%；下个月掉到 40%，那是真实信号而非噪音。务必分引擎统计——Gemini 倚重 Google 索引，Perplexity 引用信源最激进，ChatGPT 把模型记忆和实时浏览混在一起——把它们的数字搅在一起只会得到糊涂账。Gemini 的独特脾气我们单独写过：如何追踪 Gemini 里的品牌提及。