GitHub

摘要

AI 情感分析测量 ChatGPT、Gemini、Perplexity 等 AI 引擎在生成答案中如何描述、评价与推荐一个品牌——一条 AI 回答的语气，可能在买家到达官网之前就决定成交或流失。

AI 情感分析（AI Sentiment Analysis）指测量 ChatGPT、Gemini、Perplexity、Copilot、Grok、Google AI Mode 与 AI Overview 等 AI 引擎在生成答案中如何描述、评价与推荐一个品牌。社交聆听汇总的是人们怎么议论你，AI 情感分析测量的则是当用户问「Brand X 靠谱吗」「A 和 B 哪个更好」时，模型自己怎么回答。用户普遍把这些回答当作中立的事实综述，因此一条 AI 回答的语气，就可能在买家到达官网之前决定这单生意的去留。

核心要点

AI 情感分析评估的是 AI 引擎对品牌描述的极性（正面/中性/负面）、话术框架与事实准确性，而不是消费者在社交媒体上发了什么。
模型对品牌的「看法」来自两层：预训练数据（长期记忆）和实时检索的网页（短期上下文）。修复情感必须两层都动。
AI 情感比社交情感更「粘」：一个写进训练数据或来自高排名差评的负面框架，会在数百万次对话中被反复复述，直到底层信源改变。
测量方法是跨引擎、规模化地运行信任类、对比类和优缺点类 prompt，再对每个引擎给品牌贴的描述词打分。
修复负面 AI 情感本质上是 GEO 工程：替换负面引用源、发布结构化事实、强化品牌实体、用证据纠正幻觉。

AI 引擎如何形成对品牌的「看法」

模型没有情绪。它有的是品牌名与其周边语言之间的统计关联，而这些关联来自两个截然不同的层。

第一层是训练数据。模型在网页级语料上完成预训练——Common Crawl、Wikipedia、Reddit、评测站、新闻库。如果五年来论坛里一直把你的产品描述为「做工扎实但偏贵」，模型就会习得这个框架，并在每次被问到时礼貌地复述一遍。这一层变化很慢，只有模型用更新的数据重新训练时才会移动。

第二层是检索。带实时搜索的引擎——ChatGPT search、Perplexity、Gemini、Google AI Overview——会在回答前把当前网页拉进上下文。如果「Brand X 测评」的头部结果是一篇批评性拆解加一条两年前的投诉帖，合成出来的答案就会继承它们的语气。这一层几周内就能改变，所以引用源分析是所有情感修复项目的起点。

对比类 prompt 还带来第三种动力学。用户问「A vs B」时，引擎会主动寻找反差——每个优点都要配一个缺点。即使口碑整体正面的品牌，在对比回答里也会被指派一个弱项，而且这个被指派的弱项（「拍照强、续航弱」）往往在各引擎之间惊人地一致，因为它们读的是同一批信源。

为什么 AI 情感在 2026 年如此重要

核心问题是「客观性错觉」。一条推文明显是个人观点，一条 ChatGPT 回答读起来却像所有人观点的综述，以自信、中立的口吻输出——尽管它只是被训练语料塑形的统计预测。用户很少去质疑它。

其次，情感恰好落在决策时刻。买家现在直接在研究结束的那个界面里问「值不值得买」，在零点击搜索的格局下，AI 回答经常是你能拿到的唯一触点。随着 Agentic Commerce 成熟，购物 agent 在筛选商品时也会参考同样的描述词——一句「可靠性存疑」的框架，可以在没有任何人类阅读的情况下把你移出候选。

它和品牌已经在追踪的社交情感也表现得完全不同：

数据源：社交聆听读的是人类发帖；AI 情感读的是由训练数据加引用网页合成的机器回答。
权威感：爆款吐槽一眼就是观点；AI 回答把自己包装成事实综述。
波动性：社交情感按小时波动；AI 情感高度稳定——正面时是资产，负面时是昂贵的负债。
修复路径：社交情感靠 PR 和社区响应管理；AI 情感靠 GEO（生成引擎优化）管理。

如何测量 AI 情感

先手动。在无自定义指令的全新会话里，用买家口吻跨引擎运行 prompt：

「[品牌] 有哪些优缺点？」
「2026 年 [品牌] 还值得买吗？」
「[品牌] 和 [竞品] 哪个更适合 [场景]？」
「[品牌] 有什么已知问题吗？」

记录描述词。「行业领先」「可靠」「口碑好」记正面；「过时」「太贵」「售后看运气」记负面。标出反复出现的批评，尤其要标出哪些批评在事实上是错的。

手动测试只能告诉你一个引擎今天说了什么，覆盖不了 7 个引擎、上百种问法和每周的答案漂移——这需要自动化监测。GEOly AI 在 ChatGPT、Gemini、Perplexity、Copilot、Grok、Google AI Mode 与 AI Overview 上持续运行品牌 prompt，把「AI 如何描述你的品牌」与、放在同一块记分板上。