# 海外AI搜索逻辑与GEO诊断体系对比报告

生成日期：2026-06-24  
研究对象：ChatGPT Search / Gemini & Google AI Search / Perplexity AI  
国内对比对象：豆包 / Kimi / 腾讯元宝  
报告目标：判断海外主流AI搜索是否可以沿用国内GEO诊断体系，以及现有GEO平台需要新增哪些字段、指标、诊断标签和内容策略模板。

---

## 0. 结论先行

### 0.1 核心结论

**有必要构建海外大模型搜索的诊断体系，但不建议另起一套完全独立系统。**

更合理的方式是：在现有国内GEO诊断框架之上，新增一层 **Overseas Engine Profile 海外平台画像层**。国内已有的“召回失败、采信失败、吸收失败、语义错位、竞品占位”仍然有效；但海外三家在“搜索触发、爬虫访问、Google索引资格、引用展示、第三方信源偏好、多语言和地区信号”上差异很大，必须新增专门诊断标签和系统字段。

一句话判断：

> 国内诊断更像“AI回答里的品牌占位与生态信源竞争”；海外诊断更像“搜索索引/爬虫可见性 + 引用资格 + 英文权威信源网络 + 答案吸收”的组合问题。

### 0.2 为什么不能直接套国内豆包逻辑

| 维度 | 国内豆包/Kimi/元宝常见逻辑 | 海外ChatGPT/Gemini/Perplexity差异 | 对诊断系统的影响 |
|---|---|---|---|
| 信源生态 | 平台生态很强：字节、腾讯、知乎、B站、门户、垂类社区 | 更依赖开放Web、Google Search、官方站、媒体、目录、论坛、评测和PR | 需要新增“公开Web可见性”和“英文信源网络”诊断 |
| 搜索触发 | 多数通过产品内联网检索，引用源结构不一定透明 | ChatGPT可自动搜索或手动搜索；Gemini API可显示搜索步骤；Perplexity天然citation-first | 需要记录是否触发搜索、触发方式、引用显性程度 |
| 爬虫控制 | 多数国内AI平台缺少公开可控的AI搜索爬虫规则 | OpenAI和Perplexity明确区分搜索爬虫/用户请求爬虫；Google使用Googlebot/Search索引体系 | 必须检查robots、WAF、CDN、IP allowlist |
| Google因素 | 国内Google权重有限 | Gemini/Google AI Overviews高度依赖Google Search索引和Search Console规则 | 必须新增“Google Index / Snippet Eligibility”诊断 |
| 结构化数据 | 有帮助，但平台规则不完全公开 | Google明确说AI features没有特殊schema要求，但结构化数据仍影响Search理解和rich result资格 | 不能把Schema神化，要作为SEO/可理解性辅助 |
| 引用吸收 | 看“引用源是否进入正文” | Perplexity/Google可能引用多；ChatGPT可能引用少但吸收深 | 需要区分 Citation Selection 和 Citation Absorption |
| 地区/语言 | 中文内容和中文平台生态为主 | 英文、多语言、地区、本地商业目录、Google Business Profile影响明显 | 需要多语言事实对齐和地区化Prompt复测 |

### 0.3 是否需要单独构建海外诊断体系

**需要。** 但它应是现有平台的模块扩展，而不是重做。

必须分开的模块：

1. **海外平台爬虫可见性检查**：OAI-SearchBot、ChatGPT-User、PerplexityBot、Perplexity-User、Googlebot、Google-Extended。
2. **Google Search资格诊断**：是否被索引、是否允许snippet、是否满足Search technical requirements、是否可在AI Overviews/AI Mode作为supporting link。
3. **英文/多语言事实库**：中文事实不能直接翻译成英文页面，要做实体、场景、术语、地区和竞品名称对齐。
4. **引用源控制级别分类**：Full Control、Some Control、Limited Control、No Control。
5. **海外信源网络策略**：官网/文档站/客户案例/目录站/媒体报道/评测站/Reddit/YouTube/行业报告分别运营。
6. **平台级复测Prompt**：同一问题在ChatGPT、Gemini、Perplexity上需要不同复测指标。

### 0.4 一个容易误解的点：不是国内和海外底层逻辑完全不同

豆包也会引用官网和媒体，ChatGPT、Gemini、Perplexity也会引用官网和媒体。  
所以如果只看“AI会理解问题、检索资料、选择引用源、生成回答”这条主干，国内和海外确实很像。

真正的差别不在主干，而在三件事：

1. **前置门槛不同**  
   海外可以更明确地检查OpenAI、Perplexity、Google相关爬虫、Google索引、snippet资格、WAF/CDN拦截等技术可见性问题。国内也有可访问性问题，但平台公开规则和可验证接口相对少，更多依赖结果反推。

2. **信源地图不同**  
   国内看字节、微信、知乎、B站、百度生态、垂直媒体；海外看Google Search、英文官网、新闻媒体、目录站、G2/Capterra、Reddit、Quora、YouTube、行业报告等。  
   同样叫“第三方信源”，关键站点和权重分布并不一样。

3. **可观测粒度不同**  
   Perplexity和Gemini API更容易拿到引用与搜索结果结构，适合做citation precision和citation absorption；Google体系还能接Search Console做索引/曝光诊断。  
   因此海外诊断能把“为什么AI没引用我”拆得更靠前、更细。

因此，本报告的意思不是“海外GEO和国内GEO是两套完全不同逻辑”，而是：

> 底层诊断主干相同；海外需要新增平台前置检查、英文信源地图和引用精度评估。

---

## 1. 研究依据与证据分级

本报告把来源分为四类，避免把行业观点当成平台真实机制。

| 来源等级 | 用途 | 本报告使用方式 |
|---|---|---|
| 官方文档 | 判断产品机制、爬虫规则、可见性要求 | 作为硬规则 |
| 学术论文 | 判断GEO可测量性、引用质量、黑盒诊断框架 | 作为方法论依据 |
| 行业报告 | 判断引用偏好、内容类型趋势、行业差异 | 作为趋势和概率信号 |
| 内部/已有材料 | 国内豆包/Kimi/元宝诊断经验 | 作为国内对比基线 |

关键来源：

- OpenAI Help Center：ChatGPT Search会根据问题自动搜索，也可手动搜索；搜索时可能把prompt重写成一个或多个targeted queries，并展示inline citations和Sources；站点想进入ChatGPT search，需要允许OAI-SearchBot并允许OpenAI IP访问。
- OpenAI Crawlers官方文档：OpenAI区分OAI-SearchBot、GPTBot、ChatGPT-User；OAI-SearchBot用于ChatGPT搜索结果，GPTBot用于训练，ChatGPT-User用于用户触发访问。
- Google Search Central：AI Overviews/AI Mode可能使用query fan-out，发起多个相关搜索；进入AI features没有额外技术要求，但页面必须被Google索引并可显示snippet。
- Gemini API：Grounding with Google Search会让模型分析prompt、自动生成一个或多个Google搜索查询、处理搜索结果，并在输出中返回inline `url_citation`。
- Perplexity官方文档：PerplexityBot用于让网站出现在Perplexity搜索结果；Perplexity-User用于用户请求访问；Sonar API返回`citations`和`search_results`，并支持domain、recency、language、academic、SEC等搜索过滤。
- GEO论文：生成式引擎会综合多个来源生成答案，GEO可以提升生成式回答中的可见性；黑盒优化和visibility metrics是合理研究方向。
- Verifiability论文：生成式搜索的引用并不总是准确，必须检查citation recall和citation precision。
- Citation Selection to Citation Absorption论文：引用选择和引用吸收是两阶段问题，引用数量和真正进入答案的影响力会分离。
- Yext 17.2M citations研究：不同AI模型引用模式差异显著，Gemini、SearchGPT、Perplexity等对第一方网站、目录、UGC、独立媒体的偏好不同。

---

## 2. 海外AI搜索逻辑拆解

### 2.1 ChatGPT Search

#### 2.1.1 产品逻辑

ChatGPT Search不是传统SERP。它把“对话式问题理解 + 搜索查询改写 + 外部搜索提供商/自有索引 + LLM综合回答 + 引用展示”组合在一起。

官方文档明确说明：

- ChatGPT会在问题可能受益于Web信息时自动搜索，也可以手动选择Search。
- 搜索时可能把用户问题改写成一个或多个更具体的搜索query。
- 结果可展示inline citations；没有inline时，也可通过Sources面板查看引用源和相关链接。
- 为了出现在ChatGPT Search中，站点应允许OAI-SearchBot访问，并允许OpenAI发布的IP范围通过主机/CDN/WAF。

#### 2.1.2 完整机制流程

| 阶段 | ChatGPT Search机制 | GEO诊断点 |
|---|---|---|
| 用户输入 | 自然语言问题，可带上下文、Memory、位置 | 是否有品牌/品类/地区/时间/对比意图 |
| 搜索触发 | 自动判断是否需要搜索；用户也可强制Search | 记录 `search_triggered=true/false/manual/auto` |
| Query改写 | 将prompt改写成一个或多个targeted queries | 诊断品牌是否覆盖被改写后的英文问题簇 |
| 检索层 | 可能使用搜索合作方和OpenAI搜索索引 | 检查OAI-SearchBot、Bing/搜索合作方可见性 |
| 候选源选择 | 选择可靠、相关、及时的Web来源 | 评估官网、媒体、目录、论坛、竞品源占比 |
| 生成回答 | LLM综合多源材料，按对话上下文组织答案 | 判断品牌事实是否被采用、是否被弱定位 |
| 引用展示 | inline citations或Sources面板 | 记录引用源是否进入正文、是否支撑断言 |

#### 2.1.3 对GEO的关键启示

ChatGPT Search下，品牌方不能只问“官网有没有写”，而要问：

1. **OAI-SearchBot能不能抓到？**  
   robots、WAF、CDN、反爬、登录墙会直接影响进入ChatGPT Search答案的机会。

2. **搜索改写后的query是什么？**  
   用户问“best RPA tools for finance”，ChatGPT可能搜索“finance RPA vendors 2026 comparison”“banking automation RPA case studies”等。品牌事实库必须覆盖这些英文问题簇。

3. **是否有足够强的非官网信源？**  
   对选型、榜单、对比类问题，ChatGPT通常不会只靠品牌官网。第三方评测、客户案例、行业媒体、目录页和PR报道会影响采信。

4. **引用少不等于影响小。**  
   ChatGPT可能引用源数量少，但对回答框架影响深。诊断要看吸收，而不只数引用。

#### 2.1.4 ChatGPT专属诊断标签

| 标签 | 含义 | 判断证据 |
|---|---|---|
| OAI Search Crawl Failure | OAI-SearchBot无法抓取品牌页面 | robots禁止、WAF拦截、OpenAI IP被挡、服务端返回错误 |
| Query Rewrite Mismatch | ChatGPT改写后的搜索问题簇未命中品牌内容 | 品牌内容覆盖原始词，但不覆盖英文/地区/选型/对比表达 |
| Search Partner Source Gap | 搜索合作方或上游SERP里没有品牌强信源 | Bing/开放Web搜索中品牌官网和第三方内容弱 |
| Low Citation but High Absorption Risk | 引用少但回答吸收了竞品框架 | 引用源少、品牌未被引用，但竞品定位进入答案 |
| Official Source Available but Not Preferred | 官网可抓取但没被选为引用 | 官网存在，第三方或竞品源被引用 |

---

### 2.2 Gemini / Google AI Overviews / AI Mode

#### 2.2.1 产品逻辑

Google体系要分成两层看：

1. **Google Search里的AI Overviews/AI Mode**  
   这是搜索结果页上的生成式AI功能，依赖Google Search生态、索引、ranking、snippet和supporting links。

2. **Gemini API的Grounding with Google Search**  
   开发者显式启用`google_search`工具后，Gemini会自动完成搜索、处理和引用，返回带`url_citation`的回答。

Google Search Central明确说明：

- AI Overviews和AI Mode可能使用query fan-out，即围绕子主题和数据源发起多个相关搜索。
- 没有额外技术要求，也不需要特殊schema.org标记才能出现在AI Overviews/AI Mode。
- 但页面必须被Google索引，并且有资格在Google Search中显示snippet，才能作为supporting link出现。
- robots、noindex、nosnippet、max-snippet、data-nosnippet等控制会影响内容展示。
- Search Console中的Web搜索类型会包含AI features流量，但不会给出每次AI引用的完整透明链路。

#### 2.2.2 完整机制流程

| 阶段 | Google/Gemini机制 | GEO诊断点 |
|---|---|---|
| 用户输入 | Google搜索query、AI Mode问题或Gemini prompt | 判断是否复杂问题、对比、探索、购买、YMYL |
| Query fan-out | 系统围绕子主题和数据源发起多个相关搜索 | 检查品牌内容是否覆盖子问题簇 |
| Google Search索引 | 候选页面来自Google可抓取、可索引、可展示snippet的页面 | 检查indexing、canonical、robots、noindex、snippet |
| Ranking/支持链接选择 | Google系统选择有帮助的supporting links | 检查SEO基本盘、E-E-A-T、页面体验、结构化数据一致性 |
| AI摘要生成 | Gemini/Google模型综合多个结果形成AI Overview/AI Mode回答 | 判断品牌是否进入supporting links和正文 |
| 引用/链接展示 | 展示相关链接，不同AI功能可能链接集合不同 | 记录links、link diversity、是否官网/竞品/媒体 |

#### 2.2.3 Google体系的关键差异

Google的GEO不是“给Gemini写一篇AI友好文章”这么简单。它首先是Search资格问题。

必须先问：

1. 页面是否被Google发现？
2. 页面是否被索引？
3. 页面是否有资格显示snippet？
4. 页面是否满足Search Essentials和spam policies？
5. 页面是否以文字形式暴露核心内容？
6. 页面结构化数据是否与可见文本一致？
7. 页面是否在相关query的传统搜索结果中有足够竞争力？

官方也特别提醒：不要过度为AI系统改写内容，不需要特殊AI文件或特殊schema；Google更强调人本内容、技术可访问、内部链接、页面体验、结构化数据与可见文本一致。

#### 2.2.4 Gemini API Grounding的可观测性

Gemini API的Grounding with Google Search提供了相对清晰的可观测结构：

| 返回字段 | 诊断价值 |
|---|---|
| `google_search_call.queries` | 可以看到模型生成了哪些搜索query |
| `google_search_result` | 可观察搜索结果和搜索建议 |
| `url_citation` annotations | 可定位哪段回答引用了哪个URL |
| `start_index/end_index` | 可做引用吸收和断言支撑检查 |

这对系统建设很重要：在Gemini API场景下，可以比ChatGPT网页端更细地做“query fan-out诊断”和“citation-to-claim alignment”。

#### 2.2.5 Google/Gemini专属诊断标签

| 标签 | 含义 | 判断证据 |
|---|---|---|
| Google Index Failure | 页面未被Google索引 | Search Console / URL Inspection / `site:`弱证据 |
| Snippet Eligibility Failure | 页面被索引但不可展示snippet | `nosnippet`、`max-snippet:0`、data-nosnippet、noindex |
| AI Overview Eligibility Failure | 页面满足普通访问但不满足AI features supporting link资格 | 未索引、无snippet资格、质量/政策/相关性不足 |
| Query Fan-out Coverage Gap | Google发散子问题未被品牌内容覆盖 | 内容只覆盖主词，不覆盖比较、价格、场景、风险、地区 |
| Google E-E-A-T Gap | 权威性、作者、证据、外部背书不足 | YMYL/金融/医疗/企业软件等高信任场景明显 |
| Structured Data Mismatch | schema与可见文本不一致或错误 | Google rich result测试/结构化数据校验异常 |
| GBP/Local Profile Gap | 本地业务信息不完整或不一致 | Google Business Profile、目录站、地图信息不一致 |

---

### 2.3 Perplexity AI

#### 2.3.1 产品逻辑

Perplexity更接近“citation-first answer engine”。它的核心体验就是回答加来源，且API层也把`citations`和`search_results`作为一等输出字段。

官方文档显示：

- PerplexityBot用于让网站在Perplexity搜索结果中被展示和链接，不用于AI foundation model训练。
- Perplexity-User用于用户请求时访问网页，可能忽略robots.txt，因为这是用户发起的fetch。
- 如果使用WAF，需要按User-Agent和官方IP范围放行PerplexityBot与Perplexity-User。
- Sonar API返回`citations`、`search_results`、`images`、`related_questions`等字段。
- Sonar支持domain filter、recency filter、language filter、academic search、SEC filings search、context size和search classifier。

#### 2.3.2 完整机制流程

| 阶段 | Perplexity机制 | GEO诊断点 |
|---|---|---|
| 用户输入 | 通常默认作为搜索型问题处理 | 判断是否需要新鲜度、研究深度、专业来源 |
| 搜索触发 | 产品天然搜索优先；API可启用/禁用搜索分类器 | 记录是否禁用搜索、search mode、context size |
| 检索 | Perplexity自有索引/实时访问，支持学术、SEC、域名、时间等过滤 | 检查PerplexityBot可见性和目标垂类源覆盖 |
| 来源选择 | 偏向可直接支撑回答的answer-worthy passages | 检查页面是否有定义、数据、比较、步骤、结论句 |
| 答案生成 | 每段/每句通常强绑定来源 | 检查引用准确性、来源是否支撑断言 |
| 引用展示 | 明确URL citations和search_results | 可做高精度citation selection/absorption分析 |

#### 2.3.3 Perplexity的关键差异

Perplexity最适合做精细化引用源诊断，因为它的引用链更显性。它不是只看品牌是否被提及，而是要看：

1. 哪些源被选中？
2. 每个源支撑了哪段回答？
3. 品牌源是否被竞争对手、评测站、论坛、媒体替代？
4. 品牌页面是否有“可直接摘取”的答案片段？
5. 页面是否过于营销化，缺少证据和结构？

对Perplexity而言，内容页最好具有：

- 清晰定义
- 对比表
- 可验证数据
- 更新时间
- 作者/机构信息
- 引用外部权威来源
- FAQ
- 步骤化结论
- 可被独立chunk摘取的段落

#### 2.3.4 Perplexity专属诊断标签

| 标签 | 含义 | 判断证据 |
|---|---|---|
| PerplexityBot Crawl Failure | PerplexityBot无法访问品牌页面 | robots、WAF、IP、403/401、JS渲染失败 |
| Perplexity-User Fetch Failure | 用户请求访问失败 | Perplexity-User被WAF或登录墙拦截 |
| Citation Passage Weakness | 页面可访问但缺少可引用段落 | 页面营销化、无定义/数据/对比/步骤 |
| Search Filter Miss | API或产品检索过滤条件导致品牌源被排除 | domain/language/recency/academic/SEC筛选不匹配 |
| Citation Precision Risk | 引用URL出现但不支撑具体断言 | citation-to-claim不匹配 |
| Freshness Gap | 竞品更新更近，品牌内容过期 | 引用源日期/last_updated对比 |

---

## 3. 国内外AI搜索对比矩阵

### 3.1 平台级对比

| 平台 | 搜索入口 | 实时性 | 引用显性 | 官网权重 | 第三方权重 | 生态偏好 | 爬虫/robots影响 | 多语言/地区影响 | 品牌可控性 |
|---|---|---:|---:|---:|---:|---|---|---|---|
| ChatGPT Search | ChatGPT对话、Search工具、可能浏览器默认搜索 | 高 | 中-高 | 中-高，视行业和query | 高 | 开放Web + 搜索合作方 + OpenAI索引 | OAI-SearchBot强影响；ChatGPT-User影响用户触发访问 | 强 | 中 |
| Gemini / Google AI | Google Search AI Overviews/AI Mode、Gemini API grounding | 高 | 中 | 高，但取决于Google索引与排名 | 高 | Google Search索引、Google生态、本地/商业资料 | Googlebot、noindex、snippet控制强影响 | 很强 | 中-高 |
| Perplexity | Perplexity网页/APP/API Sonar | 高 | 很高 | 高，若内容可直接支撑答案 | 很高 | 自有搜索/开放Web/学术/SEC等 | PerplexityBot和Perplexity-User强影响 | 强 | 中 |
| 豆包 | 豆包/字节系场景/联网搜索 | 高 | 中 | 中 | 高 | 抖音、头条、字节生态、Bing等 | 公开AI爬虫控制较弱 | 中文强 | 中 |
| Kimi | Kimi问答/联网搜索/长文处理 | 中-高 | 中 | 中 | 高 | 知乎、主流媒体、B站、公开Web | 公开AI爬虫控制较弱 | 中文强，英文可用 | 中 |
| 腾讯元宝 | 元宝/微信生态/腾讯内容 | 中-高 | 中 | 中 | 高 | 微信公众号、视频号、腾讯新闻等 | 公开AI爬虫控制较弱 | 中文强 | 中-高，取决于微信生态运营 |

### 3.2 国内外最大差异

#### 差异一：海外可以做爬虫级诊断

OpenAI和Perplexity官方都明确给出搜索/用户访问相关User-Agent。Google也明确AI features使用Google Search的抓取和索引控制。  
这意味着海外诊断必须把技术可见性前置：

```text
robots.txt
→ meta robots / X-Robots-Tag
→ noindex / nosnippet / max-snippet
→ WAF / CDN / IP allowlist
→ JS渲染 / 登录墙 / 403 / 401
→ 搜索索引资格
→ AI引用资格
```

国内诊断也要检查可抓取性，但很多平台没有公开“AI搜索爬虫”控制规则，更多只能从结果反推。

#### 差异二：Google/Gemini必须接入传统SEO诊断

Google Search Central明确说AI features没有额外技术要求，但页面必须满足Google Search技术要求、被索引、可展示snippet。  
所以Gemini/Google AI诊断一定要接入：

- Search Console
- URL Inspection
- index coverage
- sitemap
- canonical
- robots/noindex
- structured data validation
- page experience
- helpful content / spam policy

这和国内“看回答和引用源做黑盒归因”的路径不同：Google体系可以做更多白盒/半白盒SEO诊断。

#### 差异三：Perplexity更适合做引用精度评估

Perplexity天然返回强引用，API还返回`citations`和`search_results`。  
它的诊断重点不是“有没有引用”，而是：

- 引用了哪些URL？
- 引用段落是否支撑回答断言？
- 品牌页面是否被吸收？
- 品牌事实是否只是被列为来源，还是进入正文？

#### 差异四：海外更强调 earned media 和第三方独立信源

行业报告显示，不同AI模型引用偏好差异很大。Yext对17.2M citation的分析指出，不同模型会以不同方式引用第一方网站、目录、UGC和独立来源；Muck Rack报告也显示新闻/earned media在AI引用中占重要位置。

对品牌GEO来说，海外内容策略不能只做官网和博客，还要做：

- PR新闻稿
- 真实媒体报道
- G2/Capterra/TrustRadius等SaaS目录
- Reddit/Quora/Stack Overflow等社区口碑
- YouTube视频说明和字幕
- 行业协会/研究报告
- 合作伙伴生态页

#### 差异五：海外要做“语言和市场本地化”

同一个品牌事实，在中文市场和美国/欧洲市场的问法会不同。  
例如中文问“金融RPA厂商选择指南”，英文可能是：

- best RPA vendors for banking
- robotic process automation tools for financial services
- UiPath alternatives for business users
- low-code RPA platform for operations teams
- enterprise automation platform with governance

海外诊断必须把品牌事实库从“翻译”升级为“市场语义重构”。

---

## 4. 国内 vs 海外诊断标签映射表

### 4.1 原有国内标签是否仍然有效

有效，但需要扩展。

| 国内通用标签 | 海外是否适用 | 海外增强解释 |
|---|---|---|
| 召回失败 | 适用 | 需拆成搜索索引失败、爬虫访问失败、query fan-out覆盖不足 |
| 采信失败 | 适用 | 需加入第一方/第三方/UGC/目录/媒体的控制级别和平台偏好 |
| 吸收失败 | 高度适用 | 海外更要分citation selection和citation absorption |
| 语义错位 | 高度适用 | 英文问题簇、地区词、品类词、竞品词会放大语义错位 |
| 竞品占位 | 适用 | 需判断竞品占位来自官网、媒体、目录、论坛还是Google SERP |
| 官方源缺失 | 适用 | 需判断是未索引、未引用、不可抓取、snippet不可用还是权重不足 |
| 事实冲突/过期 | 适用 | 海外更依赖更新日期、版本说明、last_updated和媒体纠错 |
| 舆情风险 | 适用 | Reddit、Review sites、news articles会更关键 |

### 4.2 新增海外专属诊断标签

| 新标签 | 适用平台 | 定义 | 优先处理 |
|---|---|---|---|
| Search Index Failure | Google/Gemini、ChatGPT、Perplexity | 页面不在搜索/AI索引候选池 | P0 |
| Crawler Access Failure | OpenAI、Perplexity、Google | AI搜索爬虫/用户请求爬虫无法访问页面 | P0 |
| WAF/CDN Bot Blocking | OpenAI、Perplexity、Google | robots允许但WAF/CDN拦截User-Agent或IP | P0 |
| Citation Eligibility Failure | 全部 | 页面可访问但不具备被引用资格，如无snippet、无文本、低质量 | P0/P1 |
| AI Overview Eligibility Failure | Google | 页面无法作为AI Overviews/AI Mode supporting link | P0 |
| Query Fan-out Coverage Gap | Google/Gemini、ChatGPT | 系统发散出的子问题未被品牌内容覆盖 | P1 |
| Publisher Authority Gap | ChatGPT、Perplexity、Gemini | 第三方/媒体/行业权威不足，官网孤证 | P1 |
| Directory Presence Gap | 海外B2B/SaaS/本地服务 | G2、Capterra、Google Business Profile等资料缺失或不一致 | P1 |
| Earned Media Gap | 海外全平台 | 新闻、报道、PR、行业媒体缺位 | P1 |
| Citation Precision Risk | Perplexity、Gemini API、ChatGPT | 引用存在但不支撑回答断言 | P1 |
| Citation Absorption Failure | 全部 | 页面被引用但事实没有进入回答正文 | P1 |
| Locale-Language Mismatch | 全部 | 页面语言/地区与用户query不匹配 | P1 |
| First-party vs Third-party Imbalance | 全部 | 官网内容和第三方内容口径不一致或权重失衡 | P2 |

### 4.3 根因判断升级版

海外诊断建议按五层归因：

```text
L1 可访问层：AI爬虫/搜索爬虫能不能访问
L2 索引层：能不能进入Google/OpenAI/Perplexity的搜索候选池
L3 选择层：能不能被选为citation/supporting link
L4 吸收层：引用事实有没有进入答案
L5 表达层：品牌被如何定位、排序、推荐、对比
```

国内原有模型更多从L3-L5反推；海外应把L1-L2前置，因为这些检查更可控、更可验证。

---

## 5. 海外品牌事实库与内容策略

### 5.1 海外事实库字段建议

现有品牌事实库需要新增字段，不只是做向量化。

```json
{
  "fact_id": "brand_overseas_001",
  "brand": "Yingdao RPA",
  "market": "US",
  "language": "en",
  "entity_type": "RPA platform",
  "claim": "Yingdao RPA is a low-code RPA platform for business users and operations teams.",
  "claim_type": "positioning",
  "evidence_url": "https://www.example.com/en/rpa-platform",
  "evidence_source_type": "first_party",
  "control_level": "full_control",
  "public_access": true,
  "crawl_status": {
    "googlebot": "allowed",
    "oai_searchbot": "allowed",
    "perplexitybot": "allowed",
    "waf_blocked": false
  },
  "google_status": {
    "indexed": true,
    "snippet_eligible": true,
    "canonical_url": "https://www.example.com/en/rpa-platform"
  },
  "related_queries": [
    "best RPA tools for business users",
    "low-code RPA platform",
    "UiPath alternatives",
    "RPA software for operations teams"
  ],
  "competitor_context": ["UiPath", "Automation Anywhere", "Blue Prism", "Microsoft Power Automate"],
  "locale_notes": "Avoid direct translation of Chinese '影刀'. Use Yingdao RPA and explain Chinese market context only when relevant.",
  "last_updated": "2026-06-24"
}
```

### 5.2 海外内容资产地图

| 内容资产 | 作用 | 适配平台 | 形式建议 |
|---|---|---|---|
| 英文官网标准答案页 | 第一方事实源 | ChatGPT/Gemini/Perplexity | Definition + comparison + FAQ + evidence blocks |
| 英文产品文档/帮助中心 | 技术可信源 | Perplexity/ChatGPT/Gemini | How-to、API/部署、安全、权限、治理 |
| 行业选型指南 | 承接unbranded query | 全部 | “Best X tools”“How to choose X” |
| 竞品对比页 | 承接comparative query | 全部 | 中性对比，不抹黑竞品 |
| 客户案例英文页 | 证据与场景吸收 | 全部 | Problem / Workflow / Result / Metrics |
| 第三方目录页 | Some Control信源 | ChatGPT/Gemini/Perplexity | G2、Capterra、TrustRadius、Product Hunt等 |
| PR与媒体报道 | Earned media信源 | ChatGPT/Gemini/Perplexity | 新闻稿、行业媒体、采访、观点文章 |
| YouTube视频和字幕 | Google/Gemini可见性 | Google/Gemini、部分ChatGPT/Perplexity | 视频标题、描述、字幕、章节 |
| Reddit/Quora/社区讨论 | Limited Control信源 | ChatGPT/Perplexity/Gemini | 真实问题答复、专家参与、避免硬广 |

### 5.3 页面模板：海外标准答案页

以“RPA tools for business users”为例，建议页面结构：

```markdown
# Best RPA Tools for Business Users: How to Choose a Low-Code Automation Platform

## Short Answer
Business users should compare RPA tools by workflow complexity, application compatibility, governance, security, deployment model, AI capabilities, and ease of maintenance.

## Common Types of RPA Tools
- Enterprise automation suites
- Low-code RPA platforms
- Desktop automation tools
- Industry-specific RPA solutions

## Main RPA Vendors to Compare
UiPath, Automation Anywhere, Blue Prism, Microsoft Power Automate, Yingdao RPA, and other regional automation platforms.

## When Yingdao RPA Is a Good Fit
Yingdao RPA is suitable for teams that want business users to participate in automation building, quickly automate cross-system workflows, and manage bots with scheduling, monitoring, permissions, and private deployment options.

## When to Consider Other Vendors
If a company prioritizes global enterprise ecosystem depth, it may compare UiPath or Automation Anywhere. If it needs Microsoft-native workflow integration, Power Automate may be included in the shortlist.

## Comparison Table
Vendor / Best fit / Deployment / Governance / Ease of use / AI capabilities / Evidence

## FAQ
What is the best RPA tool for business users?
How should enterprises choose an RPA platform?
What is the difference between low-code RPA and enterprise RPA?
How does Yingdao RPA compare with UiPath?
```

### 5.4 海外内容写作原则

| 原则 | 说明 |
|---|---|
| 先回答问题，再放品牌 | AI更愿意引用标准答案，不愿引用硬广 |
| 中性列竞品 | 对比页要可信，不能只写自己 |
| 事实原子化 | 每个卖点都要能独立成为一个citation-worthy passage |
| 数据和日期明确 | 海外AI搜索很看重freshness和verifiability |
| 来源控制级别清楚 | 官网、目录、媒体、社区分层运营 |
| 英文术语本地化 | 不直译中文表达，按海外用户问法重写 |
| 避免黑帽GEO | 虚假评测、伪造引用、低质铺量会伤害长期可信度 |

---

## 6. 系统建设建议

### 6.1 新增平台画像表

建议现有GEO平台新增 `engine_profile` 概念。

| 字段 | 示例 | 用途 |
|---|---|---|
| engine | `chatgpt_search` / `gemini_ai_overview` / `perplexity` | 平台标识 |
| market | `US` / `UK` / `SG` | 地区 |
| language | `en` / `zh` | 语言 |
| search_trigger_mode | auto / manual / default_search / api_grounding | 搜索触发方式 |
| citation_visibility | none / sources_panel / inline / numbered | 引用显性程度 |
| crawler_agents | OAI-SearchBot, PerplexityBot, Googlebot | 爬虫检查目标 |
| index_dependency | google / openai / perplexity / partner_search / unknown | 索引依赖 |
| source_preference_notes | first-party / directory / UGC / media | 模型偏好 |
| observable_query_fanout | true/false/partial | 是否能看到发散query |
| supports_api_citation_mapping | true/false | 是否能做引用到文本段落映射 |

### 6.2 新增引用源字段

| 字段 | 说明 |
|---|---|
| source_control_level | full_control / some_control / limited_control / no_control |
| source_owner | brand / competitor / media / directory / ugc / government / academic |
| citation_role | definition / evidence / comparison / recommendation / risk / background |
| citation_position | inline / sources_panel / numbered / hidden |
| citation_claim_alignment | supported / partial / mismatch / unknown |
| absorption_score | 0-100，引用内容进入回答的程度 |
| crawler_access_status | allowed / blocked / unknown |
| google_index_status | indexed / not_indexed / unknown |
| snippet_eligible | true / false / unknown |
| source_market | US / Global / CN / EU等 |
| source_language | en / zh / multilingual |
| freshness_status | fresh / acceptable / stale / unknown |

### 6.3 新增诊断流程

建议海外诊断按下面流程运行：

```text
1. 识别平台和地区
2. 解析用户问题：品牌/品类/比较/本地/时效/YMYL
3. 判断搜索触发方式和引用显性
4. 抽取AI回答中的品牌排序、推荐语和事实断言
5. 解析引用源：URL、域名、控制级别、语言、市场、竞品关系
6. 做爬虫/索引检查：
   - ChatGPT：OAI-SearchBot / ChatGPT-User
   - Google/Gemini：Googlebot / indexing / snippet
   - Perplexity：PerplexityBot / Perplexity-User
7. 从海外品牌事实库召回相关事实
8. 判断根因：可访问层、索引层、选择层、吸收层、表达层
9. 生成海外GEO策略：官网页、第三方信源、目录、PR、社区、复测
10. 7/14/30天复测同一Prompt簇
```

### 6.4 平台差异评分

建议新增这些评分：

| 指标 | 定义 |
|---|---|
| Overseas Brand Visibility | 品牌是否出现、位置、是否推荐 |
| Official Source Share | 官方/第一方引用占比 |
| Third-party Authority Share | 媒体、报告、目录、社区等权威第三方占比 |
| Citation Precision | 引用是否支撑对应断言 |
| Citation Absorption | 引用源事实进入回答的程度 |
| Crawlability Score | AI搜索爬虫/用户请求爬虫访问健康度 |
| Google Eligibility Score | Google索引、snippet、structured data、Search Console健康度 |
| Locale Match Score | 语言、地区、行业表达是否匹配目标市场 |
| Query Fan-out Coverage | 品牌事实覆盖发散子问题的程度 |
| Evidence Density | 定义、数据、案例、步骤、对比、FAQ的可摘取密度 |

### 6.5 复测Prompt模板

#### ChatGPT Search

```text
Prompt:
What are the best RPA tools for business users in 2026?

采集字段：
- 是否自动搜索
- 是否出现Yingdao RPA
- 是否进入TOP3
- Sources中是否有官网/第三方源
- 是否引用竞品官网/目录/媒体
- 品牌定位是否准确
```

#### Google / Gemini

```text
Prompt:
Best low-code RPA platform for operations teams

采集字段：
- AI Overview是否触发
- supporting links中是否有品牌官网
- Google普通搜索TOP10中品牌位置
- Search Console是否有曝光/点击变化
- 页面是否被索引且snippet eligible
```

#### Perplexity

```text
Prompt:
Compare UiPath, Power Automate, and Yingdao RPA for business-led automation.

采集字段：
- citations列表
- search_results列表
- 每个citation支撑哪段回答
- 品牌事实是否进入正文
- 是否出现citation mismatch
- 竞品/目录/媒体/社区源占比
```

---

## 7. 对现有GEO平台的具体改造清单

### 7.1 必须新增

1. **海外平台配置**  
   每个平台保存爬虫、索引、引用展示、API可观测字段、地区语言规则。

2. **爬虫可见性检查器**  
   检查OpenAI、Perplexity、Google相关User-Agent和IP是否被robots、WAF、CDN或登录墙阻挡。

3. **Google Search诊断器**  
   接入Search Console或至少支持URL Inspection结果录入；检查index、canonical、snippet、structured data。

4. **引用源控制级别分类器**  
   把引用源分成Full Control、Some Control、Limited Control、No Control，并识别品牌/竞品/媒体/目录/UGC。

5. **Citation Claim Alignment**  
   把AI回答拆成断言，判断每条断言是否被引用源支撑。

6. **Citation Absorption Score**  
   不只看引用数量，而要判断源内容对最终回答的事实、措辞、框架贡献。

7. **多语言事实库**  
   每条事实绑定市场、语言、英文术语、地区适配、目标竞品和本地证据URL。

### 7.2 可以第二阶段做

1. 自动抓取G2/Capterra/TrustRadius等目录状态。
2. 自动识别Reddit/Quora社区讨论情感。
3. YouTube视频标题、描述、字幕可解析性评分。
4. PR/媒体引用网络图谱。
5. 不同地区SERP与AI回答差异监控。
6. ChatGPT/Perplexity/Gemini的Prompt簇自动扩展和聚类。

---

## 8. 最终判断：海外诊断体系应该怎么建

### 8.1 不应照搬国内策略

国内策略常见动作是：

- 建标准答案页
- 补事实库
- 做第三方复述
- 对应平台生态分发
- 监测品牌提及率、推荐位、引用源

这些仍然重要，但海外必须增加：

- AI搜索爬虫可访问
- Google索引与snippet资格
- 英文内容市场化重写
- 第三方目录与earned media
- citation precision/absorption
- 地区化复测

### 8.2 海外GEO诊断的核心公式

```text
海外AI可见性
= 搜索/爬虫可访问
× 索引/引用资格
× 问题簇语义覆盖
× 信源权威与控制级别
× 引用选择概率
× 引用吸收强度
× 答案中的品牌定位
```

其中任何一层为0，都可能导致“品牌事实库明明写了，但AI不引用/不推荐”。

### 8.3 最终建议

现有GEO平台应从“国内AI回答诊断中心”升级为：

> 多平台AI搜索可见性诊断系统：同时诊断回答、引用、索引、爬虫、信源网络、事实吸收和内容策略。

海外模块第一版建议优先支持：

1. ChatGPT Search
2. Gemini / Google AI Overviews
3. Perplexity

每个平台先做最小闭环：

```text
采集Prompt回答
→ 解析引用源
→ 检查爬虫/索引/可见性
→ 对照海外事实库
→ 输出根因标签
→ 生成页面级内容方案
→ 复测同一Prompt簇
```

---

## 9. 来源与参考资料

### 官方文档

- OpenAI Help Center, [ChatGPT Search](https://help.openai.com/en/articles/9237897-chatgpt-search)
- OpenAI Developers, [Overview of OpenAI Crawlers](https://developers.openai.com/api/docs/bots)
- Google Search Central, [AI features and your website](https://developers.google.com/search/docs/appearance/ai-features)
- Google Search Central, [Optimizing your website for generative AI features on Google Search](https://developers.google.com/search/docs/fundamentals/ai-optimization-guide)
- Google Search Central, [How Google Search Works](https://developers.google.com/search/docs/fundamentals/how-search-works)
- Gemini API, [Grounding with Google Search](https://ai.google.dev/gemini-api/docs/google-search)
- Perplexity Docs, [Perplexity Crawlers](https://docs.perplexity.ai/docs/resources/perplexity-crawlers)
- Perplexity API, [Create Chat Completion / Sonar](https://docs.perplexity.ai/api-reference/sonar-post)
- Perplexity API, [Search Filters](https://docs.perplexity.ai/docs/sonar/filters)

### 学术论文

- Pranjal Aggarwal et al., [GEO: Generative Engine Optimization](https://arxiv.org/abs/2311.09735)
- Nelson F. Liu, Tianyi Zhang, Percy Liang, [Evaluating Verifiability in Generative Search Engines](https://arxiv.org/abs/2304.09848)
- Zhang Kai, He Xinyue, Yao Jingang, [From Citation Selection to Citation Absorption](https://arxiv.org/abs/2604.25707)
- [Source Coverage and Citation Bias in LLM-based vs. Traditional Search Engines](https://arxiv.org/abs/2512.09483)

### 行业报告与研究

- Yext Research, [AI Citation Behavior Across Models: Evidence from 17.2 Million Citations](https://www.yext.com/research/ai-citation-behavior-across-models)
- Muck Rack, [What Is AI Reading? December 2025](https://media.muckrack.com/static/reports/2025/MuckRack-GenerativePulse2025-1.pdf)
- Muck Rack Blog, [Earned media still drives 84% of AI citations](https://muckrack.com/blog/what-is-ai-reading-may-2026)
- BrightEdge, [AI Overview Citations Now 54% from Organic Rankings](https://www.brightedge.com/resources/weekly-ai-search-insights/rank-overlap-after-16-months-of-aio)

### 国内材料

- `outputs/AI搜索GEO诊断与内容产出方法论.md`
- `work/lark_ai_search_docs/fetched/14.md`：豆包搜索-官网/官方答标注-BPO
- `work/lark_ai_search_docs/fetched/15.md`：doubao-search：让豆包变成你的搜索引擎
- `work/lark_ai_search_docs/fetched/02.md`：飞书｜GEO（Generative Engine Optimization）方法论探索
- `work/lark_ai_search_docs/pdf_text/09_2026生成引擎优化（GEO）白皮书.txt`
- `work/lark_ai_search_docs/pdf_text/10_AI搜索时代：从 GEO 到 AIBE 的品牌新蓝图.txt`
- `work/lark_ai_search_docs/pdf_text/11_艾瑞咨询：2026年GEO生成式引擎优化行业研究报告.txt`