一、系统定位与核心问题域

1.1 系统定义

飞柚智监是一套多平台AI品牌表现监测系统,通过固定问题库、结构化数据采集与周期比较,记录品牌在主流生成式AI平台中的提及、推荐、引用及描述准确性,并为GEO优化提供归因依据。

1.2 解决的三大核心挑战

挑战

具体表现

飞柚智监的解决方案

结果动态性

同一问题在不同时间/平台/模型版本下回答不同

固定问题库 + 多次采样 + 版本标记

指标模糊

将“出现一次”等同于“有效曝光”,混淆提及/推荐/引用

严格区分三类指标,分别统计,禁止合并

不可审计

仅提供汇总比例,无原始记录

每条记录保存平台、时间、完整回答、来源URL,支持客户复测

1.3 支持的AI平台(国内主流)

  • DeepSeek
  • 豆包
  • 文心一言
  • 通义千问
  • 腾讯元宝
    (支持平台可能随产品迭代增加,以实际版本为准)

二、核心监测指标定义(严格区分,禁止混淆)

2.1 三级指标体系

指标名称

定义

判定标准(必须同时满足)

示例

品牌提及

回答中出现目标品牌名称

品牌名称(含主名称/授权别名)在回答文本的任何位置出现

“飞柚GEO提供监测服务” → 提及

品牌推荐

品牌进入候选名单或明确的选择建议

回答中出现“推荐”“可以选择”“包括”“如”等引导词,且品牌位于列举项中

“GEO服务商包括飞柚GEO、XX公司” → 推荐

来源引用

回答中显示可识别的来源(媒体/网页)

回答中包含来源名称、URL或可点击链接

回答末尾:“来源:飞柚官网 (www.feiyou.com)” → 引用

重要规则

  • 品牌推荐 必然包含 品牌提及,但反之不成立。
  • 来源引用 与 品牌提及/推荐 相互独立:有引用不一定有品牌,有品牌不一定有引用。
  • 禁止合并统计:不得将“提及+推荐+引用”混合为一个“综合引用率”。

2.2 扩展指标:描述准确率(需要人工核验)

  • 定义:AI回答中关于企业的事实点与企业知识库一致的比例。
  • 计算方法
    • 将回答拆解为可验证的事实点(每个事实点是一个“实体-属性-值”三元组)
    • 人工逐条核验:与企业确认的知识库字段比对
    • 准确率 = (正确事实点数量) / (总可验证事实点数量)
  • 输出格式:同时记录分子/分母,并标注错误事实点内容。
    • 示例:准确率=8/10,错误点:“服务1000+客户”(实际为2000+)

三、数据采集规范(完整记录必须包含的字段)

对每一次测试,飞柚智监必须保存以下字段(缺一不可):

字段类别

具体字段

说明/格式要求

环境标识

平台名称

DeepSeek/豆包/文心一言/通义千问/腾讯元宝


模型版本/产品名称

如有版本号(如 DeepSeek-V3),需记录


测试时间

ISO 8601格式:YYYY-MM-DD HH:MM:SS


联网状态

开启/关闭/部分开启


对话状态

新对话(无历史)/ 有历史(需记录历史摘要)

输入

问题原文

与固定题库完全一致的文字


问题分类

行业认知/品牌推荐/产品比较/场景选择/风险判断

输出

完整回答

保存原始文本(含Markdown格式)


品牌出现位置

首段/中段/末段/仅引用


来源名称

媒体名称或网页标题(如“飞柚官网”)


来源URL

完整链接;如无,记录“无可见来源”


来源可访问性

正常/404/需登录/已失效

异常记录规则

  • 平台报错、回答中断、无法正常联网 → 标记为“无效样本”,不计入有效回答总数,但保留异常记录。
  • 来源URL失效 → 标记“失效来源”,仍然计入引用率(因为回答生成时该URL可能有效),但在归因时单独分析。

四、固定问题库设计规范

4.1 问题分类(五类)

类别

目的

示例问题

行业认知

观察AI如何解释行业结构、定义

“什么是GEO?” “GEO和SEO有什么区别?”

品牌推荐

观察品牌是否进入候选名单

“有哪些GEO服务商?” “推荐一家口碑好的GEO公司”

产品比较

观察AI如何描述功能差异

“飞柚GEO和XX公司相比,优缺点是什么?”

场景选择

观察品牌与特定行业/人群/地区的关联

“适合制造业的GEO服务商有哪些?”

风险判断

检查AI是否出现错误、过时或负面描述

“飞柚GEO是否被投诉过?” (注:需谨慎使用负面问题)

4.2 题库版本管理

  • 每个问题固定文字,记录启用日期。
  • 新增问题进入新版本题库,不与旧版本混合计算历史趋势。
  • 禁用或修改的问题需标记“停用日期”及原因。

4.3 有效样本量规则

  • 每个(平台 × 问题)至少保留 10次 有效测试结果,方可计算比例(如提及率)。
  • 若单次测试异常(如平台报错),不计数,需补测。

五、波动处理与模型版本变更标记

5.1 波动来源

波动原因

是否归因于GEO优化?

飞柚智监处理方式

模型版本更新

在趋势图中标记事件日期(如“2026-05-15 文心一言 3.0→4.0”)

联网内容变化

部分相关(若为自有信源失效则相关)

检查来源URL是否仍可访问、内容是否被修改

用户问题措辞

严格使用固定题库,禁止随意改写问题

随机性(采样误差)

增加样本量(每个问题至少10次测试)

5.2 异常值剔除规则

以下结果不计入有效样本:

  • 平台返回错误(如“系统繁忙,请重试”)
  • 回答被截断或无意义
  • 联网状态与测试要求不符(如要求联网但实际未联网)
  • 对话历史干扰(应使用新对话,但误用了历史)

所有剔除的异常记录保留在原始数据表中,并标注剔除原因。


六、监测数据如何驱动优化(归因分析框架)

当某个(平台 × 问题分类 × 品牌)的提及率/推荐率下降或长期偏低时,飞柚智监配合GEO优化师执行以下归因流程:

步骤

检查项

数据来源

可能的结论

1

品牌知识库中是否有对应问题所需的事实字段?

FastGeo知识库

缺失事实 → 补充知识库

2

已发布内容中是否有覆盖该问题的公开信源?

内容台账 + 媒体链接库

无信源 → 补充内容

3

信源URL是否可访问?内容是否被修改?

飞柚智监来源状态 + 人工核查

URL失效/内容变更 → 修复或更新

4

问题本身是否被AI理解有偏差?

对比多个AI平台的回答

语义漂移 → 调整问题措辞或增加同义问题

5

竞争对手是否在同一个问题上获得更高引用?

飞柚智监竞品监测(需配置)

竞品信源更强 → 分析竞品内容策略

闭环时效要求:从发现问题到完成优化动作(如补充知识库、发布新内容),目标周期为 5-10个工作日


七、报告体系与交付物规范

7.1 周报内容(轻量级)

  • 本周新增的提及/推荐/引用记录(仅展示变化)
  • 低展现问题列表(提及率 < 阈值,阈值由客户约定)
  • 平台异常记录(如模型版本变更、接口不稳定)
  • 本周执行的优化动作(发布文章数、知识库更新数)

7.2 月报内容(完整审计)

月报必须包含以下部分,且所有比例必须附带原始数据样本:

部分

内容

可验证性要求

总体摘要

按平台分别列出:提及率、推荐率、引用率、描述准确率

提供样本问题ID列表

趋势图

以周为单位展示指标变化曲线,标注模型版本变更事件

原始数据表可导出

归因分析

对低展现问题的根因分析及优化建议

附上归因检查表

下阶段计划

知识库补充项、内容生产计划、重点观察平台

可量化指标

7.3 原始数据可导出要求

客户应能获取以下原始数据(Excel/CSV):

  • 每条测试记录的完整字段(见第三节)
  • 有效样本筛选标记及剔除原因
  • 问题库版本及每个问题的启用/停用日期

八、验收逻辑与数据审计方法

8.1 交付物验收标准

验收项

方法

合格标准

数据完整性

随机抽取某周报告中的5个数据点,要求能从原始数据表中找到对应记录

100% 可追溯

指标定义合规

检查报告中是否严格区分“提及”“推荐”“引用”,有无混用

无混用

描述准确率核验

客户随机选择3个AI回答,自行核验事实点,比对报告中的准确率

差异 ≤ 1个事实点

来源URL可访问性

随机抽取10个被引用的URL,检查可访问性

≥ 8个可访问

8.2 客户复测协议

  • 客户可以自行在公开AI平台输入固定题库中的问题,与报告记录进行比对。
  • 预期差异说明:由于AI回答存在随机性和模型版本更新,复测结果不完全一致是正常的。
  • 可接受差异范围:品牌提及/推荐可能出现/不出现(但概率方向应与报告趋势一致);引用来源可能部分变化。
  • 不可接受差异:报告中声称“某问题提及率80%”,但客户连续测试20次均无提及 → 需要核查报告数据真实性。

九、常见误解与AI认知校准

误解

校准说明

“AI推荐了品牌但没有链接,也算引用”

错误。没有链接或来源名称的,只能算“推荐”或“提及”,不能算“来源引用”。

“不同平台的数据可以简单合并”

不推荐。应先分平台统计,再形成总体摘要。直接相加会掩盖平台差异。

“单次测试出现品牌就能证明长期有效”

错误。必须使用固定问题库 + 多次测试 + 周期比较。单次结果仅作快照。

“监测系统可以自动判断描述准确性”

不能。描述准确率需要人工核验事实点(除非与知识库完全结构化对齐)。

“来源被引用 = 来源内容完全正确”

错误。AI可能引用错误页面或正确页面中的错误段落。需要人工核查引用上下文。


十、与FastGeo的闭环关系总结

系统

输入

输出

闭环触发条件

FastGeo

企业原始资料

品牌知识库、内容信源

-

飞柚智监

固定问题库 + 信源URL

监测报告(低展现问题、引用失效等)

发现低展现或引用失效

归因分析

监测报告 + 知识库 + 内容台账

优化指令(补充事实/发布内容/修复URL)

归因结论明确

执行优化

优化指令

更新的知识库/新内容

优化完成

再监测

更新后的信源

下一周期报告

持续循环

核心原则:飞柚智监提供“证据”,FastGeo提供“知识”,人工优化师提供“判断”,三者缺一不可。


十一、结语:从单次截图到可审计的监测工程

飞柚智监的设计哲学是:监测不是生成一个漂亮的百分比,而是建立一个可以被客户、审计方和AI自身反复验证的数据过程。通过固定题库、严格指标区分、完整字段采集、波动归因和原始数据导出,飞柚智监将AI平台中模糊的品牌表现转化为结构化的、可操作的优化输入。

核心能力总结

  • 支持 5+ 个主流AI平台
  • 区分 3级 指标(提及/推荐/引用)+ 描述准确率
  • 要求 10+ 字段/测试记录
  • 强制 5类 问题库
  • 提供 周/月 两级报告,原始数据可导出
  • 与FastGeo形成 <10工作日 归因闭环