# 三个 AI 模型评估的综合总结
> **对象:** Claude Opus 4.6(思考模式)、GPT 5.4 Pro、Gemini 3.1 Pro 分别对 Chhean / Stephen / Sotchea 三份 KG-RAG 升级方案的独立评估
> **日期:** 2026-03-13
—
## 一、三个模型的共同判断
三个 AI 模型在核心结论上高度一致,以下六点可以视为”跨模型共识”,可信度很高。
**第一,Graph 不参与 RRF 排名竞争,这一共识被三个模型一致认可。** 三个模型都认为三份方案在这一点上已经形成封口决策,不需要回摆。Graph 作为推理骨架而非第三路检索通道,是整个 v3.0 演进中最重要的架构共识。
**第二,ES 统一承担双路检索加元数据存储、去掉 PostgreSQL 和独立向量库的极简路线,三个模型一致认可。** 没有任何一个模型认为 0→1 阶段需要引入更多组件。
**第三,Chhean 方案的 concept_registry 统一词汇表和 Step 1.5 概念规范化被三个模型一致评为最值得保留的设计。** Claude 称其为”对词汇对齐问题认识最深刻的设计”,GPT 称其为”整个系统能否长期稳定演进的基础设施”,Gemini 称其为”防止图谱检索失效的关键”。三个模型都指出:用户口语、LLM 抽取词、图谱节点名三套体系不对齐,是整个系统最隐蔽也最致命的风险,而 concept_registry 是唯一从根源解决这个问题的方案。
**第四,Sotchea 方案的节点级并发检索在 0→1 阶段不被推荐。** 三个模型一致认为该架构过于重型:Claude 指出”很多精巧设计是在解决节点级检索自身引入的问题”,GPT 评价”这已经不再是轻量 GraphRAG,而是多节点异步检索编排系统”,Gemini 认为”其带来的精度提升无法抵消工程复杂度和延迟成本”。三个模型都建议将节点级检索作为后续阶段的升级方向保留,而非第一版的默认路径。
**第五,Sotchea 方案的”闭环生成”原则和对忠实原著的强硬约束被三个模型一致肯定。** GPT 称其为”产品信誉的底线”,Claude 指出”用户对回答的可信度要求极高,LLM 的自由发挥在这个领域是危险的”,Gemini 评价”骨架填充加自我纠错是保障忠实度的极佳防线”。但三个模型也一致建议将两阶段生成(Self-Correction)推迟到后续版本,0→1 阶段先做单阶段生成加 citation 绑定。
**第六,三个模型对落地可行性的排序完全一致:Chhean 最高,Stephen 居中,Sotchea 最低。** 理由也高度趋同——Chhean 方案与现有 Copypan 系统的对接最周全、数据已就绪、增量构建路径明确;Stephen 方案简洁但推迟了关键问题;Sotchea 方案理论上限最高但工程复杂度超出 0→1 阶段的合理范围。
—
## 二、三个模型之间的分歧与侧重差异
**分歧一:对 Stephen 方案十层神学体系的态度。**
Claude 和 GPT 态度相近,都认为十层体系可以作为上层导航或前端可视化视角保留,但不适合作为底层标签体系和图谱节点权威来源。Gemini 的态度更明确地否定,直接指出”在面对特定语料时容易出现水土不服,导致实体抽取无法对齐”。三者方向一致,但 Gemini 表述最决绝。
**分歧二:对 Sotchea 方案剪枝机制的评价力度。**
Gemini 对 Sotchea 的算法剪枝机制(局部存活制、语义漂移检查、同层归一化)评价最简洁,认为”阈值调参极其困难,容易陷入无休止的算法调试”。Claude 给出了最详细的利弊分析,认可漂移检查的洞察力但指出”在 0→1 阶段引入是未经验证的复杂度跃升”。GPT 的态度最具建设性,既肯定了”复杂问题会引发检索漂移”是真问题,也建议将语义漂移检查作为后续质量监控指标而非准入条件。
**分歧三:风险盲区的覆盖面差异显著。**
这是三个模型差异最大的部分。Claude 的风险分析最全面,提出了五个盲区:Reranker 领域适配、嵌入模型在神学语料上的实际表现、LLM 领域知识边界、Query 类型多样性、端到端延迟预算。GPT 同样提出了六个盲区,其中”证据粒度需要到句子级””倪李表述不一致时的冲突处理规范””词表版本迁移工程”是 Claude 和 Gemini 都未涉及的独特视角。Gemini 的风险分析最简要,只提了三点(ES/Neo4j 数据同步、Prompt 段落排列顺位、倪李对比的淹没效应),但其中”Prompt 组装顺位策略”是另外两个模型都忽略的实操细节。
总结:三个模型的风险盲区几乎不重叠,合并后才构成完整的风险清单。
**分歧四:是否给出最终推荐。**
Gemini 最直接,明确表态”Chhean 版本落地可行性最高”并对三份方案做了排序。GPT 更委婉但倾向性同样明确,结论是”以 A 的地基为主,以 B 的克制为边界,选择性吸收 C 的强约束与高价值优化”。Claude 最克制,明确声明”不做方案打分””不总结推荐选哪个”,而是给出了三种不同约束条件下的选择建议,将最终判断留给团队。
—
## 三、各模型最独特的贡献
**Claude Opus 4.6 的独特贡献**是分析的系统性和颗粒度。它是唯一对八个分歧点逐一做了完整利弊分析和倾向性判断的模型,每个分歧都有清晰的”优势—劣势—倾向”结构。它也是唯一指出 Chhean 方案”设计审查备忘”本身作为工作方法的价值的模型,并且对 Reranker 和 Embedding 模型在神学领域的适配风险发出了最具体的预警。其克制不做最终推荐的姿态,也给团队留出了最大的决策空间。
**GPT 5.4 Pro 的独特贡献**是对”不建议加的”内容做了最完整的负面清单(七条明确的”不建议”),以及对证据粒度、冲突处理规范、词表版本迁移这三个盲区的独到识别。它也是唯一把三份方案的关系定义为”不是互斥关系,而是三种层次”的模型,这个框架对团队理解三份方案的互补性非常有帮助。此外,GPT 对评估体系的建议最具操作性——”A 负责离线决策,C 负责在线观测”的组合建议比单纯说”要建立评估体系”有用得多。
**Gemini 3.1 Pro 的独特贡献**是表达的简洁和判断的果断。它的总结篇幅最短但结论最明确,没有冗余的两面分析,适合快速形成决策参考。它也是唯一指出”Prompt 组装顺位策略”缺失这一实操细节的模型——同时喂给 LLM 几十个段落和图谱关系,按什么顺序排列,三份方案确实都没有明确规定。此外,Gemini 对 Sotchea 方案”大语言模型幻觉会导致生成的树偏离两位作者的真实神学逻辑”的判断简短有力,直击垂直领域 LLM 应用的核心风险。
—
## 四、综合后的风险盲区完整清单
将三个模型识别的风险盲区合并去重后,共有十一个独立风险点:
| 编号 | 风险盲区 | 首次指出者 |
|——|———|———–|
| 1 | Reranker 模型在中文神学语料上的领域适配未验证 | Claude |
| 2 | 嵌入模型对神学专用含义词汇的语义区分能力未知 | Claude |
| 3 | LLM 对倪李著作领域知识的基线能力未评估 | Claude |
| 4 | 用户 Query 类型多样性缺乏分类路由机制 | Claude、GPT |
| 5 | 端到端延迟预算未分配,缺乏流式输出和降级策略 | Claude、GPT |
| 6 | ES 与 Neo4j 之间的数据同步一致性缺乏保障机制 | Gemini、Sotchea 方案自身 |
| 7 | Prompt 段落组装顺位策略(相关度 vs 时间线 vs 图谱层次)未定义 | Gemini |
| 8 | 倪李对比维度缺乏检索层的作者分离机制,可能产生淹没效应 | Gemini、GPT |
| 9 | 证据粒度停在 chunk 级,缺乏句子或片段级的精确溯源 | GPT |
| 10 | 倪李表述不一致时的冲突处理规范未定义 | GPT |
| 11 | concept_registry 版本迁移(节点改名、拆分、合并)的工程方案缺失 | GPT |
—
## 五、三个模型对”最终方案应该怎么组合”的隐含共识
虽然三个模型的表述风格和推荐力度不同,但从它们各自的倾向性判断中可以提炼出一个高度趋同的组合方向:
**地基层用 Chhean:** concept_registry 统一词汇表、Step 1.5 概念规范化、doctrine_tags 精确匹配的覆盖检查、基于 life_gen.json 的数据对接、二次检索并发执行、与现有 Copypan 的增量集成路径。
**纪律层用 Stephen:** 保持极简、先跑通再加复杂度、Phase 1 用 LLM 降级替代 Neo4j、十层体系保留为上层导航而非底层标签、如果 Neo4j 不比 LLM 猜测好就及时止损。
**约束层吸收 Sotchea:** “来源不足”的闭环生成原则、语义漂移检查作为后续质量监控指标、author_id 过滤加平行模板为倪李对比做检索层准备、Self-Correction 作为后续版本的迭代方向。