百宝箱

# 三个 AI 模型评估的综合总结

> **对象：** Claude Opus 4.6（思考模式）、GPT 5.4 Pro、Gemini 3.1 Pro 分别对 Chhean / Stephen / Sotchea 三份 KG-RAG 升级方案的独立评估
> **日期：** 2026-03-13

—

## 一、三个模型的共同判断

三个 AI 模型在核心结论上高度一致，以下六点可以视为”跨模型共识”，可信度很高。

**第一，Graph 不参与 RRF 排名竞争，这一共识被三个模型一致认可。** 三个模型都认为三份方案在这一点上已经形成封口决策，不需要回摆。Graph 作为推理骨架而非第三路检索通道，是整个 v3.0 演进中最重要的架构共识。

**第二，ES 统一承担双路检索加元数据存储、去掉 PostgreSQL 和独立向量库的极简路线，三个模型一致认可。** 没有任何一个模型认为 0→1 阶段需要引入更多组件。

**第三，Chhean 方案的 concept_registry 统一词汇表和 Step 1.5 概念规范化被三个模型一致评为最值得保留的设计。** Claude 称其为”对词汇对齐问题认识最深刻的设计”，GPT 称其为”整个系统能否长期稳定演进的基础设施”，Gemini 称其为”防止图谱检索失效的关键”。三个模型都指出：用户口语、LLM 抽取词、图谱节点名三套体系不对齐，是整个系统最隐蔽也最致命的风险，而 concept_registry 是唯一从根源解决这个问题的方案。

**第四，Sotchea 方案的节点级并发检索在 0→1 阶段不被推荐。** 三个模型一致认为该架构过于重型：Claude 指出”很多精巧设计是在解决节点级检索自身引入的问题”，GPT 评价”这已经不再是轻量 GraphRAG，而是多节点异步检索编排系统”，Gemini 认为”其带来的精度提升无法抵消工程复杂度和延迟成本”。三个模型都建议将节点级检索作为后续阶段的升级方向保留，而非第一版的默认路径。

**第五，Sotchea 方案的”闭环生成”原则和对忠实原著的强硬约束被三个模型一致肯定。** GPT 称其为”产品信誉的底线”，Claude 指出”用户对回答的可信度要求极高，LLM 的自由发挥在这个领域是危险的”，Gemini 评价”骨架填充加自我纠错是保障忠实度的极佳防线”。但三个模型也一致建议将两阶段生成（Self-Correction）推迟到后续版本，0→1 阶段先做单阶段生成加 citation 绑定。

**第六，三个模型对落地可行性的排序完全一致：Chhean 最高，Stephen 居中，Sotchea 最低。** 理由也高度趋同——Chhean 方案与现有 Copypan 系统的对接最周全、数据已就绪、增量构建路径明确；Stephen 方案简洁但推迟了关键问题；Sotchea 方案理论上限最高但工程复杂度超出 0→1 阶段的合理范围。

—

## 二、三个模型之间的分歧与侧重差异

**分歧一：对 Stephen 方案十层神学体系的态度。**

Claude 和 GPT 态度相近，都认为十层体系可以作为上层导航或前端可视化视角保留，但不适合作为底层标签体系和图谱节点权威来源。Gemini 的态度更明确地否定，直接指出”在面对特定语料时容易出现水土不服，导致实体抽取无法对齐”。三者方向一致，但 Gemini 表述最决绝。

**分歧二：对 Sotchea 方案剪枝机制的评价力度。**

Gemini 对 Sotchea 的算法剪枝机制（局部存活制、语义漂移检查、同层归一化）评价最简洁，认为”阈值调参极其困难，容易陷入无休止的算法调试”。Claude 给出了最详细的利弊分析，认可漂移检查的洞察力但指出”在 0→1 阶段引入是未经验证的复杂度跃升”。GPT 的态度最具建设性，既肯定了”复杂问题会引发检索漂移”是真问题，也建议将语义漂移检查作为后续质量监控指标而非准入条件。

**分歧三：风险盲区的覆盖面差异显著。**

这是三个模型差异最大的部分。Claude 的风险分析最全面，提出了五个盲区：Reranker 领域适配、嵌入模型在神学语料上的实际表现、LLM 领域知识边界、Query 类型多样性、端到端延迟预算。GPT 同样提出了六个盲区，其中”证据粒度需要到句子级””倪李表述不一致时的冲突处理规范””词表版本迁移工程”是 Claude 和 Gemini 都未涉及的独特视角。Gemini 的风险分析最简要，只提了三点（ES/Neo4j 数据同步、Prompt 段落排列顺位、倪李对比的淹没效应），但其中”Prompt 组装顺位策略”是另外两个模型都忽略的实操细节。

总结：三个模型的风险盲区几乎不重叠，合并后才构成完整的风险清单。

**分歧四：是否给出最终推荐。**

Gemini 最直接，明确表态”Chhean 版本落地可行性最高”并对三份方案做了排序。GPT 更委婉但倾向性同样明确，结论是”以 A 的地基为主，以 B 的克制为边界，选择性吸收 C 的强约束与高价值优化”。Claude 最克制，明确声明”不做方案打分””不总结推荐选哪个”，而是给出了三种不同约束条件下的选择建议，将最终判断留给团队。

—

## 三、各模型最独特的贡献

**Claude Opus 4.6 的独特贡献**是分析的系统性和颗粒度。它是唯一对八个分歧点逐一做了完整利弊分析和倾向性判断的模型，每个分歧都有清晰的”优势—劣势—倾向”结构。它也是唯一指出 Chhean 方案”设计审查备忘”本身作为工作方法的价值的模型，并且对 Reranker 和 Embedding 模型在神学领域的适配风险发出了最具体的预警。其克制不做最终推荐的姿态，也给团队留出了最大的决策空间。

**GPT 5.4 Pro 的独特贡献**是对”不建议加的”内容做了最完整的负面清单（七条明确的”不建议”），以及对证据粒度、冲突处理规范、词表版本迁移这三个盲区的独到识别。它也是唯一把三份方案的关系定义为”不是互斥关系，而是三种层次”的模型，这个框架对团队理解三份方案的互补性非常有帮助。此外，GPT 对评估体系的建议最具操作性——”A 负责离线决策，C 负责在线观测”的组合建议比单纯说”要建立评估体系”有用得多。

**Gemini 3.1 Pro 的独特贡献**是表达的简洁和判断的果断。它的总结篇幅最短但结论最明确，没有冗余的两面分析，适合快速形成决策参考。它也是唯一指出”Prompt 组装顺位策略”缺失这一实操细节的模型——同时喂给 LLM 几十个段落和图谱关系，按什么顺序排列，三份方案确实都没有明确规定。此外，Gemini 对 Sotchea 方案”大语言模型幻觉会导致生成的树偏离两位作者的真实神学逻辑”的判断简短有力，直击垂直领域 LLM 应用的核心风险。

—

## 四、综合后的风险盲区完整清单

将三个模型识别的风险盲区合并去重后，共有十一个独立风险点：

| 编号 | 风险盲区 | 首次指出者 |
|——|———|———–|
| 1 | Reranker 模型在中文神学语料上的领域适配未验证 | Claude |
| 2 | 嵌入模型对神学专用含义词汇的语义区分能力未知 | Claude |
| 3 | LLM 对倪李著作领域知识的基线能力未评估 | Claude |
| 4 | 用户 Query 类型多样性缺乏分类路由机制 | Claude、GPT |
| 5 | 端到端延迟预算未分配，缺乏流式输出和降级策略 | Claude、GPT |
| 6 | ES 与 Neo4j 之间的数据同步一致性缺乏保障机制 | Gemini、Sotchea 方案自身 |
| 7 | Prompt 段落组装顺位策略（相关度 vs 时间线 vs 图谱层次）未定义 | Gemini |
| 8 | 倪李对比维度缺乏检索层的作者分离机制，可能产生淹没效应 | Gemini、GPT |
| 9 | 证据粒度停在 chunk 级，缺乏句子或片段级的精确溯源 | GPT |
| 10 | 倪李表述不一致时的冲突处理规范未定义 | GPT |
| 11 | concept_registry 版本迁移（节点改名、拆分、合并）的工程方案缺失 | GPT |

—

## 五、三个模型对”最终方案应该怎么组合”的隐含共识

虽然三个模型的表述风格和推荐力度不同，但从它们各自的倾向性判断中可以提炼出一个高度趋同的组合方向：

**地基层用 Chhean：** concept_registry 统一词汇表、Step 1.5 概念规范化、doctrine_tags 精确匹配的覆盖检查、基于 life_gen.json 的数据对接、二次检索并发执行、与现有 Copypan 的增量集成路径。

**纪律层用 Stephen：** 保持极简、先跑通再加复杂度、Phase 1 用 LLM 降级替代 Neo4j、十层体系保留为上层导航而非底层标签、如果 Neo4j 不比 LLM 猜测好就及时止损。

**约束层吸收 Sotchea：** “来源不足”的闭环生成原则、语义漂移检查作为后续质量监控指标、author_id 过滤加平行模板为倪李对比做检索层准备、Self-Correction 作为后续版本的迭代方向。