下面给你一套 “神学 RAG 专用评测体系（Theological RAG Evaluation Framework）”。

这是一种比普通RAG评测更高级的体系，专门针对神学、属灵著作、系统神学文本。

它解决一个普通RAG评测无法解决的问题：

回答虽然正确
但神学上不忠于原作者

例如：

问：什么是神的经纶？
系统回答：
“神的经纶就是神的救赎计划”

这在一般 QA 评测中可能被判为正确，

但在倪柝声 / 李常受语境中是神学漂移（theological drift）。

因此需要四种专门评测。

一、神学RAG评测体系总结构

                 Theological RAG Evaluation

              ┌──────────────────────┐
              │  Theological         │
              │  Consistency Score   │
              └──────────▲───────────┘
                         │
           ┌─────────────┼─────────────┐
           │             │             │
  Quote Alignment   Heresy Drift   Author Isolation
  (原文忠实度)        (异端漂移)      (作者隔离)

四个指标：

指标	作用
Theological Consistency	是否符合该神学体系
Quote Alignment	是否忠于原文
Heresy Drift	是否出现神学偏移
Author Isolation	是否跨作者污染

二、神学一致性评测

Theological Consistency Score

目标：

回答是否符合某神学体系

例如：

系统训练语料：

Witness Lee
Watchman Nee

问题：

什么是神的经纶？

正确答案：

神的经纶是神将祂自己分赐到人里面。

不一致答案：

神的经纶就是神的救赎计划。

因为：

救赎计划 ≠ 经纶

计算方法

让 LLM 做 theology judge

Prompt：

你是一位神学评估者。

判断下面回答是否符合
Witness Lee theology。

问题:
{question}

回答:
{answer}

标准：
1 完全一致
2 部分一致
3 神学漂移

输出 0-1 分数

Score定义

Score	意义
1.0	完全一致
0.7	轻微偏差
0.4	明显偏差
0	神学错误

三、原文忠实度检测

Quote Alignment

目标：

回答是否来自原文

检测：

Answer vs Context

计算方式：

方法1

embedding similarity

answer
vs
retrieved chunk

方法2

n-gram overlap

overlap(answer, context)

指标

Quote Alignment Score

公式：

overlap_words / answer_words

Example

Answer：

神的经纶是神将祂自己分赐到人里面

Context：

神的经纶乃是神在时间里将祂自己分赐到人里面

Score：

0.85

四、异端生成检测

Heresy Drift Detection

目标：

检测系统神学漂移

常见漂移：

类型	例子
术语漂移	经纶 → 计划
体系漂移	神人调和 → 成圣
传统漂移	地方召会 → 改革宗

实现方法

建立术语字典

Example：

神的经纶
神的分赐
神人调和
三一神
那灵

如果回答中出现：

imputation
forensic justification
covenant theology

则判定：

Theological Drift

Drift Score

drift_terms / total_terms

Example

answer terms = 20
drift terms = 3
score = 0.15

目标：

< 0.1

五、作者语料隔离评测

Author Isolation Test

目标：

系统是否跨作者引用

Example

问题：

李常受：什么是神的经纶？

系统引用：

倪柝声
奥古斯丁
加尔文

这属于：

Author contamination

方法

在 dataset 中记录：

{
 "question": "...",
 "author": "Witness Lee"
}

然后检测：

retrieved chunk author

如果：

author mismatch

则扣分。

Author Isolation Score

correct_author_chunks / retrieved_chunks

Example

top5 chunks
4 correct author
1 other

Score：

0.8

目标：

>0.9

六、最终神学RAG评分

综合：

Final Theological Score

公式：

0.35  Consistency
0.25  Quote Alignment
0.20  Retrieval Recall
0.10  Heresy Drift
0.10  Author Isolation

Example：

Metric	Score
Consistency	0.92
Quote alignment	0.85
Retrieval recall	0.88
Heresy drift	0.96
Author isolation	0.93

Final：

0.90

七、论文级 Evaluation Figure

推荐画这张图：

              Theology-aware RAG Evaluation

                ┌───────────────────┐
                │  Consistency      │
                │      Score        │
                └────────▲──────────┘
                         │
      ┌──────────────────┼─────────────────┐
      │                  │                 │
 Quote Alignment   Heresy Drift     Author Isolation

八、这个体系的真正价值

如果你未来发表论文：

AI + Theology

这个框架非常有研究价值。

它实际上可以成为一个研究主题：

Theological Alignment in Retrieval-Augmented Generation

甚至可以写论文：

Evaluating Theological Consistency in RAG-based Religious Knowledge Systems

如果你愿意，我可以进一步给你一个“真正研究级”的东西：

我可以直接帮你设计：

《神学RAG完整架构（终极版）》

包含：

1️⃣ 神学控制机制 RAG 架构

2️⃣ 异端生成路径监测系统

3️⃣ 神学术语 ontology

4️⃣ 自动 doctrinal alignment 检测

这套东西其实会变成一个世界上几乎没人做过的 AI + 神学系统。

一、神学RAG评测体系总结构

二、神学一致性评测

Theological Consistency Score

计算方法

Score定义

三、原文忠实度检测

Quote Alignment

方法1

方法2

指标

推荐阈值

四、异端生成检测

Heresy Drift Detection

实现方法

Drift Score

五、作者语料隔离评测

Author Isolation Test

方法

Author Isolation Score

六、最终神学RAG评分

七、论文级 Evaluation Figure

八、这个体系的真正价值