下面给你一套 “神学 RAG 专用评测体系(Theological RAG Evaluation Framework)”。

 

这是一种 比普通RAG评测更高级的体系,专门针对 神学、属灵著作、系统神学文本。

它解决一个普通RAG评测无法解决的问题:

回答虽然正确
但神学上不忠于原作者

例如:

问:什么是神的经纶?
系统回答:
“神的经纶就是神的救赎计划”

这在一般 QA 评测中 可能被判为正确,

但在 倪柝声 / 李常受语境中是 神学漂移(theological drift)。

因此需要四种专门评测。

 


 

 

一、神学RAG评测体系总结构

 

                 Theological RAG Evaluation

              ┌──────────────────────┐
              │  Theological         │
              │  Consistency Score   │
              └──────────▲───────────┘
                         │
           ┌─────────────┼─────────────┐
           │             │             │
  Quote Alignment   Heresy Drift   Author Isolation
  (原文忠实度)        (异端漂移)      (作者隔离)

四个指标:

指标 作用
Theological Consistency 是否符合该神学体系
Quote Alignment 是否忠于原文
Heresy Drift 是否出现神学偏移
Author Isolation 是否跨作者污染

 


 

 

二、神学一致性评测

 

 

Theological Consistency Score

 

目标:

回答是否符合某神学体系

例如:

系统训练语料:

Witness Lee
Watchman Nee

问题:

什么是神的经纶?

正确答案:

神的经纶是神将祂自己分赐到人里面。

不一致答案:

神的经纶就是神的救赎计划。

因为:

救赎计划 ≠ 经纶

 


 

 

计算方法

 

让 LLM 做 theology judge

Prompt:

你是一位神学评估者。

判断下面回答是否符合
Witness Lee theology。

问题:
{question}

回答:
{answer}

标准:
1 完全一致
2 部分一致
3 神学漂移

输出 0-1 分数

 


 

 

Score定义

 

Score 意义
1.0 完全一致
0.7 轻微偏差
0.4 明显偏差
0 神学错误

 


 

 

三、原文忠实度检测

 

 

Quote Alignment

 

目标:

回答是否来自原文

检测:

Answer vs Context

计算方式:

 

方法1

 

embedding similarity

answer
vs
retrieved chunk

 

方法2

 

n-gram overlap

overlap(answer, context)

 


 

 

指标

 

Quote Alignment Score

公式:

overlap_words / answer_words

Example

Answer:

神的经纶是神将祂自己分赐到人里面

Context:

神的经纶乃是神在时间里将祂自己分赐到人里面

Score:

0.85

 


 

 

推荐阈值

 

Score 解释

0.7 | 忠实 |

0.4–0.7 | 解释 |

<0.4 | 幻觉 |

 


 

 

四、异端生成检测

 

 

Heresy Drift Detection

 

目标:

检测 系统神学漂移

常见漂移:

类型 例子
术语漂移 经纶 → 计划
体系漂移 神人调和 → 成圣
传统漂移 地方召会 → 改革宗

 


 

 

实现方法

 

建立 术语字典

Example:

神的经纶
神的分赐
神人调和
三一神
那灵

如果回答中出现:

imputation
forensic justification
covenant theology

则判定:

Theological Drift

 


 

 

Drift Score

 

drift_terms / total_terms

Example

answer terms = 20
drift terms = 3
score = 0.15

目标:

< 0.1

 


 

 

五、作者语料隔离评测

 

 

Author Isolation Test

 

目标:

系统是否跨作者引用

Example

问题:

李常受:什么是神的经纶?

系统引用:

倪柝声
奥古斯丁
加尔文

这属于:

Author contamination

 


 

 

方法

 

在 dataset 中记录:

{
 "question": "...",
 "author": "Witness Lee"
}

然后检测:

retrieved chunk author

如果:

author mismatch

则扣分。

 


 

 

Author Isolation Score

 

correct_author_chunks / retrieved_chunks

Example

top5 chunks
4 correct author
1 other

Score:

0.8

目标:

>0.9

 


 

 

六、最终神学RAG评分

 

综合:

Final Theological Score

公式:

0.35  Consistency
0.25  Quote Alignment
0.20  Retrieval Recall
0.10  Heresy Drift
0.10  Author Isolation

 


 

Example:

Metric Score
Consistency 0.92
Quote alignment 0.85
Retrieval recall 0.88
Heresy drift 0.96
Author isolation 0.93

Final:

0.90

 


 

 

七、论文级 Evaluation Figure

 

推荐画这张图:

              Theology-aware RAG Evaluation

                ┌───────────────────┐
                │  Consistency      │
                │      Score        │
                └────────▲──────────┘
                         │
      ┌──────────────────┼─────────────────┐
      │                  │                 │
 Quote Alignment   Heresy Drift     Author Isolation

 


 

 

八、这个体系的真正价值

 

如果你未来发表论文:

AI + Theology

这个框架非常有研究价值。

它实际上可以成为一个研究主题:

Theological Alignment in Retrieval-Augmented Generation

甚至可以写论文:

Evaluating Theological Consistency in RAG-based Religious Knowledge Systems

 


 

如果你愿意,我可以 进一步给你一个“真正研究级”的东西:

我可以直接帮你设计:

《神学RAG完整架构(终极版)》

包含:

1️⃣ 神学控制机制 RAG 架构

2️⃣ 异端生成路径监测系统

3️⃣ 神学术语 ontology

4️⃣ 自动 doctrinal alignment 检测

这套东西其实会变成一个 世界上几乎没人做过的 AI + 神学系统。