下面给你一套 “神学 RAG 专用评测体系(Theological RAG Evaluation Framework)”。
这是一种 比普通RAG评测更高级的体系,专门针对 神学、属灵著作、系统神学文本。
它解决一个普通RAG评测无法解决的问题:
回答虽然正确
但神学上不忠于原作者
例如:
问:什么是神的经纶?
系统回答:
“神的经纶就是神的救赎计划”
这在一般 QA 评测中 可能被判为正确,
但在 倪柝声 / 李常受语境中是 神学漂移(theological drift)。
因此需要四种专门评测。
一、神学RAG评测体系总结构
Theological RAG Evaluation
┌──────────────────────┐
│ Theological │
│ Consistency Score │
└──────────▲───────────┘
│
┌─────────────┼─────────────┐
│ │ │
Quote Alignment Heresy Drift Author Isolation
(原文忠实度) (异端漂移) (作者隔离)
四个指标:
| 指标 | 作用 |
|---|---|
| Theological Consistency | 是否符合该神学体系 |
| Quote Alignment | 是否忠于原文 |
| Heresy Drift | 是否出现神学偏移 |
| Author Isolation | 是否跨作者污染 |
二、神学一致性评测
Theological Consistency Score
目标:
回答是否符合某神学体系
例如:
系统训练语料:
Witness Lee
Watchman Nee
问题:
什么是神的经纶?
正确答案:
神的经纶是神将祂自己分赐到人里面。
不一致答案:
神的经纶就是神的救赎计划。
因为:
救赎计划 ≠ 经纶
计算方法
让 LLM 做 theology judge
Prompt:
你是一位神学评估者。
判断下面回答是否符合
Witness Lee theology。
问题:
{question}
回答:
{answer}
标准:
1 完全一致
2 部分一致
3 神学漂移
输出 0-1 分数
Score定义
| Score | 意义 |
|---|---|
| 1.0 | 完全一致 |
| 0.7 | 轻微偏差 |
| 0.4 | 明显偏差 |
| 0 | 神学错误 |
三、原文忠实度检测
Quote Alignment
目标:
回答是否来自原文
检测:
Answer vs Context
计算方式:
方法1
embedding similarity
answer
vs
retrieved chunk
方法2
n-gram overlap
overlap(answer, context)
指标
Quote Alignment Score
公式:
overlap_words / answer_words
Example
Answer:
神的经纶是神将祂自己分赐到人里面
Context:
神的经纶乃是神在时间里将祂自己分赐到人里面
Score:
0.85
推荐阈值
| Score | 解释 |
|---|
0.7 | 忠实 |
0.4–0.7 | 解释 |
<0.4 | 幻觉 |
四、异端生成检测
Heresy Drift Detection
目标:
检测 系统神学漂移
常见漂移:
| 类型 | 例子 |
|---|---|
| 术语漂移 | 经纶 → 计划 |
| 体系漂移 | 神人调和 → 成圣 |
| 传统漂移 | 地方召会 → 改革宗 |
实现方法
建立 术语字典
Example:
神的经纶
神的分赐
神人调和
三一神
那灵
如果回答中出现:
imputation
forensic justification
covenant theology
则判定:
Theological Drift
Drift Score
drift_terms / total_terms
Example
answer terms = 20
drift terms = 3
score = 0.15
目标:
< 0.1
五、作者语料隔离评测
Author Isolation Test
目标:
系统是否跨作者引用
Example
问题:
李常受:什么是神的经纶?
系统引用:
倪柝声
奥古斯丁
加尔文
这属于:
Author contamination
方法
在 dataset 中记录:
{
"question": "...",
"author": "Witness Lee"
}
然后检测:
retrieved chunk author
如果:
author mismatch
则扣分。
Author Isolation Score
correct_author_chunks / retrieved_chunks
Example
top5 chunks
4 correct author
1 other
Score:
0.8
目标:
>0.9
六、最终神学RAG评分
综合:
Final Theological Score
公式:
0.35 Consistency
0.25 Quote Alignment
0.20 Retrieval Recall
0.10 Heresy Drift
0.10 Author Isolation
Example:
| Metric | Score |
|---|---|
| Consistency | 0.92 |
| Quote alignment | 0.85 |
| Retrieval recall | 0.88 |
| Heresy drift | 0.96 |
| Author isolation | 0.93 |
Final:
0.90
七、论文级 Evaluation Figure
推荐画这张图:
Theology-aware RAG Evaluation
┌───────────────────┐
│ Consistency │
│ Score │
└────────▲──────────┘
│
┌──────────────────┼────────── ───────┐
│ │ │
Quote Alignment Heresy Drift Author Isolation
八、这个体系的真正价值
如果你未来发表论文:
AI + Theology
这个框架非常有研究价值。
它实际上可以成为一个研究主题:
Theological Alignment in Retrieval-Augmented Generation
甚至可以写论文:
Evaluating Theological Consistency in RAG-based Religious Knowledge Systems
如果你愿意,我可以 进一步给你一个“真正研究级”的东西:
我可以直接帮你设计:
《神学RAG完整架构(终极版)》
包含:
神学控制机制 RAG 架构
异端生成路径监测系统
神学术语 ontology
自动 doctrinal alignment 检测
这套东西其实会变成一个 世界上几乎没人做过的 AI + 神学系统。