下面给你一套完整可落地的 RAG 评测模板（专门针对“属灵书籍 / 神学文本知识库”）。

这套模板可以直接用于你的《生命读经 / 倪柝声 / 李常受》RAG 系统评测。

结构包含五部分：

1️⃣ 300个标准问题生成方法

2️⃣ 自动构建 Gold Chunk 方法

3️⃣ Ragas 评测脚本

4️⃣ 完整 Evaluation Notebook 结构

5️⃣ 论文级 Evaluation Figure

一、300个标准问题生成方法

评测数据集的目标：

Dataset size
≈ 300 questions

推荐分布：

类型	数量	目的
事实问题	120	检索精度
概念解释	80	语义理解
引用原文	50	忠实度
跨段理解	30	多chunk
结构问题	20	系统理解

1 自动生成 Question

使用 LLM 从 chunk 生成问题。

Prompt：

你是一位神学研究者。

根据下面文本生成3个问题：

要求：
1 问题必须能通过该段回答
2 问题必须具体
3 不要引用句子

文本：
{chunk}

Example：

chunk：

神的经纶乃是神在时间里将祂自己分赐到人里面。

生成：

Q1 什么是神的经纶？
Q2 神的经纶与神的分赐有什么关系？
Q3 神的经纶的核心内容是什么？

2 QA Dataset JSON格式

{
 "question": "...",
 "gold_answer": "...",
 "gold_chunk_id": "...",
 "source": "生命读经-约翰福音"
}

Example：

{
 "question": "什么是神的经纶？",
 "gold_answer": "神的经纶是神在时间里将祂自己分赐到人里面。",
 "gold_chunk_id": "chunk_134"
}

二、自动构建 Gold Chunk 方法

Gold chunk 用于评测 retrieval。

方法：

chunk
→ LLM生成问题
→ chunk = gold context

Pipeline：

document
 ↓
chunking
 ↓
question generation
 ↓
gold dataset

Python 示例

dataset = []

for chunk in chunks:
    questions = generate_questions(chunk)

    for q in questions:
        dataset.append({
            "question": q,
            "gold_chunk": chunk
        })

三、RAGAS评测脚本

使用：

Ragas

它可以自动计算：

context_precision
context_recall
faithfulness
answer_relevancy

安装

pip install ragas

Dataset格式

from datasets import Dataset

data = {
    "question": [],
    "answer": [],
    "contexts": [],
    "ground_truth": []
}

dataset = Dataset.from_dict(data)

评测代码

from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
)

result = evaluate(
    dataset,
    metrics=[
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall
    ]
)

print(result)

输出：

Faithfulness: 0.93
Answer Relevancy: 0.91
Context Recall: 0.89
Context Precision: 0.87

四、完整 Evaluation Notebook

Notebook 1

生成问题

documents
↓
chunk
↓
generate questions
↓
dataset.json

Notebook 2

运行RAG

dataset questions
↓
retriever
↓
generator
↓
answers

输出：

prediction.json

Notebook 3

RAGAS评测

prediction
+
gold dataset
↓
ragas evaluate

输出：

metrics.json

Notebook 4

可视化

recall curve
hallucination rate
error analysis

五、论文级 Evaluation Figure

推荐三张图。

Figure 1 RAG evaluation pipeline

Corpus
 ↓
Chunking
 ↓
Retriever
 ↓
Top-k chunks
 ↓
Generator
 ↓
Answer
 ↓
Evaluation

Figure 2 Retrieval Performance

Recall@k curve

Recall
1.0 |            *
0.9 |        *
0.8 |    *
0.7 | *
    +------------------
      1 3 5 10

Figure 3 RAG metric radar

        Faithfulness
            ▲
            |
 Context ◄──┼──► Answer relevance
 Precision  |
            ▼
        Context recall

六、RAG评测目标值（成熟系统）

建议目标：

Metric	Target
Recall@5	>0.85
MRR	>0.7
Faithfulness	>0.9
Answer relevance	>0.88

七、属灵书籍RAG的特殊评测

建议增加三项：

1 原文引用率

Answer overlap with context

目标：

> 70%

2 幻觉率

Hallucination rate

目标：

<5%

3 作者一致性

例如：

李常受问题
只允许引用李常受

避免：

跨作者混入

八、最终评测流程（标准版）

完整 pipeline：

Corpus
 ↓
Chunking
 ↓
Question Generation
 ↓
Gold Dataset (300 QA)
 ↓
Run RAG
 ↓
Prediction
 ↓
RAGAS evaluation
 ↓
Metric report

如果你愿意，我可以再给你一个更高级的版本（研究级 RAG 评测框架）：

我可以直接帮你设计一套 “神学 RAG 专用评测体系”，包含：

1️⃣ 神学一致性评测（Theological Consistency Score）

2️⃣ 原文忠实度检测（Quote Alignment）

3️⃣ 异端生成检测（Heresy Drift Detection）

4️⃣ 作者语料隔离评测

这套评测框架其实非常适合你的倪柝声 / 李常受 RAG 项目，甚至可以直接写成一篇 AI + Theology 的研究论文。