下面给你一套 完整可落地的 RAG 评测模板(专门针对“属灵书籍 / 神学文本知识库”)。

这套模板可以直接用于你的 《生命读经 / 倪柝声 / 李常受》RAG 系统评测。

结构包含五部分:

1️⃣ 300个标准问题生成方法

2️⃣ 自动构建 Gold Chunk 方法

3️⃣ Ragas 评测脚本

4️⃣ 完整 Evaluation Notebook 结构

5️⃣ 论文级 Evaluation Figure

 


 

 

一、300个标准问题生成方法

 

评测数据集的目标:

Dataset size
≈ 300 questions

推荐分布:

类型 数量 目的
事实问题 120 检索精度
概念解释 80 语义理解
引用原文 50 忠实度
跨段理解 30 多chunk
结构问题 20 系统理解

 


 

 

1 自动生成 Question

 

使用 LLM 从 chunk 生成问题。

Prompt:

你是一位神学研究者。

根据下面文本生成3个问题:

要求:
1 问题必须能通过该段回答
2 问题必须具体
3 不要引用句子

文本:
{chunk}

Example:

chunk:

神的经纶乃是神在时间里将祂自己分赐到人里面。

生成:

Q1 什么是神的经纶?
Q2 神的经纶与神的分赐有什么关系?
Q3 神的经纶的核心内容是什么?

 


 

 

2 QA Dataset JSON格式

 

{
 "question": "...",
 "gold_answer": "...",
 "gold_chunk_id": "...",
 "source": "生命读经-约翰福音"
}

Example:

{
 "question": "什么是神的经纶?",
 "gold_answer": "神的经纶是神在时间里将祂自己分赐到人里面。",
 "gold_chunk_id": "chunk_134"
}

 


 

 

二、自动构建 Gold Chunk 方法

 

Gold chunk 用于评测 retrieval。

方法:

chunk
→ LLM生成问题
→ chunk = gold context

Pipeline:

document
 ↓
chunking
 ↓
question generation
 ↓
gold dataset

 


 

 

Python 示例

 

dataset = []

for chunk in chunks:
    questions = generate_questions(chunk)

    for q in questions:
        dataset.append({
            "question": q,
            "gold_chunk": chunk
        })

 


 

 

三、RAGAS评测脚本

 

使用:

Ragas

它可以自动计算:

context_precision
context_recall
faithfulness
answer_relevancy

 


 

 

安装

 

pip install ragas

 


 

 

Dataset格式

 

from datasets import Dataset

data = {
    "question": [],
    "answer": [],
    "contexts": [],
    "ground_truth": []
}

dataset = Dataset.from_dict(data)

 


 

 

评测代码

 

from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall
)

result = evaluate(
    dataset,
    metrics=[
        faithfulness,
        answer_relevancy,
        context_precision,
        context_recall
    ]
)

print(result)

输出:

Faithfulness: 0.93
Answer Relevancy: 0.91
Context Recall: 0.89
Context Precision: 0.87

 


 

 

四、完整 Evaluation Notebook

 

推荐 Notebook 结构:

01_build_dataset.ipynb
02_run_rag_pipeline.ipynb
03_ragas_evaluation.ipynb
04_analysis.ipynb

 


 

 

Notebook 1

 

生成问题

documents
↓
chunk
↓
generate questions
↓
dataset.json

 


 

 

Notebook 2

 

运行RAG

dataset questions
↓
retriever
↓
generator
↓
answers

输出:

prediction.json

 


 

 

Notebook 3

 

RAGAS评测

prediction
+
gold dataset
↓
ragas evaluate

输出:

metrics.json

 


 

 

Notebook 4

 

可视化

recall curve
hallucination rate
error analysis

 


 

 

五、论文级 Evaluation Figure

 

推荐三张图。

 


 

 

Figure 1 RAG evaluation pipeline

 

Corpus
 ↓
Chunking
 ↓
Retriever
 ↓
Top-k chunks
 ↓
Generator
 ↓
Answer
 ↓
Evaluation

 


 

 

Figure 2 Retrieval Performance

 

Recall@k curve
Recall
1.0 |            *
0.9 |        *
0.8 |    *
0.7 | *
    +------------------
      1 3 5 10

 


 

 

Figure 3 RAG metric radar

 

        Faithfulness
            ▲
            |
 Context ◄──┼──► Answer relevance
 Precision  |
            ▼
        Context recall

 


 

 

六、RAG评测目标值(成熟系统)

 

建议目标:

Metric Target
Recall@5 >0.85
MRR >0.7
Faithfulness >0.9
Answer relevance >0.88

 


 

 

七、属灵书籍RAG的特殊评测

 

建议增加三项:

 

1 原文引用率

 

Answer overlap with context

目标:

> 70%

 


 

 

2 幻觉率

 

Hallucination rate

目标:

<5%

 


 

 

3 作者一致性

 

例如:

李常受问题
只允许引用李常受

避免:

跨作者混入

 


 

 

八、最终评测流程(标准版)

 

完整 pipeline:

Corpus
 ↓
Chunking
 ↓
Question Generation
 ↓
Gold Dataset (300 QA)
 ↓
Run RAG
 ↓
Prediction
 ↓
RAGAS evaluation
 ↓
Metric report

 


 

💡 如果你愿意,我可以再给你一个更高级的版本(研究级 RAG 评测框架):

我可以直接帮你设计一套 “神学 RAG 专用评测体系”,包含:

1️⃣ 神学一致性评测(Theological Consistency Score)

2️⃣ 原文忠实度检测(Quote Alignment)

3️⃣ 异端生成检测(Heresy Drift Detection)

4️⃣ 作者语料隔离评测

这套评测框架其实 非常适合你的倪柝声 / 李常受 RAG 项目,甚至可以直接写成一篇 AI + Theology 的研究论文。