下面给你一套 完整可落地的 RAG 评测模板(专门针对“属灵书籍 / 神学文本知识库”)。
这套模板可以直接用于你的 《生命读经 / 倪柝声 / 李常受》RAG 系统评测。
结构包含五部分:
300个标准问题生成方法
自动构建 Gold Chunk 方法
Ragas 评测脚本
完整 Evaluation Notebook 结构
论文级 Evaluation Figure
一、300个标准问题生成方法
评测数据集的目标:
Dataset size
≈ 300 questions
推荐分布:
| 类型 | 数量 | 目的 |
|---|---|---|
| 事实问题 | 120 | 检索精度 |
| 概念解释 | 80 | 语义理解 |
| 引用原文 | 50 | 忠实度 |
| 跨段理解 | 30 | 多chunk |
| 结构问题 | 20 | 系统理解 |
1 自动生成 Question
使用 LLM 从 chunk 生成问题。
Prompt:
你是一位神学研究者。
根据下面文本生成3个问题:
要求:
1 问题必须能通过该段回答
2 问题必须具体
3 不要引用句子
文本:
{chunk}
Example:
chunk:
神的经纶乃是神在时间里将祂自己分赐到人里面。
生成:
Q1 什么是神的经纶?
Q2 神的经纶与神的分赐有什么关系?
Q3 神的经纶的核心内容是什么?
2 QA Dataset JSON格式
{
"question": "...",
"gold_answer": "...",
"gold_chunk_id": "...",
"source": "生命读经-约翰福音"
}
Example:
{
"question": "什么是神的经纶?",
"gold_answer": "神的经纶是神在时间里将祂自己分赐到人里面。",
"gold_chunk_id": "chunk_134"
}
二、自动构建 Gold Chunk 方法
Gold chunk 用于评测 retrieval。
方法:
chunk
→ LLM生成问题
→ chunk = gold context
Pipeline:
document
↓
chunking
↓
question generation
↓
gold dataset
Python 示例
dataset = []
for chunk in chunks:
questions = generate_questions(chunk)
for q in questions:
dataset.append({
"question": q,
"gold_chunk": chunk
})
三、RAGAS评测脚本
使用:
Ragas
它可以自动计算:
context_precision
context_recall
faithfulness
answer_relevancy
安装
pip install ragas
Dataset格式
from datasets import Dataset
data = {
"question": [],
"answer": [],
"contexts": [],
"ground_truth": []
}
dataset = Dataset.from_dict(data)
评测代码
from ragas import evaluate
from ragas.metrics import (
faithfulness,
answer_relevancy,
context_precision,
context_recall
)
result = evaluate(
dataset,
metrics=[
faithfulness,
answer_relevancy,
context_precision,
context_recall
]
)
print(result)
输出:
Faithfulness: 0.93
Answer Relevancy: 0.91
Context Recall: 0.89
Context Precision: 0.87
四、完整 Evaluation Notebook
推荐 Notebook 结构:
01_build_dataset.ipynb
02_run_rag_pipeline.ipynb
03_ragas_evaluation.ipynb
04_analysis.ipynb
Notebook 1
生成问题
documents
↓
chunk
↓
generate questions
↓
dataset.json
Notebook 2
运行RAG
dataset questions
↓
retriever
↓
generator
↓
answers
输出:
prediction.json
Notebook 3
RAGAS评测
prediction
+
gold dataset
↓
ragas evaluate
输出:
metrics.json
Notebook 4
可视化
recall curve
hallucination rate
error analysis
五、论文级 Evaluation Figure
推荐三张图。
Figure 1 RAG evaluation pipeline
Corpus
↓
Chunking
↓
Retriever
↓
Top-k chunks
↓
Generator
↓
Answer
↓
Evaluation
Figure 2 Retrieval Performance
Recall@k curve
Recall
1.0 | *
0.9 | *
0.8 | *
0.7 | *
+------------------
1 3 5 10
Figure 3 RAG metric radar
Faithfulness
▲
|
Context ◄──┼──► Answer relevance
Precision |
▼
Context recall
六、RAG评测目标值(成熟系统)
建议目标:
| Metric | Target |
|---|---|
| Recall@5 | >0.85 |
| MRR | >0.7 |
| Faithfulness | >0.9 |
| Answer relevance | >0.88 |
七、属灵书籍RAG的特殊评测
建议增加三项:
1 原文引用率
Answer overlap with context
目标:
> 70%
2 幻觉率
Hallucination rate
目标:
<5%
3 作者一致性
例如:
李常受问题
只允许引用李常受
避免:
跨作者混入
八、最终评测流程(标准版)
完整 pipeline:
Corpus
↓
Chunking
↓
Question Generation
↓
Gold Dataset (300 QA)
↓
Run RAG
↓
Prediction
↓
RAGAS evaluation
↓
Metric report
如果你愿意,我可以再给你一个更高级的版本(研究级 RAG 评测框架):
我可以直接帮你设计一套 “神学 RAG 专用评测体系”,包含:
神学一致性评测(Theological Consistency Score)
原文忠实度检测(Quote Alignment)
异端生成检测(Heresy Drift Detection)
作者语料隔离评测
这套评测框架其实 非常适合你的倪柝声 / 李常受 RAG 项目,甚至可以直接写成一篇 AI + Theology 的研究论文。