RAG（Retrieval-Augmented Generation）系统上线前后的**评测（evaluation）**非常关键。一个成熟的评测体系通常分为四层：检索层 → 生成层 → 端到端 → 系统级。这样可以准确定位问题到底出在 R（retrieval）还是 G（generation）。

下面给你一套研究级 + 工程可落地的 RAG 评测框架。

一、RAG评测的四层结构

              ┌──────────────────────┐
              │   End-to-End QA      │
              │  (最终回答质量)       │
              └─────────▲────────────┘
                        │
             ┌──────────┴─────────┐
             │    Generation      │
             │    (生成质量)      │
             └──────────▲─────────┘
                        │
             ┌──────────┴─────────┐
             │     Retrieval      │
             │     (检索质量)     │
             └──────────▲─────────┘
                        │
             ┌──────────┴─────────┐
             │     Corpus/Data    │
             │     (数据质量)     │
             └────────────────────┘

在你做属灵书籍 RAG（例如生命读经）时，这四层非常重要。

二、第一层：Retrieval（检索评测）

这是 RAG最核心的评测。

目标：

是否检索到了正确的原文

常用指标：

指标	含义
Recall@k	前k条是否包含正确chunk
Precision@k	前k条中正确比例
MRR	平均倒数排名
nDCG	排序质量

示例：

Query：

“神的经纶是什么？”

正确chunk：

神的经纶乃是神在时间里将祂自己分赐到人里面。

检索结果：

1 chunkA 
2 chunkB 
3 chunkC

那么：

Recall@3 = 1
MRR = 1/3

三、第二层：Generation（生成评测）

目标：

模型是否忠于检索内容

主要测两个问题：

1 是否幻觉

即：

回答是否来自context

指标：

指标	说明
Faithfulness	是否忠于原文
Hallucination rate	幻觉比例
Attribution	是否引用来源

示例

Context：

神的经纶是神将自己分赐到人里面。

回答A：

神的经纶就是神在时间里把自己分赐到人里面。

Faithful

回答B：

神的经纶就是神的救赎计划。

部分幻觉

四、第三层：End-to-End QA评测

直接评测：

Question → Final Answer

指标：

指标	说明
Exact Match	完全匹配
F1	语义重合
LLM-as-Judge	LLM评分

例如：

评分维度：

正确性
完整性
忠实度
引用

评分：

0–5

五、第四层：系统级评测

评测工程性能：

指标	目标
latency	< 3s
cost	每query成本
throughput	QPS
stability	错误率

六、RAG评测数据集（最关键）

必须建立 Gold QA dataset

例如：

200~500个问题

结构：

{
 question
 gold_answer
 gold_chunk
}

示例：

Q:
什么是神的经纶？

Gold chunk:
神的经纶乃是神在时间里将祂自己分赐到人里面。

Gold answer:
神的经纶就是神在时间里将祂自己分赐到人里面。

七、RAG评测工具（推荐）

目前最常用的是三个。

1 Ragas

RAG评测最流行工具。

指标自动算：

context precision
context recall
faithfulness
answer relevancy

示例：

ragas.evaluate()

输出：

Faithfulness: 0.92
Answer relevancy: 0.88
Context recall: 0.90

2 LangSmith

用于：

RAG tracing
LLM judge
evaluation dataset

优点：

可视化 pipeline

3 DeepEval

类似：

pytest for LLM

支持：

hallucination test
retrieval test
bias test

八、RAG评测完整流程（工程标准）

一个成熟流程如下：

Step1
建立 QA dataset
(200 questions)

Step2
评测 retrieval

Step3
评测 generation

Step4
端到端 QA

Step5
LLM judge

Step6
人工抽检

九、你这个“属灵书籍RAG”的特别评测

针对生命读经类系统，建议加三条：

1 原文忠实度

回答必须：

≥80%来自原文

2 不跨作者

例如：

李常受问题
不能引用倪柝声

3 神学一致性

避免：

系统神学混入

例如：

改革宗解释

十、最专业的RAG评测结构（论文级）

研究界现在常用的结构：

RAG Evaluation

1 Retrieval Quality
   Recall@k
   MRR
   nDCG

2 Generation Quality
   Faithfulness
   Relevance

3 End-to-End QA
   EM
   F1
   LLM Judge

4 System Metrics
   Latency
   Cost
   Throughput

十一、一个真实RAG评测表

示例：

Metric	Score
Recall@5	0.91
MRR	0.78
Faithfulness	0.93
Answer Relevance	0.89
Hallucination	3%

十二、RAG评测最容易忽略的问题

经验总结：

1 QA数据太少

必须：

≥200

2 不分Retrieval和Generation

必须拆开测

3 不做对比

至少要比较：

embedding模型
chunk策略
rerank模型

十三、一个高级做法（A/B实验）

例如：

方案A
embedding = bge-large

方案B
embedding = jina-embedding

评测：

Metric	A	B
Recall@5	0.89	0.94

十四、如果是论文级RAG系统

评测通常包括：

Baseline
BM25
Embedding
Embedding+rerank
RAG

如果你愿意，我可以直接给你一套“RAG评测模板”（非常适合你现在的属灵书籍知识库）：

包括：

1️⃣ 300个标准问题生成方法

2️⃣ 自动构建 Gold Chunk 方法

3️⃣ RAGAS评测脚本

4️⃣ 完整 evaluation notebook

5️⃣ 论文级 evaluation figure

这样你的 RAG系统可以达到研究级评测标准。