RAG(Retrieval-Augmented Generation)系统上线前后的**评测(evaluation)**非常关键。一个成熟的评测体系通常分为 四层:检索层 → 生成层 → 端到端 → 系统级。这样可以准确定位问题到底出在 R(retrieval)还是 G(generation)。

下面给你一套 研究级 + 工程可落地的 RAG 评测框架。

 


 

 

一、RAG评测的四层结构

 

              ┌──────────────────────┐
              │   End-to-End QA      │
              │  (最终回答质量)       │
              └─────────▲────────────┘
                        │
             ┌──────────┴─────────┐
             │    Generation      │
             │    (生成质量)      │
             └──────────▲─────────┘
                        │
             ┌──────────┴─────────┐
             │     Retrieval      │
             │     (检索质量)     │
             └──────────▲─────────┘
                        │
             ┌──────────┴─────────┐
             │     Corpus/Data    │
             │     (数据质量)     │
             └────────────────────┘

在你做 属灵书籍 RAG(例如生命读经) 时,这四层非常重要。

 


 

 

二、第一层:Retrieval(检索评测)

 

这是 RAG最核心的评测。

目标:

是否检索到了正确的原文

常用指标:

指标 含义
Recall@k 前k条是否包含正确chunk
Precision@k 前k条中正确比例
MRR 平均倒数排名
nDCG 排序质量

示例:

Query:

“神的经纶是什么?”

正确chunk:

神的经纶乃是神在时间里将祂自己分赐到人里面。

检索结果:

1 chunkA ❌
2 chunkB ❌
3 chunkC ✅

那么:

Recall@3 = 1
MRR = 1/3

 


 

 

推荐目标值

 

RAG系统一般目标:

Recall@5  > 0.85
Recall@10 > 0.95
MRR       > 0.7

如果达不到:

通常问题在:

 

  • chunk切分
  • embedding模型
  • rerank模型

 

 


 

 

三、第二层:Generation(生成评测)

 

目标:

模型是否 忠于检索内容

主要测两个问题:

 

1 是否幻觉

 

即:

回答是否来自context

指标:

指标 说明
Faithfulness 是否忠于原文
Hallucination rate 幻觉比例
Attribution 是否引用来源

 


 

 

示例

 

Context:

神的经纶是神将自己分赐到人里面。

回答A:

神的经纶就是神在时间里把自己分赐到人里面。

✔ Faithful

回答B:

神的经纶就是神的救赎计划。

⚠ 部分幻觉

 


 

 

四、第三层:End-to-End QA评测

 

直接评测:

Question → Final Answer

指标:

指标 说明
Exact Match 完全匹配
F1 语义重合
LLM-as-Judge LLM评分

例如:

评分维度:

正确性
完整性
忠实度
引用

评分:

0–5

 


 

 

五、第四层:系统级评测

 

评测 工程性能:

指标 目标
latency < 3s
cost 每query成本
throughput QPS
stability 错误率

 


 

 

六、RAG评测数据集(最关键)

 

必须建立 Gold QA dataset

例如:

200~500个问题

结构:

{
 question
 gold_answer
 gold_chunk
}

示例:

Q:
什么是神的经纶?

Gold chunk:
神的经纶乃是神在时间里将祂自己分赐到人里面。

Gold answer:
神的经纶就是神在时间里将祂自己分赐到人里面。

 


 

 

七、RAG评测工具(推荐)

 

目前最常用的是三个。

 


 

 

1

Ragas

 

RAG评测最流行工具。

指标自动算:

context precision
context recall
faithfulness
answer relevancy

示例:

ragas.evaluate()

输出:

Faithfulness: 0.92
Answer relevancy: 0.88
Context recall: 0.90

 


 

 

2

LangSmith

 

用于:

RAG tracing
LLM judge
evaluation dataset

优点:

可视化 pipeline

 


 

 

3

DeepEval

 

类似:

pytest for LLM

支持:

hallucination test
retrieval test
bias test

 


 

 

八、RAG评测完整流程(工程标准)

 

一个成熟流程如下:

Step1
建立 QA dataset
(200 questions)

Step2
评测 retrieval

Step3
评测 generation

Step4
端到端 QA

Step5
LLM judge

Step6
人工抽检

 


 

 

九、你这个“属灵书籍RAG”的特别评测

 

针对 生命读经类系统,建议加三条:

 

1 原文忠实度

 

回答必须:

≥80%来自原文

 


 

 

2 不跨作者

 

例如:

李常受问题
不能引用倪柝声

 


 

 

3 神学一致性

 

避免:

系统神学混入

例如:

改革宗解释

 


 

 

十、最专业的RAG评测结构(论文级)

 

研究界现在常用的结构:

RAG Evaluation

1 Retrieval Quality
   Recall@k
   MRR
   nDCG

2 Generation Quality
   Faithfulness
   Relevance

3 End-to-End QA
   EM
   F1
   LLM Judge

4 System Metrics
   Latency
   Cost
   Throughput

 


 

 

十一、一个真实RAG评测表

 

示例:

Metric Score
Recall@5 0.91
MRR 0.78
Faithfulness 0.93
Answer Relevance 0.89
Hallucination 3%

 


 

 

十二、RAG评测最容易忽略的问题

 

经验总结:

 

1 QA数据太少

 

必须:

≥200

 


 

 

2 不分Retrieval和Generation

 

必须 拆开测

 


 

 

3 不做对比

 

至少要比较:

embedding模型
chunk策略
rerank模型

 


 

 

十三、一个高级做法(A/B实验)

 

例如:

方案A
embedding = bge-large

方案B
embedding = jina-embedding

评测:

Metric A B
Recall@5 0.89 0.94

 


 

 

十四、如果是论文级RAG系统

 

评测通常包括:

Baseline
BM25
Embedding
Embedding+rerank
RAG

 


 

如果你愿意,我可以 直接给你一套“RAG评测模板”(非常适合你现在的属灵书籍知识库):

包括:

1️⃣ 300个标准问题生成方法

2️⃣ 自动构建 Gold Chunk 方法

3️⃣ RAGAS评测脚本

4️⃣ 完整 evaluation notebook

5️⃣ 论文级 evaluation figure

这样你的 RAG系统可以达到研究级评测标准。