RAG(Retrieval-Augmented Generation)系统上线前后的**评测(
下面给你一套 研究级 + 工程可落地的 RAG 评测框架。
一、RAG评测的四层结构
┌──────────────────────┐
│ End-to-End QA │
│ (最终回答质量) │
└─────────▲────────────┘
│
┌──────────┴─────────┐
│ Generation │
│ (生成质量) │
└──────────▲─────────┘
│
┌──────────┴─────────┐
│ Retrieval │
│ (检索质量) │
└──────────▲─────────┘
│
┌──────────┴─────────┐
│ Corpus/Data │
│ (数据质量) │
└────────────────────┘
在你做 属灵书籍 RAG(例如生命读经) 时,这四层非常重要。
二、第一层:Retrieval(检索评测)
这是 RAG最核心的评测。
目标:
是否检索到了正确的原文
常用指标:
| 指标 | 含义 |
|---|---|
| Recall@k | 前k条是否包含正确chunk |
| Precision@k | 前k条中正确比例 |
| MRR | 平均倒数排名 |
| nDCG | 排序质量 |
示例:
Query:
“神的经纶是什么?”
正确chunk:
神的经纶乃是神在时间里将祂自己分赐到人里面。
检索结果:
1 chunkA
2 chunkB
3 chunkC 
那么:
Recall@3 = 1
MRR = 1/3
推荐目标值
RAG系统一般目标:
Recall@5 > 0.85
Recall@10 > 0.95
MRR > 0.7
如果达不到:
通常问题在:
- chunk切分
- embedding模型
- rerank模型
三、第二层:Generation(生成评测)
目标:
模型是否 忠于检索内容
主要测两个问题:
1 是否幻觉
即:
回答是否来自context
指标:
| 指标 | 说明 |
|---|---|
| Faithfulness | 是否忠于原文 |
| Hallucination rate | 幻觉比例 |
| Attribution | 是否引用来源 |
示例
Context:
神的经纶是神将自己分赐到人里面。
回答A:
神的经纶就是神在时间里把自己分赐到人里面。
Faithful
回答B:
神的经纶就是神的救赎计划。
部分幻觉
四、第三层:End-to-End QA评测
直接评测:
Question → Final Answer
指标:
| 指标 | 说明 |
|---|---|
| Exact Match | 完全匹配 |
| F1 | 语义重合 |
| LLM-as-Judge | LLM评分 |
例如:
评分维度:
正确性
完整性
忠实度
引用
评分:
0–5
五、第四层:系统级评测
评测 工程性能:
| 指标 | 目标 |
|---|---|
| latency | < 3s |
| cost | 每query成本 |
| throughput | QPS |
| stability | 错误率 |
六、RAG评测数据集(最关键)
必须建立 Gold QA dataset
例如:
200~500个问题
结构:
{
question
gold_answer
gold_chunk
}
示例:
Q:
什么是神的经纶?
Gold chunk:
神的经纶乃是神在时间里将祂自己分赐到人里面。
Gold answer:
神的经纶就是神在时间里将祂自己分赐到人里面。
七、RAG评测工具(推荐)
目前最常用的是三个。
1
Ragas
RAG评测最流行工具。
指标自动算:
context precision
context recall
faithfulness
answer relevancy
示例:
ragas.evaluate()
输出:
Faithfulness: 0.92
Answer relevancy: 0.88
Context recall: 0.90
2
LangSmith
用于:
RAG tracing
LLM judge
evaluation dataset
优点:
可视化 pipeline
3
DeepEval
类似:
pytest for LLM
支持:
hallucination test
retrieval test
bias test
八、RAG评测完整流程(工程标准)
一个成熟流程如下:
Step1
建立 QA dataset
(200 questions)
Step2
评测 retrieval
Step3
评测 generation
Step4
端到端 QA
Step5
LLM judge
Step6
人工抽检
九、你这个“属灵书籍RAG”的特别评测
针对 生命读经类系统,建议加三条:
1 原文忠实度
回答必须:
≥80%来自原文
2 不跨作者
例如:
李常受问题
不能引用倪柝声
3 神学一致性
避免:
系统神学混入
例如:
改革宗解释
十、最专业的RAG评测结构(论文级)
研究界现在常用的结构:
RAG Evaluation
1 Retrieval Quality
Recall@k
MRR
nDCG
2 Generation Quality
Faithfulness
Relevance
3 End-to-End QA
EM
F1
LLM Judge
4 System Metrics
Latency
Cost
Throughput
十一、一个真实RAG评测表
示例:
| Metric | Score |
|---|---|
| Recall@5 | 0.91 |
| MRR | 0.78 |
| Faithfulness | 0.93 |
| Answer Relevance | 0.89 |
| Hallucination | 3% |
十二、RAG评测最容易忽略的问题
经验总结:
1 QA数据太少
必须:
≥200
2 不分Retrieval和Generation
必须 拆开测
3 不做对比
至少要比较:
embedding模型
chunk策略
rerank模型
十三、一个高级做法(A/B实验)
例如:
方案A
embedding = bge-large
方案B
embedding = jina-embedding
评测:
| Metric | A | B |
|---|---|---|
| Recall@5 | 0.89 | 0.94 |
十四、如果是论文级RAG系统
评测通常包括:
Baseline
BM25
Embedding
Embedding+rerank
RAG
如果你愿意,我可以 直接给你一套“RAG评测模板”(
包括:
300个标准问题生成方法
自动构建 Gold Chunk 方法
RAGAS评测脚本
完整 evaluation notebook
论文级 evaluation figure
这样你的 RAG系统可以达到研究级评测标准。