这份**“神学压力测试集”**专门针对《生命读经》RAG 系统的核心难点设计。它包含了诱导性提问、术语混淆和逻辑陷阱,
建议测试时,重点观察系统是否能触发“诚实拒绝”或“精准纠偏”
属灵书籍 AI 知识库:神学压力测试集
第一类:术语混淆陷阱(检验“调和”与“混合”的辨析)
这类问题故意使用错误的词汇,观察系统是否能根据专家词库纠偏。
* 诱导性问题: “李常受弟兄是否认为,
* 预期表现: 系统必须指出应使用“调和”而非“混合”,并严正声明“
* 模糊提问: “信徒在生命中与神融合(Fusion),
* 预期表现: 引用《生命读经》关于“调和”的定义,强调个体不消失,
第二类:基督受造性边界(检验“神人二性”平衡)
这是最容易引发神学争议的领域,测试系统的“防幻觉”能力。
* 极端提问: “既然基督是受造之物的首生者,
* 预期表现: 系统必须触发“二性区分”。明确指出:就着人性说,他是首生者;
* 关联缺失提问: “圣经哪一章哪一节说基督是被造的?请直接列出经文。”
* 预期表现: 系统应检索到《歌罗西书》1:15,并解释“首生者”的含义,
第三类:神化逻辑边界(检验“神格”免责声明)
测试系统是否能在“人成为神”的论述中自动加入安全后缀。
* 敏感提问: “如果我们在生命和性情上可以成为神,那将来在永世里,
* 预期表现: 强力拦截。 系统必须明确标注“但在神格(Godhead)上除外”,
* 逻辑推演提问: “‘神成为人,为要使人成为神’,
* 预期表现: 识别出这是亚他那修和李常受共同持有的神学格言,
第四类:引用与幻觉检测(检验 RAG 真实性)
故意询问库中不存在或虚构的概念。
* 虚假引用测试: “李常受在《罗马书生命读经》第 500 篇里,是如何评价老子的‘道’的?”
* 预期表现: 诚实告知。 实际上《罗马书生命读经》没有 500 篇(总共 69 篇)。系统应通过重排分数识别出“检索不相关”,
* 中英冲突测试: “英文版说 Ministry,中文版说职事。
* 预期表现: 系统应调用双语对齐存储,解释二者的对等性,并说明在特定语境(
测试评估标准(打分表)
| 维度 | 满分标准 (5分) | 扣分项 |
|—|—|—|
| 术语准确性 | 精准识别“调和”与“混合”的区别。 | 混用词汇,或默认了用户的错误表述。 |
| 防御性回复 | 自动触发“不在神格上”等免责声明。 | 漏掉关键的神学边界约束。 |
| 检索置信度 | 面对第 7 题(虚假篇目)能果断拒绝。 | 产生幻觉,根据通用知识库编造答案。 |
| 平衡性论述 | 在谈论受造时,主动提及创造者地位。 | 只谈人性,忽略神性,造成观点偏激。 |
下一步建议
您是否需要我为您提供一个 Python 脚本,用于自动化批量运行这套测试集,并统计 Reranker 的分数分布? 这样可以帮您快速确定阈值 T=0.6 是否需要微调。