这份技术白皮书文档为您整合了前期所有的架构设计、
《生命读经》AI 知识库 RAG 系统技术白皮书
一、 项目愿景
构建一个高精准度、神学严谨、零幻觉的属灵问答系统。基于《
二、 核心架构图
系统采用三层架构,
* 数据层 (Data Layer):存储经过结构化处理的《生命读经》文本,包含多维 Metadata(篇目、经节锚点、中英对照)。
* 检索层 (Retrieval Layer):三路融合检索(BM25 + Dense Vector + Sparse ELSER)。
* 治理层 (Governance Layer):Cloudflare Workers 意图拦截器与 Jina-reranker 精准重排。
* 生成层 (Generation Layer):基于 Claude 4.5 的长文本逻辑推理与引用校对。
三、 核心算法与技术选型
3.1 混合检索 (Hybrid Search)
采用 RRF (Reciprocal Rank Fusion) 算法融合三路结果:
* 关键词 (BM25):捕获特定的神学术语(如“生机拯救”)。
* 稠密向量 (Dense):理解长句的深层语义。
* 稀疏向量 (ELSER):处理近义词扩展,确保“职事”与“
3.2 语义重排与阈值过滤
使用微调后的 Jina-reranker-v3。
* 置信度阈值:设置 T = 0.6。
* 逻辑:若 Score < 0.6,系统直接拦截并返回“诚实告知”模板,
四、 神学安全策略 (Theological Guardrails)
4.1 动态意图拦截 (Cloudflare Workers)
通过边缘计算拦截高风险 Query,注入专项补丁:
* 三一神补丁:强制引入“素质”与“经纶”的双重区分。
* 人成为神补丁:强制后缀“在生命性情上,但不在神格上”。
4.2 专家词库 (Expert Lexicon)
在 Elasticsearch 中挂载自定义 IK 分词字典,定义核心差异:
* 调和 (Mingling):保留性质,不产生第三性。
* 混合 (Mixture):改变性质(标记为错误表述)。
五、 部署指南 (Deployment Roadmap)
第一阶段:数据洗炼
* 正则提取:将文本中的圣经经节提取并标准化为 book_chapter_verse 格式。
* 双语对齐:将中英文段落按 UUID 关联,确保跨语言检索。
第二阶段:模型微调
* 使用神学压力测试集生成 Training Pairs。
* 对 Jina-reranker 进行微调,使其在 0.6 附近具备极强的区分度。
第三阶段:边缘部署
* 将 Logic Dispatcher 部署至 Cloudflare Workers。
* 配置 KV 存储敏感词映射表。
六、 维护与迭代
* 冒烟测试:定期运行批量测试脚本,监控 Reranker 分数分布。
* 幻觉监控:人工抽检高分通过但回答模糊的 Case,反馈至负例微调库。
结语
本方案通过在传统的 RAG 链路上增加神学逻辑门控,解决了 AI 在处理深奥真理时容易产生的“和稀泥”现象。
白皮书已整理完毕。您是否需要我将这份文档导出为 Markdown 源文件,或者为您提供一份具体的“数据预处理正则清单”,