以下是方案草案,随着项目实际开始,应该会大幅改动。 你看有什么不足的地方,请帮忙完善指正:
属灵书籍 AI 知识库 RAG 系统方案(以生命读经为例)
项目核心: 基于《生命读经》等深度中文属灵著作,构建一个高精准度、无审查、低成本的检索增强生成(RAG)问答 system。

核心指导原则: 追求中文语义检索的极限与无审查无幻觉的权威问答系统。

一、核心架构与技术选型
本系统采用混合检索架构,结合了传统的全文检索与前沿的语义模型。
组件

选型

核心职责

优化与优势

混合搜索引擎

Elasticsearch 8.x

混合搜索(Hybrid Search):处理传统文本检索与Sparse 和 Dense 向量三路检索,RRF算法第一次过滤重排。

精度与灵活性: 支持 IK 分词自定义字典与 ELSER 语义检索。

稀疏向量模型

ES8-ELSER

生成稀疏向量(Sparse)

它介于关键词和语义(Dense)之间,能自动将提问中的词扩展为领域相关的近义词

稠密向量模型

Jina-v5-small-API

生成 1024 维稠密向量(Dense)。

刚刚发布,领域SOTA,捕捉深层神学概念的语义。

重排模型

Jina-reranker-v3-API

对搜索三路结果进行高精度打分

确保进入生成阶段的资料均为“高纯度”相关。

推理模型

Claude 4.5 Sonnet-API

总结思想并生成回答。

人文语感最强,幻觉率低。

向量数据库(非必要)

Pinecone Serverless-API

存储稠密向量(与 ES 联动或作为独立分支)。

有2G免费存储空间。极低成本存储高维向量。

计算平台(非必要)

Cloudflare Workers

托管后端逻辑与融合算法。

免费边缘计算,响应极快。

服务器

Oracle A1

托管Nginx + ES8 + ELSER + FASTAPI后端 + WEB前端

大内存,费用低。

二、实施步骤:三阶段流程
第一阶段:数据预处理与专业词库构建
目标: 让系统真正“读懂”专业的属灵词汇。

专业神学字典与分词优化 (Elasticsearch + IK)

IK 分词配置:部署 IK Analyzer,并挂载自定义字典(如 spiritual_dict.dic)。

字典内容:录入特有术语(如:三一神、生机拯救、神人、终极完成、职事 等),防止被分词器错误拆分为普通词汇。

词频与权重:通过 Synonym Graph 建立同义词映射。

多维度数据入库

Dense Vector:存入 OpenAI 3072维向量。

Sparse Vector:使用 ES 原生的 ELSER 模型生成稀疏向量。

Metadata:包含 book_name、message_num、small_heading 及正则提取的 related_verses(圣经经节)。

第二阶段:三路融合检索
这是系统的核心引擎,通过 Reciprocal Rank Fusion (RRF) 算法将三种检索结果合并。

检索路数: BM25 (关键词) + Dense Vector (语义) + ELSER (稀疏语义)。

为什么需要同时使用 ELSER 与 OpenAI 稠密向量?(核心逻辑)

OpenAI Dense (稠密向量):擅长长句理解。它能识别出“救赎”与“恩典”在宏观神学背景下的相关性,但对于极其精确的术语(如“职事”与“执事”的区别)有时会产生语义偏移。

ES ELSER (稀疏向量):擅长术语扩展。它介于关键词和语义之间,能自动将提问中的词扩展为领域相关的近义词,且由于是稀疏矩阵,它对“专有名词”的保持度极高,不会像稠密向量那样将所有词都压扁成一个概率点。

协同价值:两者同时使用能实现“既知其意(Dense),又识其术(ELSER)”。在神学这种用词极其严谨的领域,这是防止检索内容“差之毫厘,谬以千里”的必要保证。

三路融合效果示例:

用户提问: “保罗在罗马书里怎么说称义的?”

BM25 表现: 快速锁定“保罗”、“罗马书”、“称义”等关键词命中率极高的段落。

ELSER 表现: 关联到了相关的法理逻辑(即使字面上没写“保罗”二字,也能识别出论述的上下文背景)。

Dense 表现: 理解了这是一种关于救赎论的论述,而非简单的名词解释。

结果: 出来的参考资料绝对是该卷书里最核心的经文和对应信息。

重排与阈值限制 (Critical Update):

Reranker 模型选型:采用 BGE-Reranker-v2-m3。该模型专门针对多语言(尤其是中英混合)进行了跨编码优化。

打分机制:将 RRF 融合后的 Top-15 段落逐一与用户 Query 进行 Cross-Attention 计算,得出 0-1 之间的相关性概率分数。

置信度门槛 (Confidence Threshold):

硬性过滤:设置阈值 T = 0.6。若排在第一位(Top-1)的结果分数仍低于 0.6,系统立即判定为“检索不相关”。

动态截断:仅保留分数高于 0.5 的段落送入推理模型。

结果映射:一旦触发过滤,后端逻辑将直接向 UI 返回“诚实告知”信号,不再调用 LLM。

补充:Reranking 模型的关键作用

语义去噪:消除“字面匹配但语义无关”的内容。识别出哪些段落只是提到了词汇,哪些段落是在真正论述。

统一量尺:为 BM25 和 Vector 提供标准的 0-1 概率分数,使阈值拦截有据可依。

提升诚实告知的可靠性:是防幻觉的最后一道防线。

第三阶段:生成与输出(限制与合规)
核心限制:宁缺毋滥,严禁幻觉。

Prompt 角色与硬性约束:

【身份设定】

你是一位精研李常受弟兄释放的信息的资深研究员。你的任务是基于提供的【上下文】回答问题。

【核心指令】

仅根据提供的上下文内容进行回答。

如果上下文中没有包含回答问题所需的足够信息,或者问题与《生命读经》内容完全无关,你必须诚实地回答:“抱歉,在现有的《生命读经》及相关属灵资料库中,我没有找到足够的信息来回答这个问题。”

严禁根据你自身的训练知识背景来补充上下文之外的内容,尤其是神学观点。

严禁编造任何信息来源、篇目名称或经节引用。

【格式要求】

必须指明信息来源(篇目名和小标题)。

如果部分回答来自上下文,但信息不完整,请说明已知部分并注明哪些部分缺失。

输出过滤逻辑:

在推理模型输出前,系统会检查 Context 是否为空。

若第二阶段因阈值过低未召回任何内容,系统将直接拦截 API 调用,返回预设的“诚实告知”模板,以节省 Token 并确保安全性。

三、针对“中英对照段落”的专项增强
目标:利用双语语境消除歧义,提升检索的鲁棒性。

双语对齐存储 (Bilingual Alignment Storage)

存储结构:在同一个 Chunk 中同时保存 content_zh 和 content_en。

交叉向量化:对中文和英文分别生成嵌入向量(Embedding)。检索时,系统会同时计算用户问题与双语向量的相似度。

优势:某些属灵术语(如“职事”)在中文里可能有歧义,但在英文(”Ministry”)中语义非常明确。双语检索可大幅降低误报率。

术语一致性验证 (Terminology Mapping)

字典同步:在 IK 分词字典中加入对应的英文术语映射。

引用校对:当 Claude 生成回答时,系统会校验其中提到的核心术语是否与英文原意对齐,确保翻译和解释的准确性。

双语上下文输出(可选)

功能:根据用户需求,系统可以输出中英对照的原始段落,作为回答的附录,增加权威性。

四、针对《生命读经》的专项优化
小标题权重增强:在 ES 的 BM25 检索中,对 small_heading 字段进行 Boost(权重加倍) 处理。

经节联合定位:利用 ES 的 Nested Query,如果用户提问中包含经节,优先筛选 related_verses字段。

五、方案总结
维度

方案选择

优势

检索核心

三路融合 + BGE-Reranker

精准质检:利用 Reranker 深度校验语义。它作为过滤“噪音”的最后一道防线,通过硬性分数阈值(0.6)强制拦截无关内容,确保进入生成阶段的资料均为“高纯度”相关。

语言理解

IK 分词 + 专家字典 + 双语交叉

专业性与国际化:彻底解决中英文属灵术语的拆分错误与歧义。Reranker 进一步辅助识别中英文语境下的深层语义对齐,消除理解盲区。

幻觉防御

置信度门槛 + 硬性 Prompt 约束

极端严谨:Reranker 提供的客观评分是系统执行“诚实拒绝”的科学依据。拒绝模糊匹配,杜绝 AI 根据低相关资料进行主观神学臆测或概率猜测。

双语优势

中英段落级对照存储

跨语言纠偏:Reranker 在重排时会对比双语语义。通过英文术语(如 Ministry)修正中文歧义,提升召回结果在跨语言语境下的准确度。