百宝箱

以下是方案草案，随着项目实际开始，应该会大幅改动。你看有什么不足的地方，请帮忙完善指正：
属灵书籍 AI 知识库 RAG 系统方案（以生命读经为例）
项目核心：基于《生命读经》等深度中文属灵著作，构建一个高精准度、无审查、低成本的检索增强生成（RAG）问答 system。

核心指导原则：追求中文语义检索的极限与无审查无幻觉的权威问答系统。

一、核心架构与技术选型
本系统采用混合检索架构，结合了传统的全文检索与前沿的语义模型。
组件

选型

核心职责

优化与优势

混合搜索引擎

Elasticsearch 8.x

混合搜索（Hybrid Search）：处理传统文本检索与Sparse 和 Dense 向量三路检索，RRF算法第一次过滤重排。

精度与灵活性：支持 IK 分词自定义字典与 ELSER 语义检索。

稀疏向量模型

ES8-ELSER

生成稀疏向量（Sparse）

它介于关键词和语义(Dense)之间，能自动将提问中的词扩展为领域相关的近义词

稠密向量模型

Jina-v5-small-API

生成 1024 维稠密向量（Dense）。

刚刚发布，领域SOTA，捕捉深层神学概念的语义。

重排模型

Jina-reranker-v3-API

对搜索三路结果进行高精度打分

确保进入生成阶段的资料均为“高纯度”相关。

推理模型

Claude 4.5 Sonnet-API

总结思想并生成回答。

人文语感最强，幻觉率低。

向量数据库（非必要）

Pinecone Serverless-API

存储稠密向量（与 ES 联动或作为独立分支）。

有2G免费存储空间。极低成本存储高维向量。

计算平台（非必要）

Cloudflare Workers

托管后端逻辑与融合算法。

免费边缘计算，响应极快。

服务器

Oracle A1

托管Nginx + ES8 + ELSER + FASTAPI后端 + WEB前端

大内存，费用低。

二、实施步骤：三阶段流程
第一阶段：数据预处理与专业词库构建
目标：让系统真正“读懂”专业的属灵词汇。

专业神学字典与分词优化 (Elasticsearch + IK)

IK 分词配置：部署 IK Analyzer，并挂载自定义字典（如 spiritual_dict.dic）。

字典内容：录入特有术语（如：三一神、生机拯救、神人、终极完成、职事等），防止被分词器错误拆分为普通词汇。

词频与权重：通过 Synonym Graph 建立同义词映射。

多维度数据入库

Dense Vector：存入 OpenAI 3072维向量。

Sparse Vector：使用 ES 原生的 ELSER 模型生成稀疏向量。

Metadata：包含 book_name、message_num、small_heading 及正则提取的 related_verses（圣经经节）。

第二阶段：三路融合检索
这是系统的核心引擎，通过 Reciprocal Rank Fusion (RRF) 算法将三种检索结果合并。

检索路数： BM25 (关键词) + Dense Vector (语义) + ELSER (稀疏语义)。

为什么需要同时使用 ELSER 与 OpenAI 稠密向量？（核心逻辑）

OpenAI Dense (稠密向量)：擅长长句理解。它能识别出“救赎”与“恩典”在宏观神学背景下的相关性，但对于极其精确的术语（如“职事”与“执事”的区别）有时会产生语义偏移。

ES ELSER (稀疏向量)：擅长术语扩展。它介于关键词和语义之间，能自动将提问中的词扩展为领域相关的近义词，且由于是稀疏矩阵，它对“专有名词”的保持度极高，不会像稠密向量那样将所有词都压扁成一个概率点。

协同价值：两者同时使用能实现“既知其意（Dense），又识其术（ELSER）”。在神学这种用词极其严谨的领域，这是防止检索内容“差之毫厘，谬以千里”的必要保证。

三路融合效果示例：

用户提问： “保罗在罗马书里怎么说称义的？”

BM25 表现：快速锁定“保罗”、“罗马书”、“称义”等关键词命中率极高的段落。

ELSER 表现：关联到了相关的法理逻辑（即使字面上没写“保罗”二字，也能识别出论述的上下文背景）。

Dense 表现：理解了这是一种关于救赎论的论述，而非简单的名词解释。

结果：出来的参考资料绝对是该卷书里最核心的经文和对应信息。

重排与阈值限制 (Critical Update)：

Reranker 模型选型：采用 BGE-Reranker-v2-m3。该模型专门针对多语言（尤其是中英混合）进行了跨编码优化。

打分机制：将 RRF 融合后的 Top-15 段落逐一与用户 Query 进行 Cross-Attention 计算，得出 0-1 之间的相关性概率分数。

置信度门槛 (Confidence Threshold)：

硬性过滤：设置阈值 T = 0.6。若排在第一位（Top-1）的结果分数仍低于 0.6，系统立即判定为“检索不相关”。

动态截断：仅保留分数高于 0.5 的段落送入推理模型。

结果映射：一旦触发过滤，后端逻辑将直接向 UI 返回“诚实告知”信号，不再调用 LLM。

补充：Reranking 模型的关键作用

语义去噪：消除“字面匹配但语义无关”的内容。识别出哪些段落只是提到了词汇，哪些段落是在真正论述。

统一量尺：为 BM25 和 Vector 提供标准的 0-1 概率分数，使阈值拦截有据可依。

提升诚实告知的可靠性：是防幻觉的最后一道防线。

第三阶段：生成与输出（限制与合规）
核心限制：宁缺毋滥，严禁幻觉。

Prompt 角色与硬性约束：

【身份设定】

你是一位精研李常受弟兄释放的信息的资深研究员。你的任务是基于提供的【上下文】回答问题。

【核心指令】

仅根据提供的上下文内容进行回答。

如果上下文中没有包含回答问题所需的足够信息，或者问题与《生命读经》内容完全无关，你必须诚实地回答：“抱歉，在现有的《生命读经》及相关属灵资料库中，我没有找到足够的信息来回答这个问题。”

严禁根据你自身的训练知识背景来补充上下文之外的内容，尤其是神学观点。

严禁编造任何信息来源、篇目名称或经节引用。

【格式要求】

必须指明信息来源（篇目名和小标题）。

如果部分回答来自上下文，但信息不完整，请说明已知部分并注明哪些部分缺失。

输出过滤逻辑：

在推理模型输出前，系统会检查 Context 是否为空。

若第二阶段因阈值过低未召回任何内容，系统将直接拦截 API 调用，返回预设的“诚实告知”模板，以节省 Token 并确保安全性。

三、针对“中英对照段落”的专项增强
目标：利用双语语境消除歧义，提升检索的鲁棒性。

双语对齐存储 (Bilingual Alignment Storage)

存储结构：在同一个 Chunk 中同时保存 content_zh 和 content_en。

交叉向量化：对中文和英文分别生成嵌入向量（Embedding）。检索时，系统会同时计算用户问题与双语向量的相似度。

优势：某些属灵术语（如“职事”）在中文里可能有歧义，但在英文（”Ministry”）中语义非常明确。双语检索可大幅降低误报率。

术语一致性验证 (Terminology Mapping)

字典同步：在 IK 分词字典中加入对应的英文术语映射。

引用校对：当 Claude 生成回答时，系统会校验其中提到的核心术语是否与英文原意对齐，确保翻译和解释的准确性。

双语上下文输出（可选）

功能：根据用户需求，系统可以输出中英对照的原始段落，作为回答的附录，增加权威性。

四、针对《生命读经》的专项优化
小标题权重增强：在 ES 的 BM25 检索中，对 small_heading 字段进行 Boost（权重加倍）处理。

经节联合定位：利用 ES 的 Nested Query，如果用户提问中包含经节，优先筛选 related_verses字段。

五、方案总结
维度

方案选择

优势

检索核心

三路融合 + BGE-Reranker

精准质检：利用 Reranker 深度校验语义。它作为过滤“噪音”的最后一道防线，通过硬性分数阈值（0.6）强制拦截无关内容，确保进入生成阶段的资料均为“高纯度”相关。

语言理解

IK 分词 + 专家字典 + 双语交叉

专业性与国际化：彻底解决中英文属灵术语的拆分错误与歧义。Reranker 进一步辅助识别中英文语境下的深层语义对齐，消除理解盲区。

幻觉防御

置信度门槛 + 硬性 Prompt 约束

极端严谨：Reranker 提供的客观评分是系统执行“诚实拒绝”的科学依据。拒绝模糊匹配，杜绝 AI 根据低相关资料进行主观神学臆测或概率猜测。

双语优势

中英段落级对照存储

跨语言纠偏：Reranker 在重排时会对比双语语义。通过英文术语（如 Ministry）修正中文歧义，提升召回结果在跨语言语境下的准确度。