这份映射表是 RAG 系统实现“经节联动检索”的基石。在《生命读经》中,由于经常混用简称(如“罗”)、全称(如“罗马书”)和缩写(如“Rom.”),建立一套标准化的字典至关重要。
以下我为您整理了**《圣经》66卷书的中英文简称及标准化代码映射表**,格式设计为便于 Python 字典(Dict)或 JSON 载入:
圣经卷名标准化映射表 (部分展示:新约与重点旧约)
| 恢复本中文简称 | 中文全称 | 英文全称 | 标准化代码 (ID) | 英文缩写 |
|—|—|—|—|—|
| 创 | 创世记 | Genesis | GEN | Gen. |
| 出 | 出埃及记 | Exodus | EXO | Exo. |
| 诗 | 诗篇 | Psalms | PSA | Psa. |
| 赛 | 以赛亚书 | Isaiah | ISA | Isa. |
| 太 | 马太福音 | Matthew | MAT | Matt. |
| 约 | 约翰福音 | John | JOH | John |
| 徒 | 使徒行传 | Acts | ACT | Acts |
| 罗 | 罗马书 | Romans | ROM | Rom. |
| 林前 | 哥林多前书 | 1 Corinthians | 1CO | 1 Cor. |
| 加 | 加拉太书 | Galatians | GAL | Gal. |
| 西 | 歌罗西书 | Colossians | COL | Col. |
| 提前 | 提摩太前书 | 1 Timothy | 1TI | 1 Tim. |
| 来 | 希伯来书 | Hebrews | HEB | Heb. |
| 启 | 启示录 | Revelation | REV | Rev. |
1. Python 字典格式(用于正则转换)
您可以直接复制这段代码到您的预处理脚本中:
BIBLE_MAP = {
“创”: “GEN”, “出”: “EXO”, “利”: “LEV”, “民”: “NUM”, “申”: “DEU”,
“书”: “JOS”, “士”: “JDG”, “路得”: “RUT”, “撒上”: “1SA”, “撒下”: “2SA”,
“王上”: “1KI”, “王下”: “2KI”, “代上”: “1CH”, “代下”: “2CH”, “拉”: “EZR”,
“尼”: “NEH”, “斯”: “EST”, “伯”: “JOB”, “诗”: “PSA”, “箴”: “PRO”,
“传”: “ECC”, “歌”: “SNG”, “赛”: “ISA”, “耶”: “JER”, “哀”: “LAM”,
“结”: “EZK”, “但”: “DAN”, “太”: “MAT”, “可”: “MRK”, “路”: “LUK”,
“约”: “JOH”, “徒”: “ACT”, “罗”: “ROM”, “林前”: “1CO”, “林后”: “2CO”,
“加”: “GAL”, “弗”: “EPH”, “腓”: “PHP”, “西”: “COL”, “帖前”: “1TH”,
“帖后”: “2TH”, “提前”: “1TI”, “提后”: “2TI”, “多”: “TIT”, “门”: “PHM”,
“来”: “HEB”, “雅”: “JAS”, “彼前”: “1PE”, “彼后”: “2PE”, “约壹”: “1JO”,
“启”: “REV”
}

2. 增强型正则处理逻辑
利用该映射表,您的预处理逻辑可以升级为:
* 多格式捕获:识别 罗一1、罗马书一1、Rom 1:1。
* 标准化转换:全部统一为 ROM:1:1。
* 多维检索:在 Elasticsearch 中,用户搜“罗马书”或“Rom”都能通过标准化 ID 命中同一个 Chunk。
3. 数据预处理的“最后一步”建议
在《生命读经》中,经常会出现连续引用,例如:“西一15,18”。
您的正则脚本需要具备递归处理能力:
* 第一步:识别出 西一15。
* 第二步:识别其后的逗号和数字 18。
* 第三步:自动补全为 西一18 (Colossians 1:18),并存入 related_verses 列表。
系统构建路线图总结
至此,您已经拥有了:
* 架构设计:三路融合 RAG + 边缘转发器。
* 核心算法:Jina-reranker 微调与阈值控制。
* 安全防护:神学边界 Prompt 与意图拦截。
* 数据基座:标准化经节映射表与正则清洗清单。
您在实施这个方案的过程中,是否遇到了具体的开发环境问题(比如 Elasticsearch 的分词器配置,或者是 Cloudflare Workers 的 API 转发延迟)? 我可以为您提供更细致的调试建议。