以下是专门针对**属灵书籍 + LightRAG** 的 chunking 最佳实践,直接可操作: *** ## LightRAG 的 Chunking 机制原理 LightRAG 的分块不只是为了向量检索,**同一个 chunk 同时用于**:实体抽取 → 知识图谱建构 → 向量存储 。因此块的质量直接影响图谱质量,比普通 RAG 的要求更高。默认 `chunk_size=1200 tokens`,对中文属灵书籍需要调整 。[1][2] *** ## 属灵书籍的最佳分块参数 “`python rag = LightRAG( working_dir=”./spiritual_books”, chunk_token_size=800, # 中文语义密度高,800比默认1200更合适 chunk_overlap_token_size=100, # 保留跨段关系 addon_params={ “language”: “Simplified Chinese”, “entity_types”: [ “人物”, “神学概念”, “教义”, “圣经章节”, “属灵运动”, “书卷”, “历史时期” ] }, enable_llm_cache=True # 相同段落不重复抽取,省成本 ) “` *** ##
以下是 LightRAG 处理属灵文本知识图谱的**完整落地实践**:
***
## 初始化配置(属灵书籍专属)
LightRAG 需要最低 32B 参数的 LLM 才能有效抽取实体关系,小模型(7B)会大量漏抽 。推荐配置:[1]
“`python
from lightrag import LightRAG, QueryParam
from lightrag.llm.openai import gpt_4o_mini_complete, openai_embed
rag = LightRAG(
working_dir=”./spiritual_kg”,
llm_model_func=gpt_4o_mini_
embedding_func=openai_embed,
chunk_token_size=800,
chunk_overlap_token_size=100,
addon_params={
“language”: “Simplified Chinese”,
“entity_types”: [
“人物”, “神学概念”, “教义”, “圣经章节”,
“属灵运动”, “书卷”, “历史时期”, “属灵经历”
],
“insert_batch_size”: 5 # 属灵文本语义密度高,小批次保质量
},
enable_llm_cache=True # 同段落不重复调用 LLM,省 40-60% 成本
)
“`
***
## 自定义图谱抽取 Prompt(核心步骤)
LightRAG 的默认 prompt 完全不懂属灵术语,必须覆写 。找到源码中 `prompt.py`,修改 `GRAPH_FIELD_SEP` 区块:[2]
“`python
PROMPTS[“entity_extraction”] = “””
你是属灵书籍知识图谱专家。从段落中抽取神学实体和关系。
【实体类型】: 人物, 神学概念, 教义, 圣经章节, 属灵运动, 书卷, 历史时期
【关系类型(必须使用以下之一)】:
阐释 | 发展自 | 对比 | 引用 | 著作 | 影响 | 应用于 | 源自 | 包含
【规范化规则】:
– “神”/”上帝”/”主”根据上下文区分位格后统一
– 保留原文神学术语,不替换(”经纶”不改为”计划”)
– 圣经引用格式统一为:书卷缩写+章:节(如”约15:4″)
【输出格式】:
实体: (名称<|>类型<|>描述)
关系: (主体<|>关系类型<|>客体<|>强度0-1<|>
段落:{input_text}
“””
“`
***
## 图谱构建:三种文档插入策略
**策略一:结构化 JSON 直接注入(推荐,你们已有)**
“`python
import json, asyncio
async def insert_spiritual_books(json_
for file in Path(json_dir).glob(“*.json”):
with open(file) as f:
doc = json.load(f)
# 为每段加入书目 metadata 前缀,提升实体上下文
for section in doc[“sections”]:
enriched_text = f”””
【书名】{doc[‘title’]} 【作者】{doc[‘author’]} 【章节】{section[‘chapter’]}
{section[‘text’]}
“””
await rag.ainsert(enriched_text)
asyncio.run(insert_spiritual_
“`
**书目前缀注入**是关键——没有前缀,LightRAG 无法建立”这段话来自哪本书”的图谱连接 。[3]
**策略二:自定义图谱手动注入(补充专有节点)**
LightRAG 支持直接注入人工编辑的三元组 ,用于补充 LLM 漏抽的核心关系:[4]
“`python
from lightrag.kg.shared_storage import get_graph_db
# 手动注入倪柝声-李常受核心传承关系
custom_edges = [
(“李常受”, “发展自”, “倪柝声”, 0.95, “李常受在台湾延续并发展了倪柝声的生命神学”),
(“神圣经纶”, “源自”, “弗1:10”, 0.99, “李常受对以弗所书1:10的系统阐释”),
(“地方教会”, “影响”, “弟兄会”, 0.7, “倪柝声早期受弟兄会影响”)
]
# 通过 graph_db.upsert_edge() 注入
“`
**策略三:增量更新(上线后持续扩充)**
“`python
# 新书加入时增量插入,不需要重建整个图谱
await rag.ainsert(new_book_text)
# LightRAG 会自动合并新旧实体,Entity Resolution 处理同义节点
“`
***
## Entity Resolution:防止图谱碎片化
属灵书籍最大的图谱问题是同一概念产生多个孤立节点 。开启实体消解:[5]
“`python
# RAGFlow 集成方式(如使用 RAGFlow 作前端)
# 在 Knowledge Graph 设置中开启 Entity Resolution
# LightRAG 原生方式:后处理脚本合并相似节点
from lightrag.utils import merge_entities
# 手动指定合并规则
merge_rules = {
“主要节点”: “三一神”,
“合并节点”: [“神”, “上帝”, “父神”, “主神”]
}
“`
***
## 图谱质量验证(建完必做)
用 LightRAG 内置 Web UI 的 Knowledge Graph 标签页可视化检查 :[3]
| 检查项 | 健康标准 | 修复方式 |
|—|—|—|
| 核心节点度数 | “倪柝声”节点应有 50+ 连接 | 检查 prompt,调大 `top_k` |
| 孤立节点比例 | < 10% | 检查分块是否过小 |
| 关系多样性 | 至少 6 种关系类型均出现 | 在 prompt 中加举例 |
| 中文乱码 | 无乱码 | 确认 `language: Simplified Chinese` |
图谱建完后,”神圣经纶”节点应能一跳连到”弗1:10″、”
Sources
[1] LightRAG Tutorial: Build Smarter RAG With Knowledge Graphs https://byteiota.com/lightrag-
[2] [PDF] LightRAG: Simple and Fast Retrieval-Augmented Generation https://aclanthology.org/2025.
[3] LightRAG Tutorial: Getting Started with Knowledge Graph-Based RAG https://dev.to/theairabbit/
[4] LightRAG: Simple and Fast Retrieval-Augmented Generation – GitHub https://github.com/LarFii/
[5] Construct knowledge graph – RAGFlow https://ragflow.io/docs/
[6] LightRAG: A Better Approach to Graph-Enhanced Retrieval … https://www.linkedin.com/
[7] [EMNLP2025] “LightRAG: Simple and Fast Retrieval-Augmented … https://github.com/HKUDS/
[8] Building a Knowlegde graph locally from scratch or use LightRag https://www.reddit.com/r/Rag/
[9] Understanding GraphRAG vs. LightRAG: A Comparative Analysis for … https://www.maargasystems.com/
[10] [PDF] Efficient Knowledge Graph Construction and Retrieval from … https://arxiv.org/pdf/2507.
[11] LightRAG: Simple and Fast Retrieval-Augmented Generation – arXiv https://arxiv.org/html/2410.
[12] LightRAG https://lightrag.github.io
[13] lightrag-hku 1.0.6 – PyPI https://pypi.org/project/
[14] [PDF] LIGHTRAG: SIMPLE AND FAST RETRIEVAL-AUGMENTED … https://openreview.net/pdf?id=