百宝箱

以下是专门针对**属灵书籍 + LightRAG** 的 chunking 最佳实践，直接可操作： *** ## LightRAG 的 Chunking 机制原理 LightRAG 的分块不只是为了向量检索，**同一个 chunk 同时用于**：实体抽取 → 知识图谱建构 → 向量存储。因此块的质量直接影响图谱质量，比普通 RAG 的要求更高。默认 `chunk_size=1200 tokens`，对中文属灵书籍需要调整。[1][2] *** ## 属灵书籍的最佳分块参数 “`python rag = LightRAG( working_dir=”./spiritual_books”, chunk_token_size=800, # 中文语义密度高，800比默认1200更合适 chunk_overlap_token_size=100, # 保留跨段关系 addon_params={ “language”: “Simplified Chinese”, “entity_types”: [ “人物”, “神学概念”, “教义”, “圣经章节”, “属灵运动”, “书卷”, “历史时期” ] }, enable_llm_cache=True # 相同段落不重复抽取，省成本 ) “` *** ##

以下是 LightRAG 处理属灵文本知识图谱的**完整落地实践**：

***

## 初始化配置（属灵书籍专属）

LightRAG 需要最低 32B 参数的 LLM 才能有效抽取实体关系，小模型（7B）会大量漏抽。推荐配置：[1]

“`python
from lightrag import LightRAG, QueryParam
from lightrag.llm.openai import gpt_4o_mini_complete, openai_embed

rag = LightRAG(
working_dir=”./spiritual_kg”,
llm_model_func=gpt_4o_mini_complete, # 或 Claude / Qwen2.5-72B 本地
embedding_func=openai_embed,
chunk_token_size=800,
chunk_overlap_token_size=100,
addon_params={
“language”: “Simplified Chinese”,
“entity_types”: [
“人物”, “神学概念”, “教义”, “圣经章节”,
“属灵运动”, “书卷”, “历史时期”, “属灵经历”
],
“insert_batch_size”: 5 # 属灵文本语义密度高，小批次保质量
},
enable_llm_cache=True # 同段落不重复调用 LLM，省 40-60% 成本
)
“`

***

## 自定义图谱抽取 Prompt（核心步骤）

LightRAG 的默认 prompt 完全不懂属灵术语，必须覆写。找到源码中 `prompt.py`，修改 `GRAPH_FIELD_SEP` 区块：[2]

“`python
PROMPTS[“entity_extraction”] = “””
你是属灵书籍知识图谱专家。从段落中抽取神学实体和关系。

【实体类型】: 人物, 神学概念, 教义, 圣经章节, 属灵运动, 书卷, 历史时期

【关系类型（必须使用以下之一）】:
阐释 | 发展自 | 对比 | 引用 | 著作 | 影响 | 应用于 | 源自 | 包含

【规范化规则】:
– “神”/”上帝”/”主”根据上下文区分位格后统一
– 保留原文神学术语，不替换（”经纶”不改为”计划”）
– 圣经引用格式统一为：书卷缩写+章:节（如”约15:4″）

【输出格式】:
实体: (名称<|>类型<|>描述)
关系: (主体<|>关系类型<|>客体<|>强度0-1<|>依据原文)

段落：{input_text}
“””
“`

***

## 图谱构建：三种文档插入策略

**策略一：结构化 JSON 直接注入（推荐，你们已有）**

“`python
import json, asyncio

async def insert_spiritual_books(json_dir):
for file in Path(json_dir).glob(“*.json”):
with open(file) as f:
doc = json.load(f)
# 为每段加入书目 metadata 前缀，提升实体上下文
for section in doc[“sections”]:
enriched_text = f”””
【书名】{doc[‘title’]} 【作者】{doc[‘author’]} 【章节】{section[‘chapter’]}
{section[‘text’]}
“””
await rag.ainsert(enriched_text)

asyncio.run(insert_spiritual_books(“./json_docs”))
“`

**书目前缀注入**是关键——没有前缀，LightRAG 无法建立”这段话来自哪本书”的图谱连接。[3]

**策略二：自定义图谱手动注入（补充专有节点）**

LightRAG 支持直接注入人工编辑的三元组，用于补充 LLM 漏抽的核心关系：[4]

“`python
from lightrag.kg.shared_storage import get_graph_db

# 手动注入倪柝声-李常受核心传承关系
custom_edges = [
(“李常受”, “发展自”, “倪柝声”, 0.95, “李常受在台湾延续并发展了倪柝声的生命神学”),
(“神圣经纶”, “源自”, “弗1:10”, 0.99, “李常受对以弗所书1:10的系统阐释”),
(“地方教会”, “影响”, “弟兄会”, 0.7, “倪柝声早期受弟兄会影响”)
]
# 通过 graph_db.upsert_edge() 注入
“`

**策略三：增量更新（上线后持续扩充）**

“`python
# 新书加入时增量插入，不需要重建整个图谱
await rag.ainsert(new_book_text)
# LightRAG 会自动合并新旧实体，Entity Resolution 处理同义节点
“`

***

## Entity Resolution：防止图谱碎片化

属灵书籍最大的图谱问题是同一概念产生多个孤立节点。开启实体消解：[5]

“`python
# RAGFlow 集成方式（如使用 RAGFlow 作前端）
# 在 Knowledge Graph 设置中开启 Entity Resolution
# LightRAG 原生方式：后处理脚本合并相似节点

from lightrag.utils import merge_entities

# 手动指定合并规则
merge_rules = {
“主要节点”: “三一神”,
“合并节点”: [“神”, “上帝”, “父神”, “主神”]
}
“`

***

## 图谱质量验证（建完必做）

用 LightRAG 内置 Web UI 的 Knowledge Graph 标签页可视化检查：[3]

图谱建完后，”神圣经纶”节点应能一跳连到”弗1:10″、”李常受”、”神的计划”，二跳连到”地方教会”、”召会生活”——这才说明图谱有效支撑了多跳推理。[6]

Sources
[1] LightRAG Tutorial: Build Smarter RAG With Knowledge Graphs https://byteiota.com/lightrag-tutorial-build-smarter-rag-with-knowledge-graphs/
[2] [PDF] LightRAG: Simple and Fast Retrieval-Augmented Generation https://aclanthology.org/2025.findings-emnlp.568.pdf
[3] LightRAG Tutorial: Getting Started with Knowledge Graph-Based RAG https://dev.to/theairabbit/lightrag-tutorial-getting-started-with-knowledge-graph-based-rag-526n
[4] LightRAG: Simple and Fast Retrieval-Augmented Generation – GitHub https://github.com/LarFii/LightRAG-hku
[5] Construct knowledge graph – RAGFlow https://ragflow.io/docs/construct_knowledge_graph
[6] LightRAG: A Better Approach to Graph-Enhanced Retrieval … https://www.linkedin.com/pulse/lightrag-better-approach-graph-enhanced-generation-holt-nguyen-hfx2c
[7] [EMNLP2025] “LightRAG: Simple and Fast Retrieval-Augmented … https://github.com/HKUDS/LightRAG
[8] Building a Knowlegde graph locally from scratch or use LightRag https://www.reddit.com/r/Rag/comments/1kgqn7t/building_a_knowlegde_graph_locally_from_scratch/
[9] Understanding GraphRAG vs. LightRAG: A Comparative Analysis for … https://www.maargasystems.com/2025/05/12/understanding-graphrag-vs-lightrag-a-comparative-analysis-for-enhanced-knowledge-retrieval/
[10] [PDF] Efficient Knowledge Graph Construction and Retrieval from … https://arxiv.org/pdf/2507.03226.pdf
[11] LightRAG: Simple and Fast Retrieval-Augmented Generation – arXiv https://arxiv.org/html/2410.05779v1
[12] LightRAG https://lightrag.github.io
[13] lightrag-hku 1.0.6 – PyPI https://pypi.org/project/lightrag-hku/1.0.6/
[14] [PDF] LIGHTRAG: SIMPLE AND FAST RETRIEVAL-AUGMENTED … https://openreview.net/pdf?id=bbVH40jy7f