关系类型细分+权重标注:实操指南
第一步:关系类型细分
先做分类体系(Taxonomy)
倪李传统知识图谱的关系,建议分为五大类:
1. 神学逻辑关系 (概念间的内容关联)
2. 历史发展关系 (教导的时间演变)
3. 圣经根据关系 (教导与经文的锚定)
4. 实践应用关系 (神学概念→教会生活)
5. 跨传统对话关系 (与外部传统的比较)
每类下的细分关系类型
① 神学逻辑关系
DEFINES_AS —— 甲定义乙
PRESUPPOSES —— 甲以乙为前提
DEVELOPS_FROM —— 甲从乙发展而来
CONTRASTS_WITH —— 甲与乙形成张力
SUBSUMES —— 甲包含乙(上位关系)
EXEMPLIFIES —— 甲例示乙
② 历史发展关系
ORIGINATED_IN —— 概念最初出现的文本/时期
REFINED_BY —— 被谁/何时精炼
DIVERGES_FROM —— 李常受在哪里偏离倪柝声
INHERITED_FROM —— 承自更早传统(达秘、宋尚节等)
③ 圣经根据关系
ANCHORED_IN_L1 —— 直接引用经文(对应你的L1)
INFERRED_FROM_L2 —— 类比推论
TYPOLOGICALLY_FULFILLS —— 预表/应验关系
HERMENEUTIC_APPLIED —— 使用了何种解经原则
④ 实践应用关系
MANDATES_PRACTICE —— 此教导要求某实践
SHAPES_LITURGY —— 影响聚会形式
GOVERNS_CHURCH_LIFE —— 规范教会生活
⑤ 跨传统关系
PARALLELS —— 与外部传统相似
EXPLICITLY_REJECTS —— 明确拒绝某传统立场
IMPLICITLY_BORROWS —— 未承认但实质借用
第二步:权重标注
权重不只是一个数字,建议用三维权重:
维度设计
edge_weight = {
“certainty”: 0.0–1.0, # 这条关系有多确定?
“centrality”: 0.0–1.0, # 这条关系在神学上有多核心?
“evidence”: 0.0–1.0, # 文本证据有多充分?
}
各维度评分标准
certainty(确定性)
1.0 —— 作者明确陈述
0.7 —— 段落语境强烈暗示
0.4 —— 合理诠释推断
0.1 —— 学者争议性解读
centrality(中心性)
1.0 —— 核心教义(三一神、经纶、召会)
0.7 —— 重要教导(得胜者、变化、新陈代谢)
0.4 —— 次要观点
0.1 —— 边缘或一次性提及
evidence(证据强度)
1.0 —— 多处文本一致证明
0.7 —— 单一清晰文本
0.4 —— 间接文本
0.1 —— 无直接文本,逻辑推断
第三步:实作方式
如果用 Neo4j
// 建立带权重的关系
MATCH (a:Concept {name: “经纶”}), (b:Concept {name: “三一神”})
CREATE (a)-[:PRESUPPOSES {
certainty: 1.0,
centrality: 1.0,
evidence: 1.0,
source: “李常受-生命读经-创世记”,
annotator: “human”,
date: “2026-05-13”
}]->(b)
如果用 Python(NetworkX 或 JSON)
edge = {
“source”: “经纶”,
“target”: “三一神”,
“relation_type”: “PRESUPPOSES”,
“domain”: “theological_logic”,
“weight”: {
“certainty”: 1.0,
“centrality”: 1.0,
“evidence”: 1.0
},
“composite_score”: 1.0, # 三维平均或加权合成
“source_text”: “生命读经·创世记第一篇”,
“annotator”: “human|llm|hybrid”
}
第四步:半自动化标注流程
全人工太慢,建议LLM辅助+人工审核:
1. LLM初标 → 给每条关系建议类型+初步权重
2. 规则过滤 → 高certainty自动通过,低于0.4人工复查
3. 专家审核 → 核心教义关系必须人工确认
4. 入库 → 记录annotator字段区分来源
LLM标注提示词框架
给定两个倪李传统概念节点:
节点A:{concept_a}
节点B:{concept_b}
现有关系描述:{existing_edge_label}
请判断:
1. 最准确的关系类型(从列表中选择)
2. certainty分数(0-1)及理由
3. centrality分数(0-1)及理由
4. evidence分数(0-1)及理由
5. 如有相关文本来源,请列出
仅返回JSON。
实施优先顺序建议
第一轮(2周):只细分关系类型,不做权重
—— 先把四万条关系归入五大类
第二轮(4周):对核心节点(前200个高度数节点)
做三维权重人工标注
第三轮(持续):LLM批量处理剩余关系,人工抽样验证
你们目前四万条关系,是用什么格式存储的(Neo4j / JSON / RDF / 其他)?知道存储结构才能给更具体的迁移方案。