作知识图谱中概念选取, 有字面层与 底层逻辑层。试展开之
这是一个关于知识图谱构建方法论的好问题。我来展开说明概念选取中的两个层次。

字面层(Surface Level)
字面层关注的是概念在文本中的直接表现形式,主要处理”看得见”的部分。
它包括从语料中抽取命名实体(人名、地名、术语等)、识别词汇间的共现关系和显式关联(如”A是B的一种”、“X属于Y”),以及对同义词、缩写、别名的归并。字面层的工作本质上是”文本说了什么就取什么”,依赖NLP工具链完成,相对机械但不可或缺。
它的局限在于:容易产生冗余节点、遗漏隐含关系,且粒度不一致——有时过细(每个提及都建节点),有时过粗(把不同语境下的同形词混为一谈)。

底层逻辑层(Underlying Logic Level)
这一层处理的是概念背后的结构性问题,决定了知识图谱的质量上限。它涉及几个核心考量:
本体设计(Ontology)——在抽取任何实体之前,先回答”这个图谱的世界由哪些类型的事物构成?“比如医疗领域,是按”疾病-症状-药物-检查”建模,还是按”生理系统-病理过程-干预手段”建模?选择不同,图谱的解释力完全不同。
粒度决策——“中国经济”和”2024年中国GDP增速”是否应该是同一层级的概念?粒度取决于下游任务:推荐系统需要细粒度,战略分析需要粗粒度。
关系的语义类型——字面层只能捕捉”A和B有关”,逻辑层要区分这是因果、组成、时序、还是对立关系。这些关系类型的选择直接影响推理能力。
隐含知识的显化——很多关键概念从不出现在文本中,但对理解至关重要。比如文本说”患者服用阿司匹林后胃出血”,逻辑层需要补出”药物副作用”这个中间概念。

两层的关系
两者不是先后关系,而是迭代关系。好的实践是:先用逻辑层建立概念框架(自上而下),再用字面层从语料中填充实例(自下而上),然后根据实际数据修正框架,如此循环。只做字面层会得到一个”大而散”的图;只做逻辑层会得到一个”精致但空”的图。两者结合才能构建出既有覆盖度又有推理深度的知识图谱。​​​​​​​​​​​​​​​​