知识图谱 04:知识表示模型

张开发
2026/4/17 7:19:17 15 分钟阅读

分享文章

知识图谱 04:知识表示模型
继续沿用前面的任务。我们要做一个科技史知识服务系统并希望它能回答詹姆斯·瓦特James Watt是谁James Watt 与蒸汽机steam engine是什么关系James Watt 属于哪一类人物为什么系统还能根据已有知识推出新结论前面已经说明知识图谱需要合适的知识表示方法。但在真正落地时还要进一步回答一个问题这些知识具体应该用什么模型来表示。不同模型的重点并不相同有的强调事实表达有的强调类别结构有的强调本体约束有的强调工程实现有的强调计算与学习。一、知识图谱表示模型的必要性如果系统只把知识写成普通文本那么“James Watt improved the steam engine”这样的内容虽然人能看懂机器却不容易稳定处理。它很难直接知道James Watt 是一个实体improved 是一个关系steam engine 是另一个实体这条知识还能与其他知识继续连接。因此知识图谱不能只依赖自然语言描述而需要更清楚的表示模型把实体、关系、类别、属性和约束写成结构化形式。只有这样系统才能更稳定地组织知识、执行查询并在已有知识基础上支持进一步推断。二、RDF事实表示层如果先从最基础的问题入手“怎样把知识写成统一结构”常见答案就是 RDFResource Description Framework资源描述框架。RDF 的核心思想很简单把知识写成三元组triple也就是“主体—谓词—客体”的结构。例如在当前任务里可以写成James Watt — improved — steam engineJames Watt — connected with — University of GlasgowJames Watt — associated with — Industrial RevolutionRDF 解决的是知识图谱最基础的一层怎样把事实写出来。它把原本分散在文本中的知识转化为统一、可连接的结构化表达。延伸阅读《资源描述框架RDF三元组、资源与图结构》三、RDFS模式表示层如果只有 RDF系统虽然能写出事实但还不够清楚这些事实属于什么结构。例如系统也许知道“James Watt — improved — steam engine”但还不知道James Watt 属于 engineerengineer 是 person 的子类University of Glasgow 属于 universityimproved 通常连接某类人物与某类技术对象。这时就需要 RDFSRDF SchemaRDF 架构描述语言。RDFS 解决的是怎样把事实放进类、属性及其层级结构中。它在 RDF 基础上进一步引入类class、属性property、子类关系、定义域domain和值域range等内容使知识图谱从“事实记录”进一步上升到“模式表达”。延伸阅读《RDF 架构描述语言RDFS类、属性与模式层》四、OWL本体表示层RDFS 已经能表示类别和属性结构但如果系统还要进一步知道哪些类之间存在更强的语义关系某个属性具有什么逻辑特性某些知识在什么条件下可以自动推出那么仅有 RDFS 还不够。这时就需要 OWLWeb Ontology Language网络本体语言。OWL 更接近知识图谱中的本体层。它的重点不再只是“有哪些类和属性”而是“这些类和属性还遵守哪些更强的语义规则”。例如在更强的语义建模中系统可以进一步表达某两个类别互不重叠某个属性具有对称性或传递性某个实体只要满足一组条件就可以归入某一类别。因此OWL 的价值不只是“再多写一些类别关系”而是让知识图谱具有更明确的语义约束和更丰富的推理能力。延伸阅读《什么是本体从概念体系到形式化建模》《网络本体语言OWL本体、约束与推理》五、属性图模型如果前面的 RDF / RDFS / OWL 更偏语义表达和形式化建模那么属性图Property Graph则更偏工程实现。属性图的基本思想也很直观1用节点表示实体2用边表示关系3让节点和边都可以直接携带属性。在我们的任务里属性图可以这样理解• 节点James Watt、steam engine、University of Glasgow、Industrial Revolution• 边improved、connected with、associated with• 属性birth year、type、period 等属性图的优势在于建模灵活、遍历方便很适合图数据库和关系分析任务。它不像 RDF 那样以三元组为统一单位而是更强调“节点—边—属性”的整体工程结构。因此属性图通常更适合图数据库中的查询、遍历和工程开发而 RDF 更强调语义互操作与形式化表达。延伸阅读《属性图节点、边与属性的图模型》六、向量空间表示前面几种模型主要都属于显式符号表示。但如果系统还要进一步完成相似性计算链接预测知识补全与机器学习模型结合那么还需要另一种表示方式向量空间表示Embedding。向量表示的基本思想是把实体和关系映射到向量空间中。例如James Watt 可以表示为一个向量steam engine 可以表示为一个向量improved 也可以表示为一个向量。这样知识图谱中的实体和关系就不再只是符号还变成了一组可计算的数字表示。这类表示的重点不是直接给人阅读而是让机器更高效地学习、比较和预测。需要注意的是向量表示并不是对前面符号模型的简单替代而更像是一种面向计算学习的补充表示方式。在很多实际系统中显式符号表示与向量表示往往会结合使用。延伸阅读《向量空间表示如何把实体和关系表示为向量》七、表示模型的层次与比较到这里可以把这几种模型放在一起看RDF 解决怎样把事实写出来RDFS 解决怎样把事实放入类别和属性结构OWL 解决怎样加入更强语义约束和推理属性图解决怎样以更灵活的方式进行工程建模向量表示解决怎样把知识转成可学习、可计算的形式。下面这张图可以概括这些表示模型的大致分工不同模型解决的是不同层面的问题。真正的系统往往不是只依赖其中之一而是根据任务目标在语义表达、工程实现和计算学习之间做出选择和组合。延伸阅读《RDF、RDFS、OWL 三者是什么关系》 小结知识图谱的表示模型各有分工。RDF 负责事实表达RDFS 负责模式结构OWL 负责本体约束与推理属性图偏向工程建模向量表示偏向计算与学习。真正的知识图谱系统通常需要根据任务要求对这些模型进行选择、组合与配合。“点赞有美意赞赏是鼓励”

更多文章