知识图谱学习笔记

这是笔者在知识图谱学习时所作的笔记。

Posted by 南三号 on September 28, 2020

知识图谱

知识图谱,本质上,是一种揭示实体之间关系的语义网络

常见的知识图谱示意图主要包含有三种节点:实体、属性、关系

知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)

从领域上来说,知识图谱通常分为通用知识图谱和特定领域知识图谱

信息与知识的区别

  • 信息是指外部的客观事实。举例:这里有一瓶水,它现在是7°。

  • 知识是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。

知识图谱的推理主要分为两类:基于本体的推理和基于规则的推理。

知识图谱的存储可选择:图数据库

  • 开源的Neo4j
  • Twitter的FlockDB
  • sones的GraphDB

几个大规模知识库:Freebase、Wikidata、DBpedia、YAGO

知识图谱的关键技术:

  • 知识抽取。分为:实体抽取,关系抽取,属性抽取
    • 实体抽取的方法分为3种:基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法
    • 关系抽取有开放式实体关系抽取,基于联合推理的实体关系抽取
  • 知识抽取。知识表示学习的代表模型主要包括距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译 模型等
  • 知识融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库
    • 实体对齐。知识库实体对齐的主要流程将包括:1) 将待对齐数据进行分区索引,以降低计算的复杂 度;2) 利用相似度函数或相似性算法查找匹配实例;3) 使用实体对齐算法进行实例融合;4) 将步骤 2)与步骤3)的结果结合起来,形成最终的对齐结果。
    • 知识加工。知识加工主要包括本体构建与质量评估两方面的内容。即建立概念(反映IsA的关系)。
  • 知识推理
    • 基于逻辑的推理:基于逻辑的推理方式主要包括一阶谓词逻辑 (first order logic)、描述逻辑(description logic)以及规则等
    • 基于图的推理

知识图谱的典型应用:智能搜索、 深度问答、社交网络以及一些垂直行业中

一些相关的基础概念

知识图谱数据的来源主要有三个:结构化数据、半结构化数据和非结构化的数据

RDF,OWL和SPARQL称为语义网的三大核心技术

  • RDF(Resource Description Framework),即资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。RDF形式上表示为SPO三元组,有时候也称为一条语句(statement),知识图谱中我们也称其为一条知识。

  • RDF序列化方法:即如何存储和传输RDF数据,主要有:RDF/XML,N-Triples,Turtle,RDFa,JSON-LD等几种

  • RDFS/OWL:为RDF添加class用以区分类和对象。
    • RDFS:定义类,类和子类的关系,以及属性的取值范围(range),所属类别(domin)
    • OWL:添加了额外的预定义词汇,可以定义属性之间的关系和类之间的关系,比如:定义“父母”的相反关系是“子女”,若A是B的父母,那么B肯定是A的子女
  • SPARQL即SPARQL Protocol and RDF Query Language的递归缩写,专门用于访问和操作RDF数据。