知识图谱

知识图谱，本质上，是一种揭示实体之间关系的语义网络

常见的知识图谱示意图主要包含有三种节点：实体、属性、关系

知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组（Subject-Predicate-Object）

从领域上来说，知识图谱通常分为通用知识图谱和特定领域知识图谱

信息与知识的区别

信息是指外部的客观事实。举例：这里有一瓶水，它现在是7°。
知识是对外部客观规律的归纳和总结。举例：水在零度的时候会结冰。

知识图谱的推理主要分为两类：基于本体的推理和基于规则的推理。

知识图谱的存储可选择：图数据库

开源的Neo4j
Twitter的FlockDB
sones的GraphDB

几个大规模知识库：Freebase、Wikidata、DBpedia、YAGO

知识图谱的关键技术：

知识抽取。分为：实体抽取，关系抽取，属性抽取
- 实体抽取的方法分为3种：基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法
- 关系抽取有开放式实体关系抽取，基于联合推理的实体关系抽取
知识抽取。知识表示学习的代表模型主要包括距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等
知识融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库
- 实体对齐。知识库实体对齐的主要流程将包括：1) 将待对齐数据进行分区索引，以降低计算的复杂度;2) 利用相似度函数或相似性算法查找匹配实例;3) 使用实体对齐算法进行实例融合;4) 将步骤 2)与步骤3)的结果结合起来，形成最终的对齐结果。
- 知识加工。知识加工主要包括本体构建与质量评估两方面的内容。即建立概念（反映IsA的关系）。
知识推理
- 基于逻辑的推理：基于逻辑的推理方式主要包括一阶谓词逻辑 (first order logic)、描述逻辑(description logic)以及规则等
- 基于图的推理

知识图谱的典型应用：智能搜索、深度问答、社交网络以及一些垂直行业中

一些相关的基础概念

知识图谱数据的来源主要有三个：结构化数据、半结构化数据和非结构化的数据

RDF，OWL和SPARQL称为语义网的三大核心技术

RDF(Resource Description Framework)，即资源描述框架，其本质是一个数据模型（Data Model）。它提供了一个统一的标准，用于描述实体/资源。简单来说，就是表示事物的一种方法和手段。RDF形式上表示为SPO三元组，有时候也称为一条语句（statement），知识图谱中我们也称其为一条知识。
RDF序列化方法：即如何存储和传输RDF数据，主要有：RDF/XML，N-Triples，Turtle，RDFa，JSON-LD等几种
RDFS/OWL：为RDF添加class用以区分类和对象。
- RDFS：定义类，类和子类的关系，以及属性的取值范围（range），所属类别（domin）
- OWL：添加了额外的预定义词汇，可以定义属性之间的关系和类之间的关系，比如：定义“父母”的相反关系是“子女”，若A是B的父母，那么B肯定是A的子女
SPARQL即SPARQL Protocol and RDF Query Language的递归缩写，专门用于访问和操作RDF数据。

知识图谱学习笔记

这是笔者在知识图谱学习时所作的笔记。

知识图谱

一些相关的基础概念

CATALOG

FEATURED TAGS

FRIENDS