浅谈知识图谱


最近在做一个项目:基于知识图谱的计算机学习系统,看名字就可以知道,其核心在于知识图谱, 知识图谱作为一门新兴技术,系统的、体系化的学习资料并不多,尤其是在国内,初学者往往一头雾水,不知道从何做起。

为了帮助向我一样一头雾水的初学者,我决定向大家展示我的学习历程,希望大家可以从中获取经验,少走弯路。


什么是知识图谱

在了解知识图谱的定义之前,我们先分开讨论:什么是知识?什么是图谱?


什么是知识

首先我们必须明白:数据 ≠ 知识 。

随着计算机技术的发展,人类可以获取到海量的数据,然而并不是所有数据都可以称为知识。什么是知识?知识是人类对信息处理后的认识和理解,是对数据和信息的凝练、总结后的成果。

从数据到智慧,是一个不断凝练的过程。


什么是图谱

图论,是数学的一个研究分支。在数学中,图表示一些食物与另一些事物之间相互连接的结构。

一张图由结点组成。例如上面的图,有6个结点,7条边。

利用图的形式,我们可以清楚地将不同事物之间的关系表示出来。比如:姚明的国籍是中国,我们就可以表示为<姚明,国籍,中国>,姚明、中国是结点,国籍就是边,就是二者之间的关系。

上面我们用到的这种基于符号的知识表示方式,叫做资源描述框架(Resource Description Framework),我们常简称为RDF,它把知识表示为一个包含主语(Subject)、谓语(Predicate)和宾语**(Object)的三元组<S,P,O>。


知识图谱的定义

通过上面对知识、图谱的分别讨论,我们不难得出知识图谱的定义。但是先别着急,在给出具体的定义之前,我们先来回顾一下知识图片概念的演化历程。

语义网络

语义网络是一种表示知识的手段,是一种基于图的数据结构。语义网络可以很方便的将自然语言转化为图来表示和存储,并应用在自然语言处理问题上,例如机器翻译、问答等。

本体论

本体是一种哲学概念,产生于哲学领域,后被引入计算机领域。在计算机领域中,它表示对概念和关系的形式化描述。后来,本体也用于为知识图谱定义知识体系。

Web

Web的诞生对知识图谱产生了深远影响。

Tim Berners-Lee最早提出了Web的愿景,他认为:Web应该是一个以“链接”为中心的信息系统,以图的方式相互关联

Tim认为,图的方式比基于树的固定层次化组织方式更有用,从而促成了万维网的诞生。我们可以简单理解为,在Web中,一个网页就是一个结点,网页中的超链接就是边。

语义网

1994年,在第一届国际万维网大会上,Tim又指出,人们搜索的并不是页面,而是数据或事物本身,由于机器无法有效地从网页中识别语义信息,因此仅仅建立Web页面之间的链接是不够的,还应该构建对象、概念、事物或数据之间的链接。

所以Tim又提出了语义网的概念。语义网仍然基于图和链接的组织方式,但图中的结点不再是网页,而是实体。

链接数据

进一步强调数据之间的连接。

知识图谱

在2012年,Google基于语义网中的一些理念进行了商业化实现,其提出的知识图谱概念沿用至今。


知识图谱的概念是和Web、自然语言处理(NLP)、知识表示(KR)、数据库(DB)、人工智能(AI)等密切相关的。

  • 从Web的角度来看,构建知识图谱需要建立数据之间的语义链接,并支持语义搜索。
  • 从NLP的角度来看,构建知识图谱需要了解如何从非结构化的文本中抽取语义和结构化数据。
  • 从KR的角度来看,构建知识图谱需要了解如何利用计算机符号来表示和处理知识。
  • 从AI的角度来看,构建知识图谱需要了解如何利用知识库来辅助理解人类语言,包括机器翻译问题的解决。
  • 从DB的角度来看,构建知识图谱需要了解使用何种方式来存储知识。

定义

目前,对于知识图谱来说,国内还没有唯一的定义。不同的专家、教授给出了不同的定义,但所有的定义中都强调了知识图谱的结构化、结点之间的联系


知识图谱的典型应用

  • 搜索引擎
  • 药理学知识图谱
  • 金融知识引擎
  • 政府管理、情报分析
  • 电商商品知识图谱
  • 聊天机器人

知识图谱的技术流程


知识来源

可以从多种来源获取知识图谱数据,包括文本、结构化数据库、多媒体数据、传感器数据和人工众包等。

获取数据后,我们需要对数据进行知识化。这个过程需要综合利用各种不同的技术手段。

  • 文本

综合使用以下技术实现从文本中抽取知识。

实体识别【一种信息提取技术。从文本数据中获取人名、地名等实体数据】

实体链接【将文本中出现的实体提及关联到对应知识图谱的页面】

关系抽取【从一段文本中抽取出(主体,关系,客体)这样的SPO三元组】

事件抽取【把含有事件信息的非结构化文本以结构化的形式呈现 如死亡】

  • 结构化数据库

已有的结构化数据库通常不能直接作为知识图谱使用,需要如下操作

1.将结构化数据定义到本体模型之间的语义映射。

2.编写语义翻译工具实现结构化数据到知识图谱的转化。

3.综合采用其他技术提升数据的规范化水平,增强数据之间的关联。

  • 传感器数据

定义符合语义标准的数据接口;

对传感数据进行语义封装;

对传感数据增加上下文语义描述;

  • 人工众包

WikidataSehema.org 都是较为典型的知识众包技术手段


知识表示

知识表示是指用计算机符号描述和表示人脑中的知识,以支持机器模拟人的心智进行推理的方法与技术。

知识表示决定了知识图谱的语义描述框架Schema本体知识交换语法实体命名ID体系。

什么是Schema

简单来说,可以理解为类与类的关系。

什么是RDF

w3school中是这样解释的:

RDF 指资源描述框架(Resource Description Framework)
RDF 是一个用于描述 Web 上的资源的框架
RDF 提供了针对数据的模型以及语法,这样独立的团体们就可以交换和使用它
RDF 被设计为可被计算机阅读和理解
RDF 被设计的目的不是为了向人们显示出来
RDF 使用 XML 编写
RDF 是 W3C 语义网络活动的组成部分
RDF 是一个 W3C 推荐标准

按知识类型的不同,知识图谱包括词(Vocabulary)、实体(Entity)、关系(Relation)、事件(Event)、术语体系(Taxonomy)、规则(Rule)等。

  • 词一级的知识以为中心,并定义词与词之间的关系,如 WordNetConceptNet 等。
  • 实体一级的知识以实体以实体为中心,并定义实体之间的关系、描述实体的术语体系等。
  • 事件是一种复合的实体:

W3C 的 RDF 把三元组(Triple)作为基本的数据模型,其基本的逻辑结构包含主语(Subject)、谓词(Predicate)、宾语(Object)三个部分。虽然不同知识库的描述框架的表述有所不同,但本质上都包含实体实体的属性实体之间的关系几个要素。


知识抽取

  • 概念抽取
  • 实体识别
  • 关系抽取
  • 事件抽取
  • 规则抽取

知识融合

在构建知识图谱的时候,我们可以将多个知识图谱融合,或者将外部已有的结构化数据库合并到本体数据库。

在融合过程中,我们需要处理两个层面的问题;

  • 【模式层的融合】将新得到的本体融入已有的本体库中
  • 【数据层融合】实体指称、属性、关系、类别,需要避免新旧数据冲突

对于已有的实体和关系,需要将那些含义相同但又具有不同标识符的实体进行合并;

对于新增的实体和关系,需要进行验证和评估,确保知识图谱内容的一致性和准确性【常用方法是在评估过程中,为这些新加入的知识赋予一个可信度值,后续进行知识过滤和融合会很方便】;

实体消歧与共指消解:

判断知识库中同名的实体会不会代表不同的含义;

判断知识库中是否存在不同命名的实体表示相同的含义;


知识图谱的补全与推理

  • 基于本体推理的补全
  • 基于图结构和关系路径特征的补全
  • 基于学习和知识图谱嵌入的链接进行预测

知识检索与知识分析

基于知识图谱的知识检索的实现方式:语义检索、智能问答

  • 传统搜索引擎依靠网页之间的超链接实现网页的搜索,
  • 语义搜索直接对事物进行搜索,如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、loT设备等各种信息资源。知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述,使得搜索引擎可以直接对事物进行索引和搜索。

基于知识图谱的知识分析:辅助做数据分析与决策

例如,大数据公司 Plantir基于本体融合和集成多种来源的数据,通过知识图谱和语义技术增强数据之间的关联,使得用户可以用更加直观的图谱方式对数据进行关联挖掘与分析。

近年来,描述性数据分析越来越受到重视。描述性数据分析是指依赖数据本身的语义描述实现数据分析的方法。

不同于计算性数据分析主要以建立各种数据分析模型,如深度神经网络,描述性数据分析突出预先抽取数据的语义,建立数据之间的逻辑,并依靠逻辑推理的方法(如Datalog)实现数据分析。


知识图谱构建流程

通过上面的学习,对知识图谱的构建、应用都有了初步了解,我们再次对知识图谱的构建流程做一个概括总结。

  1. 知识抽取
  2. 知识存储【可以采用Neo4j】
  3. 知识加工【对已经获取的知识进行推理和拓展】
  4. 知识融合【实体消歧与共指消解】
  5. 知识合并

参考资料:

什么是知识图谱?有哪些典型应用?终于有人讲明白了 (360doc.com)

知识图谱入门:知识图谱的技术流程_清如许.的博客-CSDN博客_知识图谱技术路线

知识图谱构建流程步骤详解_春末的南方城市的博客-CSDN博客_知识图谱构建

最后修改:2022 年 08 月 12 日
如果我的文章帮到了你,请我喝杯奶茶吧