一、知识图谱的定义及分类
知识图谱本质上是一种把世界实体和实体关系进行相互关联的语义网络,其中的节点表示实体,边则代表实体之间的各种语义关系。在学术论文中,则根据应用场景和技术背景等,对于知识图谱提出了很多不同的定义。总体来看,虽然知识图谱没有统一的定义,但是公认的知识图谱的概念应该包括如下几个基本要素:知识节点(从实际对象抽象而来)、边(节点间的关系,由实际关系抽象而来)和对象的数量(节点和边的数量要足够大)。
知识图谱可以从不同的角度可以将其分为不同的类型,比如从构建方法、构建技术、使用方式等。目前比较常用的分类方法是从应用目标出发,将其分为通用知识图谱和垂直知识图谱。通用知识图谱不面向特定的领域,强调的是知识的广度,包含了大量的常识性知识;而垂直知识图谱则面向特定领域,强调的是知识的深度,包含的某个领域的特色知识。
通用知识图谱与垂直知识图谱比较
资料来源:华经产业研究院整理
二、知识图谱的架构
1、逻辑架构
知识图谱的逻辑结构可以分为模式层和数据层两部分。模式层在数据层之上,存储的是经过提炼的知识,通常采用本体等技术来管理。模式层借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体类型和属性等对象之间的联系。数据层则主要由一系列的事实组成,知识则是以事实为单位进存储。在知识图谱的数据层,知识可以用事实为单位进行存储,也可以采用“实体-关系-实体”或者“实体-属性-性值”的三元组作为存储方式。
知识图谱的逻辑架构
资料来源:华经产业研究院整理
2、技术架构
知识图谱的构建方式可以分为自顶向下和自底向上两种。自顶向下的构建方式从结构化资源出发,通过从资源中抽取本体和模式信息,不断地加入到知识库中;自底向上的构建方法则是从公开的资源中采取技术手段获取资源,并对资源进行人工审核后再加入知识库中。对于通用知识图谱的构建来讲,因为具有大量百科类网址资源的存在,为其提供了高质量的数据源,可以首先建立起良好的体系架构,然后从数据源中抽取所需的数据,将其填充到合理的位置中即可。目前通用的知识图谱都非常依赖这种方法,也非常依赖高质量的数据源。
而自底向上的构建方法首先面对的可能是大量的结构不良甚至是无结构的数据,这在实际处理中是非常困难的。后来随着知识抽取技术的发展,自底向上的构建方式才逐渐流行起来。但是由于垂直领域知识具有更为严格的层次结构和表达形式,传统的自顶向下或者自底向上方式都不适合直接用来构建知识图谱。阮彤等人提出了基于数据驱动的增量式知识图谱构建方法。该方法通过自顶向下的方式构建知识图谱的模式图,采用自底向上的方式构建数据图,即保证了知识的层次性,又为数据抽取的质量提供了保障。
三、知识图谱的关键技术
无论图谱的构建模式如何(自顶向下或者自底向上),其中的关键技术都是相同的。从下图中可以看出,知识抽取、知识融合、知识推理和知识应用等都是知识图谱体系中的关键技术。需要指出的是,垂直领域知识图谱是源于通用知识图谱且根植于特定行业,所以其构建中的关键技术与通用知识图谱相对比,既具有类似性也具有独特的特点。
知识图谱关键技术
资料来源:华经产业研究院整理
相关报告:华经产业研究院发布的《2021-2026年中国知识图谱行业市场全景调研及投资规划建议报告》
四、国内垂直领域知识图谱现状
知识图谱作为一种基础性资源,在促进国民经济各个行业的知识化方面具有重要的意义。国内目前对于知识图谱的应用种类繁多,在电商平台、企业信息、科技情报、创业投资、农林科技、医疗卫生、工业应用、影音娱乐等不同领域均有应用。
国内企业界对于知识图谱的研究目前非常活跃,特别是一些大型的互联网企业,对于知识图谱的需求是非常强烈的。例如百度的知识图谱自从2014年上线开始,业务规模三年间增长了大约160倍;搜狗借助基于知识图谱的AI技术,使得其移动端的搜索流量取得了快速增长;腾讯则利用自己的数据优势构建了自己的社交知识图谱,服务于众多的产品;基于知识图谱的个性化推荐系统则为阿里的营收增长起到了至关重要的作用。
相比较于与BAT(百度、腾讯、阿里巴巴)这类大公司而言,垂直知识领域则是国内创业公司的首选。为了弥补自己的专业领域数据不足等劣势,国内的创业公司往往选择和相关领域的企业合作,以垂直领域作为市场切入点,以行业数据和知识图谱相关技术(如自然语言处理,大数据等)作为壁垒来保证企业的成长。各类企业的积极参与,使得国内业界的知识图谱可以形成一个良性的闭环发展模式,进一步促进了知识图谱本身的发展。
垂直领域知识图谱应用案例
资料来源:华经产业研究院整理
五、基于CiteSpace软件的研究
相比较而言,更多的研究人员将CiteSpace作为一个工具,对不同领域的问题进行了多视角的分析探讨。经过统计分析,目前管理科学领域,如图书情报学、管理科学与工程、公共管理与工商管理等,占据了应用领域的大部分,其余的则分布在人文社科等领域。但是随着该工具的应用的普及,在自然科学领域的应用也在迅速发展。从应用方式上看,主要表现选择特定领域,采用CNKI或者WebofScience的数据库,搜集数据,然后对该领域进行分析。
CiteSpace研究流程
资料来源:华经产业研究院整理
基于CiteSpace的研究案例
资料来源:华经产业研究院整理
六、知识图谱行业发展展望
国民经济的各个垂直领域对于知识图谱的需求是非常强烈的,知识图谱可以应用的范围也是非常广阔的,因此建设垂直领域知识图谱对于经济社会发展是非常有必要的。目前在垂直领域,知识图谱应用的范围还是较窄的,集中在一些可以迅速见到效益的领域(如电商、搜索等),且应用的深度不够,多是集中在图谱的构建上,还未在行业中真正形成使用和建设的良性循环。在未来,知识图谱应该作为和国家标准一样的基础知识资源进行建设,建立相应的国家、行业规范。在实际的应用场景下,各个垂直领域更多的关注于本行业的知识资源建设与使用,而不必关心知识图谱的表现形式和底层技术。这样必将能极大的提高各个行业的知识化水平,为我国经济社会发展提供更强的助力。
华经产业研究院对中国知识图谱行业发展现状、市场供需情况等进行了详细分析,对行业上下游产业链、企业竞争格局等进行了深入剖析,最大限度地降低企业投资风险与经营成本,提高企业竞争力;并运用多种数据分析技术,对行业发展趋势进行预测,以便企业能及时抢占市场先机;更多详细内容,请关注华经产业研究院出版的《2020-2025年中国知识图谱行业市场调查研究及投资战略咨询报告》。