河南商都建设有限公司网站,佛山网站建设网站制作公司哪家好,知识库主题 wordpress,企业网站源码模板研究证实#xff0c;人类从一出生即开始累积庞大且复杂的数据库#xff0c;包括各种文字、数字、符码、味道、食物、线条、颜色、公式、声音等#xff0c;大脑惊人的储存能力使我们累积了海量的资料#xff0c;这些资料构成了人类的认知知识基础。实验表明#xff0c;将数…研究证实人类从一出生即开始累积庞大且复杂的数据库包括各种文字、数字、符码、味道、食物、线条、颜色、公式、声音等大脑惊人的储存能力使我们累积了海量的资料这些资料构成了人类的认知知识基础。实验表明将数据依据彼此间的关联性进行分层分类管理使资料的储存、管理及应用更加系统化可以提高大脑运作的效率。知识库是实现人工智能的基础元件知识库是理解人类语言的背景知识而如何构造这个知识库找到一种合适的知识表示形式是人工智能发展的重要任务。面向人工智能的表示方法从上世纪五六十年代开始至今已经陆续出现了多种知识表示方式包括最开始的一阶谓词逻辑以及现在火热的知识图谱等等。本文是上一篇《事件、事件抽取与事理图谱》的姊妹篇文章将以知识为中心对知识、知识表示、知识图谱的历史情况进行介绍。
知识与表示知识
什么是知识定义各有不同。Feigenbaum认为知识是经过削减、塑造、解释和转换的信息Bernstein提出知识是由特定领域的描述、关系和过程组成的Hayes-Roth认为知识是事实、信念和启发式规则从知识库的角度上看知识是某领域中所涉及的各有关方面的一种符号表示。而就知识本身而言也分成多种类型以面向计算机处理的知识而言知识主要包括陈述性知识、过程性知识以及元知识其中陈述性知识指用于描述领域内有关概念、事实、事物的属性和状态等信息如雪是白的过程性知识指具有动态时序性步骤的信息如炒菜的一般步骤元知识指使用陈述性和元知识的使用规则、解释规则、校验规则以及解释程序结构等。当然为了充分表示这些知识类型需要提出一种知识表示方法而如何衡量一个知识表示方法的好坏主要从知识表示的准则上来看一个好的知识表示首先应该适用于计算机处理应该能够尽可能广泛地表示知识的范围包括陈述性知识和动态性知识确定性知识和不确定性知识等其次知识表示的方式是否自然、灵活能否将知识和元知识采用统一的形式化表示方式并且能够在同一层次以及不同层次上实现模块化。最后该知识表示方式是否利于加入启发信息是否具有高效的求解算法是否适合推理。
知识表示方法
目前为了刻画计算机所需要的知识知识表示经历了不同时期与不同的表示方法。如图1所示目前知识表示以及知识表示对应的技术方法经历了如下转变。 图1
细节上来说知识表示主要经历了从一阶谓词逻辑表示、产生式规则、框架表示法、脚本表示法、语义网表示法、知识图谱表示法等几种表示各种表示方式都有其优缺点接下来分别对其进行介绍。
一阶谓词逻辑是最早出现的一种形式语言表示形式是一种形式系统Formal System)即形式符号推理系统也叫一阶谓词演算、低阶谓词演算(Predicate Calculus、限量词Quantifier理论也有人称其为“谓词逻辑”图2是其中的一个表示方式。是一种通过命题、逻辑联结词、个词体、谓词与量词等部件组成的表示方法这种方法较为精确表达自然在形式上可接近于人类自然语言但表示能力较差只能表达确定性知识对于过程性和非确定性知识表达有限另外由于知识之间是相互独立的知识与知识之间缺乏关联使得知识管理实施相对困难。 图2
产生式规则在一阶谓词逻辑表示的基础上进一步解决了不确定性知识的表示产生式规则以三元组(对象属性值)或者(关系对象1对象2)通过进一步加入置信度形成四元组(对象属性值置信度)或者(关系对象1对象2置信度)的形式来表示事实并使用P-Q或者IF P THEN Q的形式用于表示规则这种表示方法可以表示不确定性知识和过程性知识具有一致性和模块化等优点通过规则可以实现推理功能广泛运用于上世纪70年代的专家系统当中但这种方法不能表示结构性和层次性的知识。
因此为了表示结构化知识一种以描述对象属性数据结构的框架Frame理论被提出最早由Minsky明斯基在1975年首创。该框架将知识描述成一个由框架名、槽、侧面和值组成的数据结构如图3所示为表示地震信息的知识表示框架。框架表示法在框架这个层次上进一步引入类和实例的概念加入subclass of , instance of等关系实现了知识框架上的层次结构。这种框架知识表示法较先前两种方式具有结构化、继承性等优点使得知识之间具有了嵌套式结构信息其中框架内部表示知识结构框架外部表示知识之间的外部关系在继承性上子类框架可以继承父类框架的属性和值这样可以极大地减少建模空间。框架理论最早提出了”缺省”default的概念成为常识知识表示的重要研究对象但这种表示方式关注与知识内部与知识之间的关联不能表示过程性知识缺乏明确的推理机制。 图3
为了表示过程性知识1975年由夏克从框架发展出”脚本”表示方法这种表示方式可以描述事件及时间顺序并成为基于示例的推理CBRcase-based reasoning的基础之一。如图4所示为一个典型的餐厅脚本表示方法。 图4
与框架表示法类似脚本表示法的原理在于把人类生活中各类故事情节的基本概念抽取出来构成一组原子概念确定这些原子概念间的相互关系然后把所有故事情节都用这组原子概念及依赖关系表示出来。从内部构成上来看脚本用来表示特定领域内的事件发生序列包含了紧密相关的动作以及状态改变的框架在知识结构的表示上引入进入条件、角色、道具、场景等组件作为整个事件的表示可以细致的刻画出一个事件内的步骤和时序关系但这种表示方式较为局限不能对对象的基本属性进行描述和刻画对于复杂的事件上描述能力也存在局限。
同时期Quillian于1968年提出了语义网络Semantic Network的概念在研究人类联想记忆时提出认为记忆是由概念之间的联系来实现的。Simmon于1970年正式提出语义网络并论证了语义网络与一阶谓词逻辑的关系认为语义网络是一种以网格格式表达人类知识构造的形式使用相互连接的点和边来表示知识节点表示对象、概念边表示节点之间的关系如图5所示 图5
语义网络最早是作为人类联想记忆的一个明显公理模型提出在人工智能的程序中谓词及其边可以看作是语义网络中的结点而格关系则相当于结点之间的连结形式。语义网络能够直接明确地表示概念之间的语义关系是对人语义记忆和联想方式的一种模拟结构中的关系可快速用于推理。与一阶谓词逻辑和产生式规则表示法中将事实和规则当作进行独立处理相比语义网络从整体上对各种事实和规则进行表示在演绎结构上语义网络不具备特定的推理演绎结构而是进行知识的深层次表示和推理但就从知识表示的能力上来看语义网络对于动态知识过程性的知识还不能表示。此外语义网络没有公认的形式表示体系并且由于语义网络表示知识的手段多种多样这种不一致的表示形式使得处理复杂度相对较高。
随着互联网的发展进入21世纪语义网(semantic web)于2011年被提出需要注意的是语义网并不是要构建一个通用的、综合性的、基于internet的智能系统而是要实现对web数据集间的互操作。语义网的概念来源于万维网本质上是一个以web数据为核心以机器理解和处理的方式进行链接形成的海量分布式数据库严格上来说不是一个知识表示方法而是一种数据组织方式。如图6所示语义网提供了一个用于描述领域知识内部概念、术语和关系共6层的语义网体系结构。第一层使用URI即通用资源标识对网络资源进行唯一表示第二层使用XML格式来表示标示数据的表现形式第三层是用RDF以及RDF-schema对网络资源的类型进行描述第四层是用本体词汇层用来描述资源之间的关系第五层是逻辑层主要提供基于资源知识库的公理和推理规则第六层和第七层分别是证明层和信任层主要用于对规则和数据交换时的正确性以及安全性进行规定。XML\RDF以及本体三层是整个语义网体系网络中的核心其中XML提供了一种结构化文档的表层语法RDF层简单地对网络资源以及资源之间的关系进行了简单的语义描述RDFschema在RDF的基础上进一步引入了类和属性的概念为资源引入了类和属性的层次结构语义但不具备推理能力。为了进一步拓展RDFS的语义描述能力和推理能力OWL引入本体引入描述类和属性的建模原语如目前统一的本体schema.org。 图6
2012年Google推出基于知识图谱的搜索服务首次提出知识图谱的概念如图7所示。与语义网不同知识图谱不太专注于对知识框架的定义而是从工程的角度上去处理知识问题着重处理从文本中自动抽取或者依靠众包方式获取知识三元组。狭义上知识图谱指具有图结构的三元组知识库内部包括实体实体属性以及实体之间的关系三类事实知识图谱本身是一个有向图实体作为知识图谱的节点事实作为知识图谱的边方向由头实体指向尾部实体边是实体之间的关系。知识图谱真正的魅力在于其图谱中的图结构这种结构为运行搜索随机游走、网络流等算法提供了可能。 图7
知识图谱表示的思考
从以上的介绍中我们可以看到从最简单的逻辑符号表达系统到现在的知识图谱表示方式整个知识表示方式已经逐步体系化复杂化所能表达的知识范围也在逐步扩大对现实社会知识的建模能力也越来越强。知识图谱其实并不是一个新的概念从形式上语义网络(semantic network)、语义网(semantic web)、知识图谱(knowledge graph)三者十分相关。语义网络提出得最早这是为了描述人类知识而采用的一种图结构表示方法这种表示方法与目前我们所谈到的知识图谱从展示形式上基本一致语义网是与语义网络不同的概念语义网络的出发点不是为了描述人类知识而是为了表示web资源属于web资源的一种描述框架主要是面向计算机搜索而生的一种表示方法。知识图谱的概念从提出的方式来看也是为搜索而生与语义网关系较为密切我们可以认为知识图谱来源于语义网也可以认为知识图谱来源于语义网络。与语义网中所描述的以网络资源作为唯一实体不同知识图谱中的节点是以实体作为表示在本体表示上是对语义网的一个简化版本与语义网络相比知识图谱进一步了引入了本体的概念也继承了语义网中的万物互联的思想对事实进行了概念性和结构性约束相当于是语义网络的升级版但更偏向工程性。
就知识的表达能力而言领域性是知识图谱的一大特性领域性的图谱只能刻画领域性的知识。在描述知识的范围上知识图谱可以刻画确定性的知识也可以刻画不确定的知识(在关系边上标注置信度信息)这些知识组织可以表示整个领域知识全景。在领域知识结构的表示上知识图谱借助本体表示框架可以对领域的整个知识体系包括上下位概念体系属性关系结构信息等进行描述并对人类认知能力进行模拟。我们知道抽象能力和概括能力是实现人类认知的两个必备能力之一。其中抽象能力就是在思维活动中通过对事物整体性的科学分析把自己认为是事物的本质方面、主要方面提取出来舍弃非本质、非主要的东西从而形成概念和范畴的思维能力美国心理学家贾德认为概括是产生学习迁移的关键学习者只有对他的经验进行了概括获得了一般原理才能实现从一个学习情景到另一个学习情景的迁移才能“举一反三”、“闻一而知十”。概括能力是智能的基本功儿童将知识概括化的过程就是将知识结构转化成认知结构的过程就是将知识智能化的过程。知识图谱中的概念以及概念之间的上下位关系可以对应于抽象能力知识图谱中事实之间的相关性可以为知识之间的概括和迁移能力提供帮助。
然而知识图谱在表达过程性知识上显得比较乏力知识图谱主要描述的还是领域中一些静态本体知识知识更多的还是分类形式下的静态类型知识。从上面的介绍中我们可以看到除了产生式规则表示法和脚本知识表示法能够对过程性动态知识进行表示之外其他几种知识表示方法都集中于描绘静态知识。此外知识图谱中所使用的本体建模在实际的工程环节中带来了许多问题如在同一领域中不同的知识生成者都会根据自己的需求和理解去定义一些存在差异性的本体这种直接就造成了在后期进行知识融合时需要在本体概念层进行融合的问题本体扩充的问题同一本体往往在后期的使用过程中需要不断进行扩充或更改无法最开始就定义完全此外本体构建需要专家进行构建这样的时间成本十分高昂。因此需要寻求一种新的知识本体表示形式将脚本表示方法和知识图谱表示方法进行融合找到一种新型的、既能表示静态知识又能表示动态过程性知识能够对动态知识中的空间和时间信息进行描述同时完成对元知识类型进行对接将是未来知识表示发展的一个重要方向。
知识图谱与事理图谱
上一节提到知识图谱表示方法和脚本表示方法的融合将是未来知识表示方法上的一个新的方向。目前事理图谱可能是对这一方法的一种实践与目前所熟知的抽象事件动态演化图谱不同我们认为事理图谱是新一代知识图谱未来方向的一个重要形态我们将事理图谱定义为“事理图谱是以“事件”为核心的新一代动态知识图谱结构上具有抽象概念本体层和实例等多层结构构成上包括静态实体图谱和动态事件逻辑图谱两部分功能上注重描述事件及实体在时空域上的丰富逻辑事理关系(顺承、因果、反转、条件、上下位、组成等)应用上可通过抽象、泛化等技术实现类人脑的知识建模、推理与分析决策”。目前我们基于事件关系抽取、事件融合等技术构建起了规模400w的事理图谱效果如图8所示 图8
并以该图谱作为基本知识基础探索事理图谱的知识表示体系框架并不断需求事理图谱与实际应用场景的结合。
事件预警是目前我们使用事理图谱的应用尝试事件预警是一个面向商品领域的重要资讯预警产品。我们通过监控上千家全行业网站实时采集相关资讯通过抽取识别资讯中的事件将事件与事理图谱中的事件进行链接结合情感分析技术、文本标签技术、文本重要性判定技术对具有影响力的资讯进行过滤最终为用户实现自定义标的的预警资讯筛选以及基于该预警资讯的影响寻迹探索。如图9所示对于采集到的资讯我们会对其进行判定给出该资讯所能造成的影响为了能够对最终结果给出影响的原因解释我们给出了该影响所遵循的事理图谱链条见页面右侧所示的事理图谱缩略图。在点击事理图谱缩略图后可进入详情页如图10所示页面给出资讯全文影响事件事理图谱(可支持全屏点击拓展查看)在页面的右侧我们列举了与当前资讯具有事件影响相关的历史资讯类似于kensho的做法通过这种方式我们尝试将历史事件影响应用于当前的资讯推荐与风险预警当中。 图9 图10 事件预警是其中的一个应用例子此外我们还正在开展事理图谱在其他领域的尝试如文本理解可视化系统等欢迎持续关注我们的工作。总结
面向人工智能的表示方法从上世纪五六十年代开始已经陆续出现了多种知识表示方式如最开始的一阶谓词逻辑到现在火热的知识图谱等本文是上一篇《事件、事件抽取与事理图谱》的姊妹篇文章以知识为中心对知识、知识表示、知识图谱的历史情况进行了介绍我们认为将现有知识图谱表示方式和脚本表示方法进行融合实现静态性确定性和非确定性知识和动态过程性知识、推理性元知识等的描述将是未来知识表示方式的一个方向。目前我们在开展深入研究事理图谱相关技术理论的同时正在寻求事理图谱技术的落地应用将事理图谱应用于资讯预警取得了不错的效果接下来我们将尝试更多领域的应用。
经过长期的技术研究和理论积累我们在情感分析、信息抽取、文本结构化、知识图谱以及事理图谱等几个方向开展了一系列的工作我们也在寻求运用这些技术实现的落地应用场景欢迎订阅关注我们的公众号Datahorizon持续关注我们的工作。我们的官网是www.datahorizon.cn。如有技术交流与商业合作可与我们联系mktdatahorizon.cn。
参考文献 [1]石纯一等,人工智能原理,清华大学出版社,1993年10月 [2]李恩著,领导思维能力漫谈,蓝天出版社,2001年04月第1版,第70页 [3]《数学辞海》编辑委员会.数学辞海·第六卷.北京:中国科学技术出版社2002 [4]M Malhotra,Evolution of Knowledge Representation and Retrieval Techniques, International Journal of Intelligent Systems Technologies and Applications 7(7):18-28 · June 2015 [5]https://blogs.msdn.microsoft.com/willy-peter_schaub/2010/01/27/unisa-chatter-formal-logic-propositional-logic-summary/ [6]刘建炜等知识表示比较研究计算机系统应用2010 年 第20卷 第 3 期
文章为原创如有转载请注明出处。 作者简介 刘焕勇中国科学院软件研究所主要从事信息抽取、社会计算、知识图谱与事理图谱相关研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作可联系作者 1、我的github项目介绍https://liuhuanyong.github.io 2、我的csdn博客https://blog.csdn.net/lhy2014 3、about me:刘焕勇中国科学院软件研究所lhy_in_blcu126.com