山东网站建设xywlcn,建设网站设计的公司,搜索微信公众号平台,渠道推广代理本文转载自公众号#xff1a;恒生技术之眼。“ 我们太容易被机器下棋这样的事所吸引#xff0c;以至于现在谈到人工智能就基本都是在说机器学习和深度学习#xff0c;而相对忽视了与人工智能相关的另外一个重要的方向#xff1a;知识图谱。——陈华钧”尽管人工智能依靠机器… 本文转载自公众号恒生技术之眼。“ 我们太容易被机器下棋这样的事所吸引以至于现在谈到人工智能就基本都是在说机器学习和深度学习而相对忽视了与人工智能相关的另外一个重要的方向知识图谱。——陈华钧”尽管人工智能依靠机器学习技术的进步取得了巨大的进展例如AlphaGoZero不依赖人类知识的监督通过自我强化学习获得极高的棋力但人工智能在很多方面如语言理解、视觉场景理解、决策分析等仍然举步维艰。关键问题在于机器必须要掌握大量的知识特别是常识知识才能实现真正类人的智能。人类知识与机器知识哲学家柏拉图把知识Knowledge定义为“Justified True Belief”即知识需要满足三个核心要素合理性Justified、真实性True、被相信Believed。简单而言知识是人类通过观察、学习和思考有关客观世界的各种现象而获得和总结出的所有事实Facts、概念Concepts、规则或原则Rules Principles的集合。人类发明了各种手段来描述、表示和传承知识如自然语言、绘画、音乐、数学语言、物理模型、化学公式等。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的重要特征。人工智能的核心也是研究怎样用计算机易于处理的方式表示、学习和处理各种各样的知识。知识表示是现实世界的可计算模型 (Computable Model of Reality)广义的讲神经网络也是一种知识表示形式。在人工智能的早期发展流派中符号派Symbolism侧重于模拟人的心智研究怎样用计算机符号来表示人脑中的知识和模拟心智的推理过程连接派Connectionism侧重于模拟人脑的生理结构即人工神经网络。符号派一直以来都处于人工智能研究的核心位置。近年来随着数据的大量积累和计算能力大幅提升深度学习在视觉、听觉等感知处理中取得突破性进展进而又在围棋等博弈类游戏、机器翻译等领域获得成功使得人工神经网络和机器学习获得了人工智能研究的核心地位。深度学习在处理感知、识别和判断等方面表现突出能帮助构建聪明的AI但在模拟人的思考过程、处理常识知识和推理以及理解人的语言方面仍然举步维艰。符号派关注的核心是知识的表示和推理KRRKnowledge Representation and Reasoning。早在1960年认知科学家Allan M. Collins提出用语义网络Semantic Network来研究人脑的语义记忆。WordNet是典型的语义网络它定义了名词、动词、形容词和副词之间的语义关系例如动词之间的蕴含关系如“打鼾”蕴含着“睡眠”等。WordNet被广泛应用于语义消歧等自然语言处理领域。从“知识库”到“推理机”1970年随着专家系统的提出和商业化发展知识库构建和知识表示更加得到重视。专家系统的基本想法是专家是基于大脑中的知识来进行决策因此人工智能的核心应该是用计算机符号来表示这些知识并通过推理机模仿人脑对知识进行处理。依据专家系统的观点计算机系统应该由知识库和推理机两部分组成而不是由函数等过程性代码组成。早期专家系统最常用的知识表示方法包括基于框架的语言Frame-based Languages和产生式规则Production Rules等。框架语言主要用于描述客观世界的类别、个体、属性及关系等较多的被应用于辅助自然语言理解。产生式规则主要用于描述类似于IF-THEN的逻辑结构适合于刻画过程性知识。经常与知识表示并提的另外一个重要概念是机器推理实际上推理相比于机器学习对于高层AI的实现来说可能更加重要。目前AI比较前沿的研究方向都是在考虑怎样把连接主义所推动的机器学习能力与传统符号主义所关注的机器推理问题相结合以实现感知到认知层的跨越。让机器像人类一样认知世界知识图谱说yes知识图谱的早期理念来自于Web之父Tim Berners Lee于1998年提出的Semantic Web其最初理想是把基于文本链接的万维网转化成基于实体链接的语义网。语义网十余年的发展积累了大量语义知识库如Freebase、DBpedia、Yago、WikiData等。谷歌在吸收语义网相关成果基础上于2012年推出了基于其称之为知识图谱的搜索引擎产品。随后知识图谱逐步在语义搜索、智能问答、辅助语言理解、辅助大数据分析等很多领域发挥出越来越重要的作用。1989年万维网之父、图灵奖获得者Tim Berners-Lee提出构建一个全球化的以“链接”为中心的信息系统Linked Information System。任何人都可以通过添加链接把自己的文档链入其中。他认为以链接为中心和基于图的组织方式比起基于树的层次化组织方式更加适合于互联网这种开放的系统。这一思想逐步被人们实现并演化发展成为今天的World Wide Web。1994年Tim Berners-Lee 又提出Web不应该仅仅只是网页之间的互相链接。实际上网页中所描述的都是现实世界中的实体和人脑中的概念。网页之间的链接实际包含有语义即这些实体或概念之间的关系然而机器却无法有效的从网页中识别出其中蕴含的语义。他于1998年提出了Semantic Web语义互联网的概念。Semantic Web仍然基于图和链接的组织方式只是图中的节点代表的不只是网页而是实体如人、机构、地点等而超链接也被增加了语义描述具体标明实体之间的关系如出生地是、创办人是等。相对于传统的网页互联网Semantic Web的本质是知识的互联网或语义互联网。在语义互联网被提出之后出现了一大批新兴的语义知识库。如作为谷歌知识图谱后端的Freebase作为IBM Waston后端的DBPedia和Yago作为Amazon Alexa后端的True Knowledge作为苹果Siri后端的Viv等。尤其值得一提的是2010年谷歌收购了早期语义网公司MetaWeb并以其开发的Freebase为数据基础之一于2012年正式推出了称为知识图谱的搜索引擎服务。谷歌知识图谱的宣传口号是“Things, Not Strings!”。所解决的核心问题是把对文本String的网页搜索转化为的对事物Things的语义搜索可以看做是语义互联网的一种商业化实现。从“后备”到“前锋”现代知识图谱遇难题知识图谱并非突然出现的新技术而是历史上很多相关技术相互影响和继承发展的结果这包括语义网络、知识表示、本体论、Semantic Web、自然语言处理等有着来自Web、人工智能和自然语言处理等多方面的技术基因。从早期的人工智能发展历史来看Semantic Web是传统人工智能与Web融合发展的结果是知识表示与推理在Web中的应用RDF/OWL都是面向Web设计实现的标准化的知识表示语言而知识图谱则可以看做是Semantic Web的一种简化后的商业实现。但我们要强调知识图谱与传统专家系统时代的知识工程有显著的不同。首先传统专家系统的知识库构建大多以实现高端的决策智能为目标而知识图谱虽然也被用来实现大数据决策分析如Plantir其首要的应用目标是辅助搜索和智能问答。另外一方面与传统专家系统时代主要依靠专家手工获取知识不同现代知识图谱的显著特点是规模巨大无法单一依靠人工和专家构建。传统的知识库如由Douglas Lenat从1984年开始创建的常识知识库Cyc仅包含700万条的事实描述Assertion最新的ConceptNet 5.0也仅包含2800万RDF三元组关系描述而现代知识图谱已经包含超过千亿级别的三元组。知识图谱的规模化发展现代知识图谱对知识规模的要求源于“知识完备性”难题。冯诺依曼曾估计单个个体的大脑中的全量知识需要2.4*1020个bits来存储。客观世界拥有不计其数的实体人的主观世界更加包含有无法统计的概念这些实体和概念之间又具有更多数量的复杂关系导致大多数知识图谱都面临知识不完全的困境。在实际的领域应用场景中知识不完全也是困扰大多数语义搜索、智能问答、知识辅助的决策分析系统的首要难题。此专家非彼专家领域知识图谱变身“百事通”领域知识图谱是相对于通用知识图谱如DBPedia、Yago、Wikidata等而言面向特定领域的知识图谱如电商、金融、医疗等。相比较而言领域知识图谱知识来源更多、规模化扩展要求更迅速、知识结构更加复杂、知识质量要求更高、知识的应用形式也更加广泛。通用知识图谱与领域知识图谱的比较以比较有代表性的金融领域为例。在金融领域围绕金融的本体知识建模一直都有不少人在做。在大约10多年前就有一批做金融信息的结构化描述的人在尝试构建整个金融领域的本体知识模型其中一直延续到现在的一项工作是FIBO。他们的目标就是希望能够定义整个金融域的规则并且是采用Top-Down的做法这是成本非常高昂的工作而我们现在更多的强调领域知识图谱的构建应该从大量数据中去挖掘和总结。金融领域比较典型的例子如Kensho采用知识图谱辅助投资顾问和投资研究国内以恒生电子为代表的金融科技机构以及不少银行、证券机构等也都在开展金融领域的知识图谱构建工作。金融知识图谱构建主要来源于机构已有的结构化数据和公开的公报、研报及新闻的联合抽取等。在知识表示方面金融概念也具有较高的复杂性和层次性并较多的依赖规则型知识进行投资因素的关联分析。在应用形式方面则主要以金融问答和投顾投研类决策分析型应用为主。金融知识图谱的一个显著特点是高度动态性且需要考虑知识的时效性对金融知识的时间维度进行建模。金融知识图谱特点细化到具体层面论述此外金融领域还有一些比较适合于做知识图谱的特点如文本资源非常丰富且动态性非常高。大量高度动态的新闻、公报、研报都是自动化获取知识图谱的有力来源在这方面我们可以较为深入应用实体识别、大规模自动化词库构建、结合远程监督和深度学习的关系抽取等多方面的图谱构建技术。只要一点一点积累高质量的知识图谱结合深度学习和自然语言处理等领域的最新进展金融知识图谱会发挥出门槛式的重大价值。结语互联网促成了大数据的集聚大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱构建提供了新的技术基础和发展条件使得知识图谱构建的来源、方法和技术手段都发生极大的变化。知识图谱作为知识的一种形式已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。AI浪潮愈演愈烈而作为底层支撑的知识图谱赛道也从鲜有问津到缓慢升温虽然还谈不上拥挤但作为通往未来的必经之路注定会走上风口。OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。