广东省网站备案,四川淘宝网站建设方案,3d渲染网站建设,电商平台的优势和劣势论文笔记整理#xff1a;谭亦鸣#xff0c;东南大学博士。来源#xff1a;ESWA141(2020)链接#xff1a;https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839为了使计算机理解人类语言#xff0c;并且实现推理#xff0c;人类知识需要被表示并储存… 论文笔记整理谭亦鸣东南大学博士。来源ESWA141(2020)链接https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839为了使计算机理解人类语言并且实现推理人类知识需要被表示并储存为能够被计算机处理的形式。知识图谱KG被设计为一种反应词及词间关系的结构形式。但是目前的知识图谱存在两个限制因素其一是对于大部分人类语言来说图谱的规模和范围存在局限性其二则是新词跟进。为了解决这些问题本文提出PolarisX一种通过实时抓取分析网络新闻和社交媒体实现自动扩展的知识图谱利用微调的BERT模型构建无语言依赖性的知识图谱。基于BERT的关系抽取模型被用来抽取新的关系并将它们添加到知识图谱中。作者验证了PolarisX的novelty与准确性确认其新词处理能力以及“无语言依赖性”。动机与贡献如上文所属现有KG存在大多数语言上的规模不足无法跟进新词等两个局限性。如表1所示这里的新词分为两种1.新词新意2.旧词新意。对于这两个问题作者认为解决的关键在于KG的构建需要跟上新词出现的节奏考虑到新词出现的频率以及开放域等特点显然依赖人工跟进解决不了这个问题一种合理的方式是爬取社交媒体获取新词而后抽取新的知识尤其是关系并添加到知识图谱中。因此本文提出了一种自动成长的知识图谱PolarisX大数据处理平台Polaris的一个部分通过爬取新闻网站以及社交媒体抽取新的关系生成对应的知识子图然后添加到知识图谱中并采用ConceptNet验证了它的有效性。作者认为本文的主要贡献为1.处理新词PolarisX能够利用已有数据生成KG并通过新闻和社交媒体实时跟进新词的涵盖2.无语言依赖性使用multilingual BERT模型通用的处理各种语言模型与算法下图是PolarisX的自动构建框架主要包含三个部分1.Social Crawler用于扩充知识资源社交媒体/新闻并做关键词抽取2.Semantic Analyzer的主要作用是确定新的关系3.Knowledge Miner负责构建和扩充知识图谱Social Crawler这里主要实时爬取Twitter和新闻数据这些数据被作为扩充KG的原始资源推特数据利用Apache AsterixDB系统的 Feed Adapter function实现实时收集新闻数据则来自NewsAPIhttps://newsapi.org/.对于获取的资源使用LDALatent Dirichlet Allocation抽取其中的关键词。Semantic analyzer新关系主要指关键词之间的关系的抽取是通过BERT模型实现的作者在这里使用的是BERT-baseMultilingual Cased预训练模型支持104种语言微调使用TACRED数据集实现。Knowledge Miner如下图knowledge miner利用字符串匹配将新发现的关系链接到现有知识图谱上实验与结果为了验证自动扩充KG方法的效果作者提出了四个实验方式1.验证处理新词的能力使用ConceptNet 5.5英语/韩语以及使用PolarisX扩充的ConceptNet 5.5对比其中一词“Sonata”一般视作一个音乐术语在韩国则还有相同名字的汽车品牌从效果上看使用PolarisX扩充的ConceptNet涵盖了许多Sonata汽车的信息下表展示了ConceptNet及ConceptNetPolarisX两者的一个对比2.知识图谱扩充与DBpediaYAGO等现有KG的对比来看ConceptNetPolarisX具有更多的边作者认为这粗略的表明具有更加丰富的知识A higher total number of edges roughly means a richer knowledge base3.语义解析准确率作者验证BERT-based关系抽取模型的效果如下表所示 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。