东莞企业网站多少钱,临汾网站建设电话,wordpress 改为中文,建设网站应该注意的地方论文笔记整理#xff1a;谭亦鸣#xff0c;东南大学博士。来源#xff1a;TACL 2020链接#xff1a;https://arxiv.org/ftp/arxiv/papers/2003/2003.01343.pdf1.背景介绍跨语言实体链接(Cross-lingual Entity Linking, XEL)旨在利用源语言文本中实体描述(提及)#xff0c;… 论文笔记整理谭亦鸣东南大学博士。来源TACL 2020链接https://arxiv.org/ftp/arxiv/papers/2003/2003.01343.pdf1.背景介绍跨语言实体链接(Cross-lingual Entity Linking, XEL)旨在利用源语言文本中实体描述(提及)从目标语言的知识库中获取对应的参照实体其解决方法一般分为两个步骤1.候选生成2.实体挑选。这一任务在富资源场景下(如Wikipeida)取得了不错的研究成果但是并没有很好的扩展到低资源语言上(Low-resource Language, LRL)。虽然近期利用迁移学习的工作通过利用相关语言资源能够一定程度上缓解LRL对资源的需求但是其实验性能依旧远逊于富资源的XEL模型。其中一个主要原因是跨语言的实体链接无法像单语那样使用序列匹配的方式解决候选生成问题虽然Wikipedia提供了inter language links这样的多语言实体对齐资源具有一定可扩展的潜力但是现阶段的工作依然表现不佳。也有一些工作提出利用翻译模型生成LRL的英文实体或者基于实体词典训练跨语言的序列匹配模型。然而这些方法在Top-30的候选实体上依然远不如富资源且有落后达70%的候选召回率。动机作者对现有的SOAT候选生成模型Rijhwani et al. (2019)进行错误分析发现两个普遍存在的错误原因1.知识库与文本中实体名提及的误匹配2.字符串匹配模型本身的失误。如图1所示这是一个Marathi语言到英语知识库的链接实示例一种来自印度西部地区的小语种。在这个例子中第一类错误表现为英语实体Cobie Smulders被匹配到文本中的Smulders(绿色部分)或者Jacoba Francisca Maria Smulders(黄色部分)第二类错误则是类似蓝色例子中的Cobie Smulder被序列匹配到Cobie Sikkens上。为了解决这两类问题作者提出如下改进对于误匹配问题作者注意到learning-based方法中包括(Pan et al., 2017; Rijhwani et al., 2019)等工作的候选生成模型训练数据集是由“实体-实体”组构成这就使得模型无法捕捉文本中可能存在提及的多样性。因此作者将“提及-实体”组也添加到训练数据中从而提供更明确的监督。此外注意到许多源语言资源variation与其英文表示存在的相似性因此也可以使用英文语言资源去获取它们。因此作者从英文Wikipedia中收集了实体的别名资源并允许模型在生成候选的时候查询这些别名。本文的第二个贡献是改进了对提及以及实体字符串的表示策略。作者首先假定Rijhwani et. al 2019的LSTM模型可能存在的部分问题即未能对字符串中所有的单词进行适当的表示学习这可能是因为该模型不是很适合在LRL上进行学习。在这里作者提出改用基于字符n-gram的embedding方法替代LSTM。2.模型/方法首先对现有模型的不足进行实验分析以印证本文猜测。2.1提及类型与分析作者使用HRL富资源语言这里使用的是Amharic, Hindi和Thai等语言-EN的实体组作为训练数据集数据集信息实验部分会做说明训练了一个Pivoting-based Entity Linking(PBEL)模型用于生成LRL文本中抽取出的实体提及所对应的候选实体。在LRL方面使用了Tigrinya, Oromo, Marathi以及Lao等四种语言。作者从每个LRL随机抽取100个系统输出并在性能分析时对它们的提及创建类型并做人工标注主要包含以下类型 DIRECT直接音译 ALIAS别名与KB中的完全不同 TRANS字对字翻译 EXTRA_SRC在提及中至少多了一个非专有名词单词 EXTRA_ENG在英文实体中至少多了一个非专有名词单词 BAD_SPAN提及范围不是一个实体实体抽取部分出错 对于每个候选实体样本作者考虑了三种场景Top-1目标实体是Top-1候选Top-2~30不属于Top-30。图2描述了这组场景和样本的分布情况可以看到Top-30完全无法覆盖目标实体的三类提及是ALIASEXTRA_SRCEXTRA_ENG。2.2模型改进首先作者在保持“实体-实体”组训练集的基础上收集了“提及-实体”组用于扩充训练数据。其次通过利用Wikipeida中的“alsoknown as”获取到英语实体的别名列表用于扩充可产生候选实体的匹配范围公式1。之后作者使用CHARAGRAM替换Bi-LSTM作为字符串的编码模型其结构如图3所示字符串的编码过程如下其中N是预设的滑动窗口尺寸,V是训练数据集中所有出现的n-gram的集合如果n-gram是未出现在V中的那么将会直接音译。3.实验数据DARPA-LRL来自新闻博客和社交媒体包含Tigrinya (ti), Oromo (om), Kinyarwanda (rw), Marathi (mr), Sinhala (si)以及Lao (lo)等小语种语言。WIKIWikipedia中的子数据集(Pan et al., 2017; Rijhwani et al., 2019)各语言的表示方式见表2。 结果 作者给出了各模型上Top-30候选的召回率作为评价标准如表3所示并再一次做了错误分析对比可以看到新的方法在各提及类型上都产生了一定的效果 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 网站。