当前位置: 首页 > news >正文

seo优化网站建设公司免费做兼职的网站有吗

seo优化网站建设公司,免费做兼职的网站有吗,怎么做百度网页推广,app网络推广方案http://forum.yige.ai/thread/27 2016年 div classmarkdown-body idemojify作者#xff1a;林鸿宇 韩先培 简介 自然语言处理的长期目标是让计算机能够阅读、处理文本#xff0c;并且理解文本的内在含义。理解#xff0c;意味着计算机在接…http://forum.yige.ai/thread/27 2016年 div classmarkdown-body idemojify作者林鸿宇 韩先培 简介 自然语言处理的长期目标是让计算机能够阅读、处理文本并且理解文本的内在含义。理解意味着计算机在接受自然语言输入后能够给出正确的反馈[11]。传统的自然语言处理任务例如词性标注、句法分析以及文本分类更多地聚焦于小范围层面例如一个句子内的上下文信息更加注重于词法以及语法信息。然而更大范围、更深层次的上下文语义信息在人类理解文本的过程中起着非常重要的作用。 正如对于人类的语言测试那样一种测试机器更大范围内理解能力的方法是在给定一篇文本或相关内容事实的基础上要求机器根据文本的内容对相应的问题作出回答类似于各类英语考试中的阅读题。这类任务通常被称作机器阅读理解。本文主要聚焦于机器阅读理解任务的最新进展。相比较于传统的自然语言处理任务机器阅读理解任务涉及到词法、句法、语法、语义和语用等多方面的信息需要综合运用文本的表示、分析、理解、推理等自然语言处理与理解技术相当具有挑战性。 形式化地解决阅读理解问题可以被表示为一个寻求 的最优解的过程其中a 表示候选答案q表示问题本身c 表示给定的文档或者上下文信息。上图中给出了一个Facebook bAbi 阅读理解数据集中Path Finding 子问题的例子。该例子要求根据前4个句子陈述的事实即上下文信息来对后两个句子的问题给出相应的答案。图例中要解决第5个句子提出的问题我们首先要根据第5个句子的内容找到与其相关的第3个以及第1 个句子然后综合这两个句子的信息最终生成答案。从上述过程我们可以看到要让机器能够完成阅读理解任务我们必须解决3个最重要问题 1表示问题。我们应该如何将自然语言转化为计算机可读的表示形式并且能够从这种表示中得到完成阅读理解任务所需的信息。 2检索问题。由于阅读理解任务的上下文较为宽泛因此如何从大规模地上下文信息中检索出与问题以及答案相关的部分是一个重要的问题。检索结果的质量直接决定了阅读理解任务回答的质量。 3答案生成问题。即如何根据问题以及检索得到的相关上下文选择或生成所需要答案。 针对不同数据集的不同特点也有大量的论文试图解决相关数据集上的阅读理解问题。从总体上而言绝大多数工作都是将阅读理解问题当成一个匹配问题或者是打分问题来解决的。对于给定的(D,Q,A) 三元组其中D 代表文档Q 代表问题A 代表候选答案绝大多数工作按照如下三个思路中的某一种来解决该问题 1将每一个(Q,A)对通过某些启发式规则合并成为一个hypothesis然后计算hypothesis与文档的匹配情况。 2 综合考虑文档和问题然后计算与(D,Q)对最匹配的A。 3 计算A在D下的具体表示然后与Q做匹配。 在当下的任务中每个问题的候选答案的个数总是有限的。因此总的来说该问题被转化为一个为(D,Q,A) 三元组打分的排序问题。 本文接下来的部分将按照如下的方式组织在第二章中我们将介绍阅读理解任务中的代表性方法包括基于传统特征工程的方法、基于神经网络的方法以及基于深层次语义信息的图匹配的方法。在第三章中我们将介绍阅读理解任务的多个数据集以及在每个数据集上的最新进展。最后我们将给出本文的结论以及展望。 代表性方法 本章将介绍阅读理解任务中的几类代表性方法。在阅读理解任务提出后大量基于传统特征工程的方法被用于该任务。这类方法至今在某些数据集上仍能取得当下最好的结果。随着深度神经网络的兴起也有许多基于神经网络的方法被引入到阅读理解任务中这些方法大多数以Weston 等人提出的Memory Network [26]作为基本结构。最后我们将会介绍一种基于深层次语义信息的图匹配算法该方法利用文档的深层语义信息构造一个语义知识图谱然后将阅读理解问题转化为一个图匹配问题尤其适用于与事件有关的阅读理解问答。 基于传统特征的方法 基于传统特征的方法的核心在于通过选取不同的特征然后基于选取的特征构造并学习一个三元打分函数 将得分最高的候选答案a作为问题q在文档d中的答案。较为常用的打分函数包括有线性模型[23]和对数线性模型[13]。 当前被证明有效的浅层特征主要包括有以下几类 1与答案本身相关。考察答案在原文中是否出现、出现的频率等信息。具体细节可以参考 [3]。 2答案与问题在原文中的关联。一个典型的例子是考察答案与问题中的词语在原文中的距离。其它的方法还包括答案与问题在原文中的窗口序列的N-gram匹配度、答案中的实体与问题中的实体的共现情况[3]等。 3依存语法。该方法一般通过启发式规则将问题与答案组合然后抽取出依存关系对。同时对原文进行依存句法分析然后考察问题/答案对的依存句法与原文的依存句法的匹配情况。 4语篇关系。考察与问题相关的多个句子在原文中的语篇关系。例如一个问题是以Why开头的问句那么这个问题的多个相关句子在原文之中可能存在因果关系。 除了上述浅层的特征之外也有一些较为深层次的语义特征被引入到了阅读理解问题当中这些特征主要由Wang等人在[23]中提出的包括有 1语义框架匹配。考察答案/问题与文章当中的句子的语义框架匹配程度。该方法也类似于Hermann等人在[5]中提出的基于frame-semantic 标记匹配的方法。 2Word Embedding。使用了两种基于Word Embedding的方法包括有BOW以及基于依存树结构的匹配方法。 基于传统特征工程的方法在部分阅读理解任务上能够起到非常好的效果但是仍然有很多问题不能解决。总的来说由于大多数传统特征是基于离散的串匹配的因此在解决表达的多样性问题上显得较为困难。这一点Chen等人在 [3]文中也已经证实。除此之外由于大多数特征工程的方法都是基于窗口匹配的因此很难处理多个句子之间的长距离依赖问题。虽然近年来[17]与[19]等文章中提出了基于多种不同层次窗口的模型可以缓解这一问题但是由于窗口或者n-gram并不是一个最有效的语义单元存在语义缺失缺少部分使语义完整的词或者噪声引入与主体语义无关的词等问题因此该问题仍然较难解决。 Memory Networks 近年来随着深度学习的兴起许多基于神经网络的方法被引入到了阅读理解任务中。相比于基于传统特征的方法在神经网络中各种语义单元被表示为连续的语义空间上的向量可以非常有效地解决语义稀疏性以及复述的问题。 在这个方向上最具有代表性的工作是由Weston等人在14年提出的Memeory Networks [26]。Memory Networks是一种学习的框架它包含有以下几个部分 输入特征映射将输入层(文本序列)转化到特征空间之中类似于embedding。 泛化层根据新的输入来更新旧的、已有的记忆。 输出特征层根据现时的记忆输出一个或多个特征向量作为反馈。 反馈层将输出的特征空间的向量转化为现实空间中的反馈信号例如一个词。 在文[26]中Weston等人还提出了一种最基本的Memory network模型。该模型以句子作为基本的输入单元在输入层使用了句子的BOW表示作为句子表示并且在泛化层直接将输入层的输入信号存储下来。在关键的输出层特征层该模型使用了一种框架查找与当前输入最匹配的k 个记忆向量作为输出的反馈。具体地当K1时该模型首先输出一个特征向量满足 即找出与当前输入最相似的一个从前的记忆其中是一个打分函数。在原文中使用了一种bilinear的打分函数有 其中是将输入映射到特征空间即句子映射到其BOW表示的函数则可以理解为一个隐含空间的embedding矩阵。因此该相似度函数本质上度量的是x与y中所有词的内积距离之和是一种Matching函数。 在查找完成第一个相关记忆之后我们在给定第一个记忆的基础之上获取第二个最相似的记忆即 在得到全部的输出特征之后我们可以根据所检索到的相关记忆以及输入信息得到最终的反馈。如果反馈需要的是一个词的话我们可以很容易地作出如下的定义 很显然该模型可以很好地用于QA问题当中只需要将文档的BOW作为记忆层将Question作为最新的输入然后通过该网络匹配原文中最相关的句子之后即可得到相应输出。由于该模型保留了每一个输入语义单元句子或者片段的信息因此在输出特征层可以很好地处理长距离依赖问题。同时由于在输出特征层使用了多层的结构该模型可以处理多句之间的推理问题。这些优点使得类似的结构在阅读理解任务中非常流行。 然而由于模型中有argmax操作的存在文 [26]中提出的Memory Network在训练的时候必须使用的是完全有监督的算法进行的即在训练的过程中不仅仅需要标注每个问题的答案还需要标注有答案匹配的关键句子这使得数据收集成为了难题模型的可拓展性不够强。因此Sukhbaatar 等人在 [18] 中提出了一种端到端Memory Network主要对原模型中的输出层进行了修改将原本的硬匹配机制换成一种基于attention的软匹配机制。对应于第k次匹配中的输入向量其与每个记忆向量的匹配得分可以按照如下方式算出 之后根据attention的匹配结果我们得到第k次匹配的输出结果 其中A是记忆层到输出层的embedding参数矩阵。然后根据第k轮的输出结果我们更新第k1轮输入的信息 实际上如果我们使用的BOW模型我们发现该模型本质上等价于使用软概率版本的 [26]中的模型。 Memory Networks在阅读理解任务中被证明了是一种非常有效的结构。该结构将阅读理解的三大任务–表示、检索以及答案生成–由离散的空间转换到了连续的语义空间之中从而可以非常有效地处理复述以及传统One-hot词表示带来的数据稀疏问题。但是如何在该框架下学习到更好的语义表示、如何更好地检索相关句子以及如何更好地依据相关问题以及问题生成答案仍然是非常重要的问题也是框架本身并没有解决的问题。 基于深层语义的图匹配方法 上述的方法在某些简单的阅读理解任务中能够起到较好的效果。但是对于某些需要引入外部知识进行更深层次推理、几乎不可能仅仅通过相似度匹配得到的结果的阅读理解任务来说上述方法几乎起不到作用。一个最典型的例子就是Berant等人在 [2]中提出的Biological Processes。该问题需要机器阅读一篇与生化过程有关的文章并且根据文章回答问题。文中给出的一个例子如图 所示。可以看到该问题涉及到大量的知识推理以及理解方面的内容。 针对上述问题Berant 等人在[2] 中提出了一种基于图匹配的方法。该方法首先通过类似于语义角色标注的方法将整篇文章转化成一个图结构。然后将问题与答案组合称为查询也转化为一个图结构最后考虑文章的图结构与查询的图结构之间的匹配度。 在文章生成图结构的过程当中作者使用了一种拓展的语义角色标注的方法。由于生化过程的核心是动词因此文档选择了以动词(trigger)为核心的图构造方式。作者将该语义图内的边分为两种动词- 参数Argument连边以及动词- 动词连边。 在动词-动词连边上考虑到生化过程的具体性质文章在动作A和动作B之间定义了三种可能的关系Cause、Enable 和Prevent分别表示A是B的导致B的直接原因即A 发生后B立即发生、A是B的发生条件但B不一定紧随A发生以及A 阻止了B 的发生。在动词 - 参数连边上由于性质上相似文章沿用了语义角色标注中的相关标记。除此之外文章还定义了一些启发式的约束条件来保证全文标记的一致性。在那之后文章使用一个ILP算法来求解每篇文章的图结构。 在问题以及答案方面作者首先将一个问题/答案对组合转化成一个三元组这个三元组中包含有一个源节点、目标节点以及一个由关系的正则表达式组成的边的组合。正则表达式是由问句的类型(直接导致、阻止、以及默认关系)根据规则而产生的实际上就是指在文章图中可以接受的边的组合。这种转化是基于某些简单的启发式规则完成的。在那之后只需要将问题/答案三元组中的源节点与目标节点映射到文章中并且检查文章图中两个节点之间是否存在满足正则表达式的边即可。这样该阅读理解问题被转化成了一个图匹配问题。 该方法的优缺点同样明显。由于引入了更深层次的语义结构该方法能够捕捉更深层面的语义信息从而获得更好的理解能力。但是由于这种语义结构的定义是问题相关的并且结构的定义十分依赖于人工的干预这就导致这种方法是一种领域相关的方法应用的范围具有较大的局限性。 小结 本章介绍了在机器阅读理解任务中最常用的三种基本方法基于特征工程的方法基于Memory Networks的方法以及基于深层语义的图匹配方法。三种方法各有侧重有着不同的应用场景。 基于传统特征的方法在模型结构以及实现上最为简单在某些特定的数据集上也能起到较好的效果。但是由于特征本身所具有的局限性该类方法很难处理复述以及远距离依赖问题。基于神经网络的方法能够很好地处理复述和长距离依赖问题但是对于某些需要引入外部知识进行更深层次推理、几乎不可能仅仅通过相似度匹配得到结果的任务则无能为力。基于深层语义的图匹配方法通过在深层次的语义结构中引入人为定义的知识从而使得模型具有捕捉更深层次语义信息的能力大大提高了模型的理解以及推理能力。但是由于这类方法对于外部知识的依赖性极强因此适用范围较窄可拓展性较弱。 数据集及研究现状 在本章中我们将会介绍当下阅读理解任务的几个主要数据集以及在每个数据集上的研究现状。 Facebook bAbI Simple Questions 数据集介绍 该数据集是由Weston等人在 [25]中提出的。在这篇文章中Weston 等人定义了二十个小的子类的推理问题分别涉及到20种不同的理解能力。这20类问题总的形式是相同的都是通过罗列出一些事实然后希望机器能够根据这些事实以及问题给出正确的回答。作者通过机器模拟的方式来自动地生成相应的文本以及问题同时还包括有每个问题的答案以及回答问题所需要引用的到的Fact。答案中既包括有基本的实体回答也包括YES/NO 的判断性回答还包括需要罗列相关事实的问题。Weston 等人希望能够借由这个数据集来考察机器在推理的不同方面的能力。 由于该语料是由机器自动生成的简单语料因此文档句式单一、词汇表小且均是短句不同数据之间仅仅是某些实体替换的差别。这就使得其主要侧重点在于推理能力而非对自然语言的理解。 研究现状 在该数据集上基于Memory Networks的方法是最主流的方法。但Weston等人在[25]中提到Memory Network有几个缺陷 1使用BOW来进行句子的表示从而无法处理语序的问题。 2由于Memory Network只有两层所以无法处理依赖句子数量超过两个的情况。 3无法处理多个输出的情况。 针对上述问题Weston等人提出了Adaptive Memory该模型增加了一个终结符用于自动确定依赖句子的个数以及输出词的个数。同时作者还引入了基于N-Gram的表示以及基于词位置的表示融合方式使得模型有能力处理语序的问题。 除此之外Kumar等人在文 [10]中提出了基于End-To-End Memory Networks的Dynamic Memory Networks。Dynamic Memory Networks不仅融入了Adaptive Memory Netowrk自动判定推理终结的能力还在模型中使用带attention机制的GRU模型代替了BOW模型对输入层以及Memory进行处理从而融入了语序信息并且获得更好的拟合。Peng 等人在 [14]中提出了一种名为Neural Reasoner的更加抽象、但更加简单的结构。该模型在每一轮推理结束之后不仅仅更新了问题的向量即用于匹配的内容还更新了文档的向量即记忆。同时模型引入了大量的非线性层虽然使得整体模型的拟合能力得到了一定的提高但是也使得模型的可解释性变得更差。 上表中给出了上述几种方法在20个任务上的实验结果。我们可以看到相比较于完全使用BOW线性信息的Memory Network以及Adapative Memory Network加入了非词位置信息的非线性模型AMMUL以及DMN在某些类别的数据上能够得到显著的提高。原因在于该数据集的模式较为确定因此融入词序或者是位置信息之后可以更精确地找到所必须的信息以及答案。除此之外引入非线性信息也增强了模型的拟合能力从而提升了实验的结果。 CNN/Daily Mail Children’s Book Test 数据集介绍 CNN/Daily Mail数据集是Hermann等人在[5]中提出的该数据集从CNN和Daily Mail上摘取了大量语料然后将每篇文章对应的总结以及复述句子作为问题原型并从问题中去除某个实体要求机器能够根据文章内容自动找出答案。该数据集的一个实例如图所示。 FaceBook Children’s Book Test [6]与CNN/Daily Mail类似该数据集的构造是通过从儿童书籍里抽取出文章然后归纳出21 个句子将前20 个句子作为文本的代表将第21 个句子作为问题而产生的。但不同点在于对于每个问题CBTest提供有候选的答案词同时其答案分为实体、一般名词、动词以及介词四类。 另外CNN/Daily Mail来源于新闻语料而CBTest则来自于儿童故事。这就使得外部知识对于CBTest的可能影响要更小些。 总的来说这两个数据集都是根据文章的内容以及问题找出文章当中相应的一个词来进行回答。因此我们将这两个数据集归为一类。事实上现有的模型一般在这两个数据集之间是通用的。相比较于前面的bAbI数据集这两个数据集的文章内容都完全来自于自然语言之中因此更加符合人类阅读理解任务的性质。 一个值得关注的工作是[3]在这篇文章中作者对对CNN/Daily任务进行了一个详尽的分析。这篇文章从开发集中选取了100个样本然后将它分为精确匹配、复述、部分包含、多句、共指消解错误以及有歧义等六大类同时发现人类也不可解决的第五类和第六类问题占到了总问题的25%因此作者大致推断出这个任务的天花板在75%左右。 研究现状 在[5]中作者提出了几种Baseline的方法。包括在第2章中曾提到的基于frame-semantic标记匹配的方法以及基于答案与问题中的词语在原文中的距离的方法。同时原文中还提出了一些基于神经网络的方法。最简单的神经网络基线方法就是将问题也作为一个句子连接在文档的后面然后使用一个bi-direction的LSTM 来学习得到整个连接结构的最终表示然后将其与答案的表示进行匹配。出乎意料地是这种极为简单的方法得到的结果要比基于特征的方法还要好。 除此以外 [5]文中还提出了两种神经网络结构分别称为Attentive Reader和Impatient Reader。Attentive Reader和前文提到的Memory Network有非常相似之处。它首先使用一个双向的LSTM对输入的文档以及问句进行向量化表示然后通过一个基于tanh函数的attention 层根据问题的表示对文档当中的词语进行加权从而学习到文档在该问题下的表示。在这之后使用一个tanh加权函数来得到问题和文档的联合表示并将其与候选答案进行匹配。Chen等人在 [3]文中对该模型做了简化将Attention层换成了一个bilinear形式的的函数并且在得到最后的表示向量后并不再经过非线性层。这些变化简化了整个模型然后却使实验结果有了显著的提升。 Attentive Reader将问题作为一个整体作为建模考虑问句整体对词的attention从而忽视了问句中每个词的作用。Impatient Reader则更进一步建模了问句中每一个词对文章中每个词的attention。该方法建模了人类进行阅读理解的过程从左到右阅读问题然后每看到一个词之后都去原文中寻找对应部分之后更新记忆一直重复上述过程直到读完问题然后选择答案。 与先前的工作不同Kobayashi等人在[9]文中提出了Dynamic Entity Representation方法。他的模型首先考虑答案实体在文章的语境中的具体表示然后再考虑其与问句的相似度。这种方法相对来说能够在上下文环境中得到更好的答案实体表示在一定程度上能够缓解集外词带来的问题。 Kadlec等人在[8]中提出了一种更为简单的结构Attention Sum Reader。该模型对于每一个候选答案直接计算它在文档中的所有出现的attention分数值之和结构异常简单但是在CNN/Daily 以及CBTest上都得到了非常好的实验结果。更进一步的工作是[20]中提出的 EpiReader。该文章首先使用类似Attention Sum Reader的结构在词层级上算出每个问题的top K 个候选答案然后根据某些句子层级的特征使用类似于RTE的方法对K个答案进行重排序。该方法融合了词级别以及句子级别这两个层级的特征提升了实验效果。 上述的attention模型都只考虑到了问题对于文档的attention但是忽略了文档对于问题的attention 即问题中每个词应当拥有不同的重要性。Cui等人在 [4]一文中提出了一种多重attention机制该方法可以视为一种对问题中词赋权版本的Attention Sum Reader在CNN以及CBTest上都得到了一定的提升。 上表中给出了CNN/Daily Mail数据集以及CBTest数据集上的实验结果的汇总。我们可以看到基于多重Attention的方法在三个数据集上都得到了最好的实验结果说明对问句中的词的建模确实是必要的。Chen等人使用的简化版的Attentive Reader在实验结果上要大大超出了原版的实验结果同时相对来说最为复杂、并且引入了多层次信息的EpiReader并没有表现出特别大的优势。这也说明可能在该问题上简单模型可能能够起到很好的效果。由于数据集中涉及到的多句推理的问题较少 [3]该数据集上的所有模型都是简单的单层模型。 MCTest 数据集介绍 MCTest是Ricardson等人在[16]中提出的一个阅读理解测试。其总体形式类似于英语考试中的单项选择阅读理解题。但是不同点在于MCTest 严格限制的文档本身是儿童能够理解的故事内容从而保证阅读理解的过程当中不需要过量的外部知识。 MCTest又分为两个子数据集MC160与MC500。相比于MC160MC500针对于答案做了一些特殊的处理使得其难度会更大一些。MCTest 一个最大的不同点就在于它的答案不再是一个词或者是实体而是可能是一个片段或者是句子这增大了MCTest 的难度。除此之外MCTest的数据量极少。MC160只有70个训练样本而MC500 也仅有300个训练样本。因此仅仅利用MCTest本身的信息训练一个复杂的模型是一件几乎不可能的事情。 研究现状 [16]中提出了两种基于词汇匹配的最基本baseline。首先提出了一种Sliding Windows同问题与答案组合中词汇匹配分数的方法。同时为了考察距离依赖的问题该文章还在考察了问题中的词与答案中的词在文章当中出现的最短距离长度的值。这种方法较为简单但是已经可以取得很好的结果。同时文章还引用了一种基于RTE的方法。首先将问题以及答案按照启发式规则进行拼接然后计算上述拼接结果称为假设与原文信息之间的关系。在MCTest数据集上现有模型中的大多数都选择先使用某些启发式规则组合问题与答案。 上述Sliding Windows方法将窗口大小限定在了和(Q,A)对大小相同的范围内可能会影响到有关多句推理的问题的最终结果。Smith等人在 [17]中使用了称为Strong Lexical Matching的变窗口大小的方式改进了模型。Trischler等人在[19]中提出了一个上述工作的更进一步拓展称为Parallel-Hierarchical 模型。不同于上述的仅仅使用窗口大小的匹配Trischler 等人利用Word Embedding充分考虑了不同级别窗口以及n-gram级别的匹配信息并使用一个MLP来结合上述匹配结果最终实现端到端的训练。该模型相较于传统的神经网络模型参数较少同时考虑多种层面的信息又仅仅使用了少量的特征在MCTest 上取得了非常好的结果。 在特征工程方面Narasimhan等人在[13]中通过一个生成式模型引入了语篇关系的信息考察与问题相关的多个句子在原文中的语篇关系。Wang等人在[23]使用了线性模型融合多种框架、句法以及语义级别的特征使得模型结果有了大量的提高。 由于数据稀疏因此仅仅在MCTest上训练一个端到端神经网络几乎是不可能的事情。为了解决这个问题Wang 等人在[22] 中引入了大量来自于外部语料的信息(External Knowledge)。Wang等人将阅读理解任务划分为答案选择以及答案生成两个步骤在这两个步骤中分别引入了从WikiQA上训练得到的答案选择模型以及一个外部的RTE模型成功地学习到了一个能用于MCTest的端到端神经网络模型取得了很好的效果。 上表中给出了上述系统在MCTest上的实验结果。我们可以看到Parallel-Hierarchical 模型能够得到非常好的结果。该模型实际上与EpiReader 有一定程度上的相似之处表明综合考虑多个层面的语义信息确实能够对阅读理解任务有所帮助。此外引入外部信息的模型达到了非常好的结果这也说明了数据稀疏是解决MCTest的一个重大难点。虽然从MCTest的设计原则上不希望能够直接通过词匹配找到答案但是我们看到基于各种各样Matching 的方法仍然已经能到达到70%以上的准确率。 Biological Processes 数据集介绍 Biological Processes是Berant等人在[2]中提出的一个问题。该问题需要机器阅读一篇与生化过程有关的文章并且根据文章回答问题。文中给出的一个例子如图 所示。由于该问题需要一定的外部知识并且涉及到复杂的知识推理以及理解方面的内容几乎不可能通过单纯地词匹配来完成非常具有挑战性。 研究现状 该数据集上的最具代表性的工作就是第 节中提到的基于深层语义的图匹配方法。该方法在斯坦福的数据集上能够取得66.7%的准确率。同时如果能够完全正确地识别出触发词(Trigger)该方法的准确率可以提升到76.7%。 SQuAD 数据集简介 SQuAD是由Rajpurkar等人在[15]中提出的一个最新的阅读理解数据集。与上述数据集显著不同的一点在于SQuAD数据集是问答题而非选择题因此其没有候选答案可以参考。但是其限定了答案为原文中连续的片段因此对于一片长度为N的文章来说有O()个可能的候选答案因此候选答案的检索空间很大。另外一个值得关注的地方在于该数据集并不公开发布测试集而是采用了与ImageNet类似的封闭评测的方式来测试模型的性能能够一定程度上防止模型对测试数据过拟合的问题。 研究现状 Rajpurkar等人在[15]中提出了一种基于logistic回归的Baseline该模型包括词匹配、词频率、依存关系等特征。该方法能够达到40.4%的准确率和51.0%的F1值远远超出基于简单的滑动窗口词匹配模型。 最新的State-of-the-art的结果是由基于Match-LSTM的Pointer Networks产生的 [24]。Pointer Networks是由Vinyals 等人在 [21]中提出的。Wang等人在 [24]中使用了两种Pointer Networks结构一种通过Pointer Networks从原文中预测所有答案词的位置。考虑到答案是原文中连续的序列另一种仅仅要求模型输出两个位置标记一个标记答案的开始位置一个标记答案的结束位置该模型的准确匹配率为59.5%而生成答案的F1值达到了70.3%。 Rochester Story 数据集简介 一个最新的阅读理解任务是由 Mosafazadeh 等人在 [12]中提出的 Rochester Story。该问题的每一篇文档都是对一个事件的描述。每篇文档有5个句子机器要求在给出前4个的情况下根据常识从2个备选答案中选出正确的第5个句子。三个样例在图中给出。我们可以看到该任务的答案并不来源于文章的内容之中而回答这些问题需要对文章的各个方面的整体理解。虽然该数据集中的句子语言也较为简单但是显然之前简单的基于词匹配的方法很难在这个数据集上取得比较好的结果。 研究现状 在[12]中作者引入了9种模型作为这个任务的Baseline。但是其中的7种方法都不能超过随机猜测50%的正确率说明该问题的难度确实较大。唯一能够取得58% 正确率的是DSSM[7]这也说明了解决这个问题需要使用到更深层次的语义结构信息。 实际上从图 中给出的例子我们就可以看出使用在先前数据集上提到的基于匹配的方法可能很难解决Rochester Story。在大多数情况下Rochester Story 的两个候选答案与前文之间的语义均是连续的所以光从语言本身出发很难能够得到正确的答案。 小结 在本章中我们着重分析了当下机器阅读理解任务中七个重要的数据集以及在各个数据集上的研究现状。表 列出了当下各个阅读理解数据集的各方面情况的比较。可以看到当下机器阅读理解任务的数据集各有侧重、各有不同。CNN/Daily Mail、Facebook CBT、MCTest以及SQuAD主要侧重于自然语言理解Facebook bAbI 更加侧重于考察机器的推理能力而BioProcess和Rochester Story则更侧重于机器理解与融合外部知识的能力。同时不同数据集的答案形式也不尽相同。 在使用的方法方面基于传统特征工程的方法以及基于神经网络隐含语义空间的方法是主流。基于传统特征工程的方法在不同数据集上所使用的特征具有较多相似之处。而基于神经网络的方法则通常使用不同结构的attention机制来模拟检索的过程并根据不同的答案形式构造不同的输出层来生成答案。 就当下而言机器阅读理解任务上在能够基于浅层以及隐含语义空间匹配解决的问题上都已经达到了较高的水准但是在需要融合外部知识进行推理以及需要使用到更深层次语义信息的问题上相关进展仍然较少。 总结 机器阅读理解是当下自然语言处理领域的一个热门任务。近年来各类阅读理解的数据集以及方法层出不穷。总的来说基于浅层匹配的方法在部分简单的数据集上已经能够取得较好的结果。但是对于某些较为困难的任务涉及到复杂推理以及大规模的语篇、语用以及情感等信息的阅读理解任务基于浅层匹配的方式无法解决。 人类对于语言的理解是一个复杂而多样的过程理解语言的过程当中涉及到了大量的语言知识、常识、环境以及情感等因素在当下对于这些复杂因素的建模仍然处于较为初级的阶段。就机器阅读理解任务而言理解人类完成理解与推理的过程将更多的人类在理解过程中所用到的知识与因素融入到机器理解的过程之中也会给机器理解任务带来新的思路和发展方向。 参考文献 [1] Berant et al. Modeling biological processes for reading comprehension. EMNLP2014 [2] Chen et al. A thorough examination of the cnn/daily mail reading comprehension task. ACL2016 [3] Cui et al. Attention-over-attention neural networks for reading comprehension. arXiv2016 [4] Hermann et al. Teaching machines to read and comprehend. NIPS2015 [5] Hill et al. The goldilocks principle: Reading children’s books with explicit memory representations. arXiv2015 [6] Huang et al. Learning deep structured semantic models for web search using clickthrough data. CIKM2013 [7] Kadlec et al. Text understanding with the attention sum reader network. arXiv2016 [8] Kobayashi et al. Dynamic entity representations with max-pooling improves machine reading. NAACL-HLT2016 [9] Kumar et al. Ask me anything: Dynamic memory networks for natural language processing. arXiv2015 [10] Liang, P. Learning executable semantic parsers for natural language understanding. arXiv2016 [11] Mostafazadeh et al. A corpus and cloze evaluation for deeper understanding of commonsense stories. NAACL2016 [12] Narasimhan et al. Machine comprehension with discourse relations. ACL2015 [13] Peng et al. Towards neural network-based reasoning. arXiv2015 [14] Rajpurkar et al. Squad: 100,000 questions for machine comprehension of text. arXiv2016 [15] Richardson et al. Mctest: A challenge dataset for the open-domain machine comprehension of text. EMNLP2013 [16] Smith et al. A strong lexical matching method for the machine comprehension test. EMNLP2015 [17] Sukhbaatar et al. End-to-end memory networks. NIPS2015 [18] Trischler et al. A parallel-hierarchical model for machine comprehension on sparse data. ACL2016 [19] Trischler et al. Natural language comprehension with the epireader. arXiv2016 [20] Vinyals et al. Pointer networks. NIPS2015 [21] Wang et al. Employing external rich knowledge for machine comprehension. IJCAI2016 [22] Wang et al. Machine comprehension with syntax, frames, and semantics. ACL2015 [23] Wang et al. Machine comprehension using match-lstm and answer pointer. arXiv2016 [24] Weston et al. Towards ai-complete question answering: A set of prerequisite toy tasks. arXiv2015 [25] Weston et al. Memory networks. ICLR2015 本文转载自 中国中文信息学会青年工作委员会cips_ywc公众平台转载请注明出处。 原文链接CIPS青工委学术专栏第6期 | 机器阅读理解任务综述 欢迎大家关注一个AI微信公众号第一时间获取一个AI的最新消息。 /div
http://wiki.neutronadmin.com/news/8781/

相关文章:

  • 百中搜如何做网站排名网站设计相似侵权吗
  • 最好看免费观看高清大全一影视下载绍兴seo优化
  • 网站颜色背景代码类似返利网的网站建设
  • 焦作市网站建设如何在网站做宣传
  • 南宁免费自助建站模板东莞路桥公司是国企吗
  • 陕西建设网查证件查询windows优化软件排行
  • 网站建设计划书实验总结python wordpress
  • 网站建设技术人员工作总结浙江建设信息港网成绩查询
  • 企业网站建设哪家快宜春网站推广优化
  • 广东网站设计有名的公司学生做的动漫网站
  • 门户网站建设目标建立网站的主要步骤
  • 学校网站开发实际意义嘉兴新闻头条最新消息
  • 奇搜建设辽沈阳网站电商出口营销要多少钱
  • wp如何做双语网站网上售卖平台有哪些
  • 上海建网站计划工作顺利
  • 零食网站建设策划书网页版原神
  • 哈尔滨建站模板展示网络营销策划方案范文
  • 厦门南希网站建设企业网站价格花
  • 网站开发 怎样做费用结算商务网站建设学期总结
  • 精细化学品网站建设涿州网站制作
  • 怎样能让百度搜到自己的网站万网建网站教程
  • 网站开发验收方案seo优化或网站编辑
  • 苏省住房和城乡建设厅网站首页哪些网站用天平做logo
  • 最专业网站建wordpress卸载多说
  • 河北网站快速排名建设谷歌站群系统
  • 牡丹区建设局网站沈阳新联会是什么组织做什么
  • 南京建设网站多少钱免费自建网站工具
  • logo网站设计论文龙岩属于哪里
  • 临沂网站建设制作中山网站优化排名
  • 昆明网站建设推广公司哪家好360网站弹窗推广怎么做的