房地产网站建设哪家有效果,你了解网站建设吗 软文案例,上海网站设计公司排行榜,wordpress 直接拖拽式建站动机作者思考#xff0c;如果一个人懂多个语言#xff0c;那么只要他知道某一语言的某个事实#xff0c;就能以它作为另一语言问题的答案#xff0c;同时希望证明计算机是否也能做到这一点#xff0c;并完成混合语言的简单问题知识问答任务#xff08;Code-Mix Simple Qu… 动机作者思考如果一个人懂多个语言那么只要他知道某一语言的某个事实就能以它作为另一语言问题的答案同时希望证明计算机是否也能做到这一点并完成混合语言的简单问题知识问答任务Code-Mix Simple Questions KBQA。所谓Code-Mix即是指QA中的问题不是由单一语言构成以中英双语举例“我怎么知道本文提出的model是否work呢”方法作者将提出的CMQA模型分为两个步骤1.候选生成 2.候选重排序 候选生成 这里的候选指的是KB中与问题相关的三元组作者提出的思路是利用检索模式缩小候选三元组的搜索空间。通过使用 Solr一个开源的倒排索引查询系统将 Freebase 中所有三元组编入索引而后将 Question 作为检索的 Query 得到 top-k 个候选三元组检索的排序打分参考 BM25。注意在这里检索仅支持英文故混合语言问题中其他非英语成分对检索没有贡献那么如果问题的entity是非英语的话是否可能引入大量与问题无关的三元组呢 候选重排序 本文的主要工作就是设计了一个重排序模型 Triplet-Siamese-Hybrid CNN(TSHCNN)采用 CNN卷积网络学习输入文本的语义表示考虑到不同语言的词序差异性作者认为 CNN 可以学习到输入文本中的词汇顺序特征以及短语顺序特征。对于排序过程文章将其抽象为一个多分类问题即每个答案都是一个潜在类别且对应的问题数量可能很小甚至为0这里主要通过匹配目标实体和谓词来做答案筛选。直观思路是通过构建一个问题-答案间的相似度打分作为参照指标用于排序作者在这里引入Siamese networks方法完成上述目的。整体的模型框架如图模型由两个通道组成分别用于学习正例与负例每一通道有三个输入1.问题2.正负例样本3.由正负例样本与问题联合构成的附加输入 网络结构由卷积层-池化层-向量关联-全连接层 构成两个通道中对应位置的网络共享权重参数 语言转换 处理多语言问题还是绕不开语义鸿沟为了将两种语言关联起来作者采用了双语词嵌入K近邻组合的策略构建通用跨语言词嵌入空间将双语词汇投影到该空间中再引入K近邻方法构建双语词汇关联。 实验数据SimpleQuestions (Bordes et al., 2015)dataset 75.9k/10.8k/21.7k training/validation/test 词嵌入预训练EnglishHindi Fasttext(Bojanowski et al., 2016) English-Hindi bilingual Smith et al.(2017) to obtain 自建数据集Hindi-English混合语言问句 规模250简单问题每句对应一个Freebase三元组 神经网络的超参数设定如图简单知识问答实验结果候选三元组生成实验结果 双语端到端问答实验结果部分问答效果示例总结作者认为本文的贡献包括 成功的回答混合语言问题在基于“英语语料有噪声的海地语监督和不完美的双语词嵌入”情况下 提出TSHCNN模型用于联合学习候选重排序构建了一组250规模的海地语-英语混合语言问题数据集并且这个数据集的答案来源于SimpleQuestion数据集且可以映射到Freebase知识库上本方法是作者所知目前第一个端到端的混合语言知识问答方法 论文笔记整理谭亦鸣东南大学博士研究方向为知识库问答、自然语言处理。OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。转载须知转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题请注明原标题。 点击阅读原文进入 OpenKG 博客。