网站后台图片调换位置,网站源代码怎么下载,中国建设银行官方网站下载,网站ui界面设计论文笔记整理#xff1a;刘雅#xff0c;天津大学硕士。链接#xff1a;https://aaai.org/ojs/index.php/AAAI/article/view/6525动机近年来#xff0c;随着计算机视觉以及自然语言处理技术的发展#xff0c;多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多… 论文笔记整理刘雅天津大学硕士。链接https://aaai.org/ojs/index.php/AAAI/article/view/6525动机近年来随着计算机视觉以及自然语言处理技术的发展多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络同时利用注意力机制来辅助挑选图片。这种做法容易带来模态偏差的问题即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程。该论文提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数即在文本损失的基础上增加图片选择的损失函数。亮点论文亮点主要包括1提出一种新的评估指标该论文是第一个从信息完整性的角度评估多模式摘要的方法该方法学习了模型摘要和参考摘要的联合多模式表示形式。包含信息完整性的评估指标与人类判断的相关性更好。2提出一种多模态损失函数以多模态参考为指导以利用摘要生成和图象选择中的损失概念及模型该方法由三部分组成首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准主要采用两种方式即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序。在模型上添加图片判别器用于训练图片挑选的过程模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成。通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型具体而言论文将两对图片-描述的文本部分或图像部分进行交换去构造两个匹配的多模态片段。模型整体框架如下多模态匹配片段构造示意图如下多模态目标函数为了在训练中利用多峰参考论文提出了一种多峰目标函数该函数除了考虑文本摘要的负对数似然损失外还考虑了图像选择的交叉熵损失。论文将多模态摘要分解为两个任务摘要生成和文本图像关系识别。为此论文提出了一种图像识别器来指导图像选择。图像鉴别器将确定图像是否与文本内容有关。我们应用多任务学习来同时训练两个子任务。在多任务设置中共享两个子任务的文本编码器和摘要解码器。论文使用另一个图片解码器将全局图象特征g转化为g’.可以通过两种方式显示文本信息1文本编码器的最后一个隐藏状态或2摘要解码器的最后隐藏状态。为了将两个向量投影到一个联合语义空间中论文使用两个具有ReLU激活功能的多层感知器将文本向量和视觉向量转换为Itxt和Ivis。图象和文本信息之间的相关性可以表示为:图像分为文本相关和非文本相关这意味着可以将文本-图像关系识别视为分类任务。因此,论文采用了交叉熵损失其中PAimg表示图像的实际概率分布如果选择排名前k位的图像作为目标则图像的概率为1 / k。。最后将交叉熵损失由超参数λ加权添加到摘要生成的损失函数中以产生一个同时考虑了文本参考和图像参考的新损失函数联合多模态表示在跨模式检索中输入是一对图像和一个文本。但是在该论文提出的模型中输入变成一对多模态分段mamb其中ma ImageaTexta和mb ImagebTextb。关键问题是如何构建训练数据。MSMO数据集中有很多图像字幕对并且假定每个图像都与相应的字幕相匹配。因此通过交换两个图像标题对的图像或文本以获得匹配的多模态分段对ma*m*b其中m*a ImagebTexta和m*b Imagea Textb。值得注意的是由于m*b中的Imagea与m*a中的Texta相匹配而m*a中的Imageb与m*b中的Textb相匹配因此m*a在语义上与m*b相匹配对图像和文本进行编码,然后使用多模式注意力机制融合文本向量和图像特征。最后模型是在一个新的最大利润率损失下训练的其中mm *是匹配的多模态分段对m是从批次中采样的负对。论文还使用MSMO数据集中的图像字幕对构造训练数据。理论分析实验目前多模态自动文摘的数据集还比较匮乏这项工作在MSMO数据集上进行实验验证。一般图文式摘要的评价关注三个方面的指标图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。该论文引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度输出和参考答案的最大相似度。MMAE是对IP、ROUGE和Msim的组合MMAE是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。利用与人工打分之间的相关度来对比不同的自动评价指标。下表给出了不同的自动评价指标与人工打分的相关度可以看出融入了直接测量多模态片段的评价指标MR之后新的自动评价模型MMAE相比于MMAE在与人工打分的相关度上有一个显著的提升。为了衡量论文提出的多模态基准指导的模型论文同多个强基线模型进行了对比包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型ATG、ATL、层次化的多模态自动文摘模型HAN以及基于图模型的抽取式自动文摘模型GR下表给出了不同模型生成的图文式摘要的质量对比可以看出在引入多模态基准指导后模型的图片挑选质量IP得到了显著的改善并且文本生成质量也有略微改进从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言采用解码器隐层状态去进行图片选择效果会更好。另一方面使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显。同时本论文也对比了不同的图片选择损失函数权重对于模型性能的影响可以看到当图片和文本的损失函数的权重都相同时图文摘要的质量是最好的。论文对比了在计算图片损失中考虑的图片数量即top-K图片作为gold standard所带来的影响并且发现当 K3的时候模型取得了最好的效果。总结在本文中论文着重于通过提出一种多模式目标函数来改进多模式摘要该目标函数同时考虑了文本摘要生成的负对数似然损失和图像选择的交叉熵损失。实验表明该模型可以在真实的人工标记测试集和自动构建的测试集上提高多模式输出的质量。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。