家电网站首页制作,外贸公司域名哪个网站申请比较好,商业计划书范文,wordpress标签不输出文章一、Framework
这个模型分为两阶段#xff1a;一是答案启发生成阶段#xff08;answer heuristics generation stage#xff09;#xff0c;即在一个基于知识的VQA数据集上训练一个普通的VQA模型#xff0c;产生两种类型的答案启发#xff0c;答案候选列表和答案例子一是答案启发生成阶段answer heuristics generation stage即在一个基于知识的VQA数据集上训练一个普通的VQA模型产生两种类型的答案启发答案候选列表和答案例子二是启发增强提示阶段heuristics-enhanced prompting stage即将答案启发、问题、描述融合为一个格式化的提示prompt引导GPT-3预测答案。 本文的方法采用了PICa这个方法的pipline。PICa方法大致如下 具体在利用GPT-3的in-context few-shot learning能力时输入下面这个C是caption对一张图片的描述Q、A分别的问题、答案。 本文的方法使用上面这个框架但是增加了答案启发也就是Context、Question、Candidates、Answer。 where j1, j2, · · · , jK correspond to the actual indices of the elements in Ci
区别 二、Stage-1. Answer Heuristics Generation
首先介绍VQA模型有一个数据集D一个答案词库W一个VQA模型可以分为两部分一部分是backbone Mb一部分是分类头Mh骨干网络用来将输入的图片和问题融合为一个特征z分类器一般是简单的线性分类器得到yi表示得到得到答案wi的分数。
VQA model M is learned from D to perform an S-way classification over the answers. where y[i] denotes the i-th element of y, representing the confidence score for answer wi . 1、产生Answer candidates
从VQA得到的答案y里面选出前K个答案 wj and y[j] are an answer candidate and its confidence score。
2、产生Answer-aware examples
test输入v,q-ztrain输入vi,qi-zi所以作者推测这些融合特征位于一个潜在的答案空间中该空间包含给定图像-问题对的答案的丰富语义。如果z和zi在潜在空间中接近他们更有可能共享相似的答案和图像问题输入。意思是离得近那么图像和答案应该也相近。所以只要找到和测试的这个图片相近的那些图片从这里面寻找答案会比较准确。所以用余弦相似度计算距离 上面求出的是离得近的那些样本的index然后从样本里面根据这些index拿出来就得到Answer-aware examples 三、Stage-2. Heuristics-enhanced Prompting
生成的prompt是这样的 同时使用了多查询集成策略即每个prompt包含N个例子有T个这样平行的prompts。也就是得到T个答案预测。然后投票决定最终的答案。 四、实验
使用的基础VQA模型是MCAN-large改了一下
i 用从具有RN50×64骨干的CLIP视觉编码器中提取的基于网格的特征替换原始的自下而上的基于关注区域的特征ii用预训练的BERT大模型代替原始LSTM网络。
在VQAv2、Visual Genome预训练并去掉和OK-VQA重合的数据在OK-VQA上微调。合并词汇表。 captioning 模型是OSCAR 实验结果