当前位置：首页 > news >正文

门户网站开发是什么外贸营销网站建站

news 2025/12/27 14:59:47

门户网站开发是什么,外贸营销网站建站,公司网站建设多少钱,wordpress文件管理器1.摘要多模态情感识别是人工智能领域的一个活跃的研究课题。它的主要目标是整合多种模态(如听觉、视觉和词汇线索)来识别人类的情绪状态。目前的工作通常假设基准数据集的准确情感标签#xff0c;并专注于开发更有效的架构。但由于情感固有的主观性#xff0c;现有数据集往往…1.摘要多模态情感识别是人工智能领域的一个活跃的研究课题。它的主要目标是整合多种模态(如听觉、视觉和词汇线索)来识别人类的情绪状态。目前的工作通常假设基准数据集的准确情感标签并专注于开发更有效的架构。但由于情感固有的主观性现有数据集往往缺乏高标注一致性导致潜在的不准确标签。因此建立在这些数据集上的模型可能难以满足实际应用的需求。为了解决这个问题提高情感标注的可靠性至关重要。在这篇论文中我们提出了一个新的任务叫做“可解释的多模态情感推理(EMER)”。与以前主要集中于预测情绪的作品相比EMER更进一步为这些预测提供了解释。只要预测情绪背后的推理过程是可信的预测就被认为是正确的。本文介绍了我们在EMER上的初步工作其中我们引入了一个基准数据集建立了基线模型并定义了评估指标。同时我们注意到整合多方面能力以应对EMER的必要性。因此我们提出了影响计算中的第一个多模态大语言模型称为AffectGPT。我们的目标是解决标签歧义的长期挑战并为更可靠的技术指明道路。此外EMER提供了一个机会来评估音频视频文本理解能力的最新多模态LLM。为了便于进一步的研究我们将代码和数据发布在:https://github . com/zero qiaoba/affect GPT 多模态情感识别目标整合多种模态识别人类的情绪状态。论文提出了一个新的任务可解释的多模态推理EMER 可解释性在于为预测结果提供了解释提出一个数据集作为基准情感计算的第一个大模型AffectGPT目标解决标签歧义的长期挑战更可靠的技术发展 2.数据集该文章提出的数据集是新颖的其独特之处在于每个标注者从四个方面标注情感线索: 1)面部表情和肢体动作 2)声调和语调 3)演讲内容 4)视频内容、环境和其他线索。线索总结对于每个样本三个注释者从四个方面提供线索。为了总结所有线索我们利用chat GPT并使用图1中的提示。但是我们仍然在生成的结果中观察到一些重复的表达式。因此我们手动检查并优化输出。目的使用gpt的智能性对线索进行总结。一段视频的多段描述如下。请将这些描述总结如下: 1.请将“线索描述”的多个段落的主语统一为“他” 2 .请将“线索描述”的多个段落进行总结删除重复的单词、短语或句子并用完整的句子描述最终结果 3 .检查标点符号情感总结在这一步中我们使用ChatGPT从汇总的线索中推断情绪状态因为这一策略比MER2023中的原始标签提供了更微妙的情绪。然而我们在输出中观察到一些不可靠的情绪。为了解决这个问题我们使用few-shot ChatGPT进行情感摘要。提示如图2所示。请总结一下这个人的情绪状态:投入: 他看起来很开心其实很焦虑。输出:焦虑线索和情感的结合我们把情绪和线索组合成一个段落:在这些“线索”的辅助下我们可以推断出人物的情绪状态为“情绪”。然后我们人工评估这个推理过程的合理性得到最终的描述。总结可解释型多模态情感推理线索情感——预测情感什么是可解释性我在这里的理解就是我有一个很合理的证据去推断出当前的情感。这个证据就是线索和情感。线索是关键信息的提炼情感是关键信息表征的情感内涵的提炼。这两个因素很大程度上能够指向一个合理的情感且这个过程是人工可以评估的那么我的情感预测就是可解释的。 3.任务解决思路直接方法使用多模态逻辑线性模型因为这些模型能够处理各种多模态理解任务。由于情绪感知依赖于时间信息我们只选择支持视频输入的多模态LLM包括VideoChat [9]、Video-ChatGPT [13]、Video-LLaMA [10]、PandaGPT [11]和Valley [14] 多模态LLM背后的基本思想将其他模态的预训练模型与文本LLM对齐。在对指令数据集进行微调后这些模型表现出理解指令和多模态输入的非凡能力例如VideoChat和Video-LLaMA使用BLIP-2[15]中的Q-Former将可视查询映射到文本嵌入空间。 PandaGPT使用image bind[16]来学习六种模态之间的对齐。 Video-ChatGPT和Valley exploit CLIP[17]来获得文本对齐的视觉特征。 PandaGPT和Video-LLaMA还支持音频输入。为了在视频中集成字幕信息我们在提示中包含字幕作为附加内容。——即为需要提取线索信息的原料。相同的提示信息 Prompt:The subtitle of this video is SubtitleSubtitle_Here/Subtitle.Now answer my question based on what you have heard,seen,and given subtitles.From what clues can we infer the person’s emotional state?Please summarize the clues in a maximum of 100 words. 此视频的字幕为 Subtitle Subtitle _ Here 。现在根据你所听到的、看到的和给的字幕回答我的问题。从哪些线索可以推断出这个人的情绪状态请用不超过100字的篇幅总结这些线索 4.评价指标评价指标主要分为自动评价和人工评价两部分。自动评价利用ChatGPT从三个方面评估预测结果: 1)情感相关线索之间的重叠程度 2)概括的情绪状态之间的重叠程度 3)推理过程的模态完备性。对于前两个指标分数范围为0到10分数越高表示重叠越多对于这些指标我们首先使用提示1总结情绪相关的线索(或情绪状态)然后使用提示2计算重叠部分(见图3和图4)。所谓重叠度的计算即重复词的概率 ##Prompt1:请提取与角色情绪状态相关的描述然后进一步总结这些描述输入:{预测} 输出:## Prompt2:“真实线索”和“预测线索”在下面给出。请计算“真实线索”和“预测线索”的重叠部分。重叠程度越高返回的分数越高。分数范围从0-10。真实线索:抬眉、笑脸预测线索:抬眉得分:5 真实线索:{ gt _ clue } 预测线索:{ pred _ clue } 得分: 图3:计算情绪相关线索重叠程度的提示。 ##Prompt1:请总结此人的情绪状态: 输入:他看起来很开心但实际上很焦虑。输出:焦虑输入:{预测} 输出: # #Prompt2:下面给出“真实情绪”和“预测情绪”。请计算“真实情绪”和“预测情绪”的重叠程度。重叠程度越高返回的分数越高。分数范围从0-10。真实情绪:快乐预测情绪:快乐得分:10 真实情绪:{ gt _ emo } 预测情绪:{ pred _ emo } 得分: 图4:计算情绪状态重叠程度的提示与此同时能够从更多模态推断情绪的模型应该得到更高的分数。因此我们使用图5中的提示来评估推理过程的完整性。推理过程的完整性展示从那种模态——什么内容——推断出什么情感请总结输入内容涵盖了多少种模式。您可以从[音频视觉内容]: 输入:他看起来很开心音乐让我开心。输出:视觉音频输入:他看起来很开心音乐让我开心。同时他对研究人员表示感谢。输出:视觉、听觉、内容输入:{预测} 输出: 图5:评估模态完整性的提示。人工评估对预测结果进行人工评估。对于每个视频我们雇佣五个注释者来判断推理过程的合理性。注释者有 “完全错误”、“正确(小部分)”、“正确(大部分)”和“完全正确”四种选择。我们将这些选择映射到从1到4的分数范围内分数越高表明推理能力越强。总结评价当前的一些评价指标基本都是基于自动指标人工指标的标准人工指标多结合认为特别设计而自动指标常常为该领域的常用指标。 5.AffectGPT 使用初始EMER数据集来训练音频-视频-文本对齐的多模态LLM称为AffectGPT。模型主要框架来自Video-LLaMA并做了一些修改修改 (1)视频-LLaMA分别训练音频和视频分支。我们修改它以支持音频-视频-文本对齐训练。 (2)在Video-LLaMA中不同指令数据集的输入输出格式不一致。因此我们统一了输入和输出格式。代码:https://github . com/zero qiaoba/affect GPT。数据集处理一些初步的实验来测试不同样本选择策略的影响 1.训练测试随机划分80个20个 2.训练集Video-LLaMA三个指令数据集结合【训练集扩充】 3.指令微调——模型gt-eng-remove-test【微调】 4.去除短样本(小于2s)——模型gt-eng-remove-test remove-short【清洗】 5.训练期间合并训练集和测试集——gt-eng【所有数据训练测试上限性能】重叠性与性能展示总结 EMER数据集指令微调能够给情感推理带来性能改善——原因很明显因为EMER数据集是一个情感相关的数据集。 gt-eng训练完美——原因测试数据集参与训练了为了测试模型性能上限。总结很少有模型从听觉推断情感当前LLM多模态更关注视觉通道——看数据集也能看出来听觉信息不多叭提高多通道理解能力考虑更多音频指令数据集——模态平衡的操作叭总结 gt-eng-remove-test 没有去除短视频 gt-eng-remove test-remove-short 去除短视频去除短视频模态完整性更好——短视频情感相关描述更少取出后倾向于更长的描述覆盖更多的模态。 6.实验结果和讨论评估不同基线在整个EMER数据集上的性能视频聊天的两个版本文本视频聊天使用视觉模型将视觉数据转换为文本格式嵌入式视频聊天将视觉信息与文本嵌入空间对齐的端到端模型自动评估 1.实际和预测差异显著现有多模态LLM在情感推理中的局限性 2.指标趋势具有相似性在所有基准中VideoChat-Text通常表现最差而Valley通常表现最佳。值得注意的是音频基准(如PandaGPT和Video-LLaMA)并没有表现出优异的性能。人工评估人工评价的设计尽在20个测试样本进行人工评估为消除人为误差影响将ground truth和预测放在一起打乱评分结果见表2 总结 chatGPT和人工评估有一定的相似性 VideoChat-Text 一贯表现最差而Valley一贯实现最佳表现指标间存在差异chatGPT作为参考主要结论来自人的评价评估多模态集成效果基于chatGPT和人工的相似性根据线索重叠和情感重叠从基线中选择最佳预测——标记为基线线索、基线情感这种策略可以提高情感推理性能验证了多模型集成的优势。总结AffectGPT的性能-表二 AffectGPT在情感推理中得分最高——AffectGPT(线索)”和“AffectGPT(情感)这两个模型都最好最好——在gt-eng-remove-test”和“‘gt-eng-remove-test-remove-short”两种训练集设置中获取性能最好的模型最佳预测。分别被表示为“AffectGPT(线索)”和“AffectGPT(情感)”。实验结果表明AffectGPT在情感推理中的得分最高充分验证了该策略的有效性。定性分析随机选择样本进行可视化展示总结基线预测都是快乐但实际标签是愤怒错误原因不能理解声音线索(如颤抖的声音和激动的音调)和面部线索(如皱眉)。 Video-LLaMA错误识别出背景音乐的存在当根本没有背景音乐时 Valley和Video-LLaMA的视频描述能力不错——他们成功地识别出一名穿着西装的男子在木窗前对着麦克风说话尽管这些描述与他的情绪状态无关。总结所有基线只有PandaGPT和Video-ChatGPT准确地将人的情绪状态识别为烦躁。 Video-ChatGPT错误识别人物正在对着电话说话当这个人没有拿着电话时大多数基线正确地识别出这个人正在喝水但这种观察与她的情绪状态无关。原因即当前的多模态LLM主要是在图像字幕数据集或视频字幕数据集上训练的这些数据集关注于服装、环境、动作等。而不是以面部为中心的描述。此外这些数据集通常忽略多模态信息从而限制了在这些数据集上训练的多模态LLM的音频-视频-文本理解能力。 7.总结总结提出EMER任务去做情感多模态。与传统情绪识别不一样不仅预测情绪状态还提供了解释。旨在解决标签歧义问题提高识别可靠性为促进研究构建了初始数据集开发了基线并定义评估指标自动|人工实验结果证明这项任务有难度——现有技术达不到预期效果。使用AffectGPT整合多方面能力来解决当前问题。EMER成为评估多通道LLM音频-视频-文本理解能力的基础任务。目标降低标注成本增加数据集大小设计更有效的基线改善任务效果鼓励更多人参与推进情感计算实际应用 8.读后感 1.作者提出要做可解释的多模态情感推理为了解决标签歧义和提高可靠性。 2.什么是作者说的可解释多模态情感推理呢不仅预测情绪状态还提供解释 3.作者怎么实现即预测情绪又解释的分两部分第一步从现有ground truth中通过GPT提取线索然后人工微调重复的生成。然后通过重叠率进行评价。第二步根据线索通过GPT提取情感。通过重叠率进行评价。可解释性提线索重叠率-提情感重叠率根据情感重叠率约束情感的提取且约束线索能够提取更好的情感。根据线索重叠率约束线索总是提取出了关键信息。所以线索总是能支撑情感提取的即提取的情感的可解释性来自线索线索是情感预测的解释。 4.实验是怎么做的作者实验了很多现有的多模态LLM。整个流程中第一步和第二步使用两个LLM模型他们可以是不一样的。最好的模型挑选了提取线索最好的模型和提取情感最好的模型的组合集模型集成的优势。两步提取都是通过大模型的微调模板信息提示的模式进行提取的。

查看全文

http://wiki.neutronadmin.com/news/138356/