当前位置: 首页 > news >正文

北京大型网站建设上海seo推广平台

北京大型网站建设,上海seo推广平台,wordpress 4.9.8中文版,html5新特性视频云大模型算法「方法论」。 刘国栋#xff5c;演讲者 在AI技术发展如火如荼的当下#xff0c;大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中#xff0c;对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提… 视频云大模型算法「方法论」。 刘国栋演讲者 在AI技术发展如火如荼的当下大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提升算法能力解决多场景业务中的具体问题需要创新地探索大模型技术及其应用方式。本文由LiveVideoStackCon2023深圳站演讲《AI新范式下阿里云视频云大模型算法实践》整理而成演讲者为阿里云智能高级算法专家刘国栋分享阿里云视频云的大模型算法实践。 《AI新范式下阿里云视频云大模型算法实践》主题分享包含如下四个部分 01 音视频AI发展趋势与业务对AI算法的要求 首先我们看第一部分音视频AI发展趋势与业务对AI算法的要求。 当下音视频服务已广泛应用于互娱、广电传媒、教育、金融等各种行业对场景的渗透也越来越深。这些行业、场景对智能化和体验的追求愈来愈高同时用户希望用得起、更普惠。完成这样的目标AI可以发挥重要作用这已成为行业共识。 随着AIGC的发展音视频领域的AI技术也呈现出了新的趋势即对AI技术的通用性、理解能力、生成能力都提出了更高的要求。过去纯粹的定制小模型开发、单模态处理和预测范式有不少缺陷触达到了能力上限而目前音视频AI技术则走向了泛化能力非常强的预训练大模型、多模态信息融合、生成式等方向。还有值得提出的一点是AI Agent的能力即要求AI有感知、决策、行动的能力它目前已成为一个重要的研究方向。 当前阿里云视频云的核心业务包括直播、点播、媒体服务、音视频通信形成了完整的产品、解决方案阵列。这些业务、产品覆盖音视频从采集、生产、处理、媒资管理、传输与分发、播放与消费的全链路。 目前AI为音视频全链路的各环节提供了算法原子能力。举例来讲在处理环节我们开发了多个AI算法在视频方面包括视频增强、视频修复、超分、插帧HDR等在音频方面包括智能降噪、语音增强、空间音频、影视音效等。这些AI算法都集成到产品中提升了产品的竞争力。 当然AI除了提供算法原子能力之外也渗透到视频云的引擎层、调度层、业务层进一步提升它们的智能化水平。 尽管AI已经大量融入业务我们对业务做了深入分析后还是发现了一些痛点问题。举例说明云剪辑很多时候还是需要指定剪辑模版缺乏自动化另外获取高质量的素材也很难在媒资管理中视频检索的质量仍然存在不少提升空间。但同时由于大模型、AIGC带来的巨大变革我们认为解决这些业务痛点问题已成为可能。 我们总结出几点新趋势下视频云业务对AI算法的要求包括追求效果性能上的极致体验追求算法的泛化性、通用性提升AI自主决策、规划处理链路的能力以及降低开发、接入、使用的成本。 02 视频云大模型算法系统架构与关键技术 针对音视频业务对AI算法的更高要求我们采用了大模型的技术设计了一套基于视频云大模型算法开发的系统架构并实践、提炼了一些关键技术形成了一套较为通用的大模型算法落地业务场景的“方法论”。 我们先看下大模型时代来临前是如何设计算法的。 多数情况下我们采用小模型、传统算法或者两者结合的方法。其优点是小模型、传统算法在算法开发、工程优化方面已相对比较成熟小模型的训练资源占用少且训练速度快部署容易端侧落地性强。但是问题也比较突出比如模型的泛化能力差效果上限比较低理解、生成能力比较差等。 而大模型出现后它的通用性、泛化性、多模态能力、强大的理解和生成能力等都让我们惊叹不已这些正是小模型和传统算法所欠缺的。用大模型技术去解决之前的算法问题甚至重做一遍提高算法效果的上限我们认为这是比较可行的做法。 不过我们也发现了大模型的一些通病比如对细粒度的问题还不能完美处理、容易出现幻觉现象、推理训练成本都比较高等。如果要在实际业务中应用大模型这些问题都应该要尽量避免甚至解决。 那我们是如何推进大模型算法演进的呢 首先我们根据视频云的业务特点设计和搭建了一套基于视频云大模型算法开发的系统架构。整个系统涵盖了分析、规划、推理、评价、训练与微调的全链路并且是可进化、可决策的。 可决策主要体现在系统会根据客户需求和自身的分析结合视频云知识库及LLM做出决策制定合适的处理链路和选择模型去完成任务。 可进化主要体现在两个方向一方面系统会通过推理、评价、训练不断迭代完善模型另一方面知识库也是不断更新的比如说好的解决方法和评价信息以及业务反馈、沉淀的数据等都会送入知识库确保知识的新鲜度、准确度。 基于大模型算法系统框架我们不断地在业务中实践、演进提炼出一套通用的大模型算法开发的“方法论”使其能高质量地解决业务中的实际问题。 第一大小模型协同技术。 针对前面指出的大模型、小模型或传统算法各自存在的问题我们提出几种大小模型、传统算法协同的方法包括三者的串联、并联用小模型特征引导大模型或者大模型引导小模型以及它们的组合。目前我们在实践中已经采用了大小模型协同的方法比如实景抠图、声音克隆等算法已经取得了比较好的效果。 第二大模型微调。 目前音视频领域的大模型往往针对通用场景在实际业务中效果不太好当然这并不是讲这些模型完全不可用。在一些情况下我们针对自己的业务场景筛选出相对高质量的大模型再结合我们的数据、知识库进行大模型的微调。 整个过程会涉及到训练数据的制作、微调的具体方法、幻觉和灾难性遗忘的应对、以及训练策略和效果评价方法等一系列问题。 我们在实践中主要采用了参数高效的微调方法对调整哪些网络结构层也做了大量实验。训练策略上采用模型解耦多步训练的策略。比如在视频搜索中我们就采用了类似的方案使得模型准确度有了大幅提升。 第三大模型的训练优化。 大模型训练的计算量巨大显存的占用也非常大这导致训练周期很长算法迭代速度很慢影响算法的落地。 我们从IO、计算、存储等角度出发实践了一些并行训练、显存优化的方法包括多种并行混合精度训练梯度检测点等以及采用Zero、Offload、Flashattention等工具。这些方法使得我们可以在一些性能不高的GPU上如RTX3090/RTX4090/V100完成多机多卡的训练从而降低算法的开发周期。 第四大模型压缩和推理优化。 实际业务对成本的要求是比较高的我们希望在保证模型效果的前提下尽量提升推理的性能。 实践中我们对模型做了多轮的压缩交替使用多种压缩方法包括使用轻量的backbone低秩分解以及剪枝知识蒸馏、量化等。比如在抠图中我们采用多种压缩方式的组合使模型大小有了显著下降参数减少30%以上。 此外我们也做了很多推理层面的优化比如算子融合、算子优化、矩阵优化显存优化批处理优化等并借助阿里云神龙团队的HRT推理引擎使得大模型推理性能得到进一步提升。 03 视频云大模型算法典型实践案例 接下来介绍当前阿里云视频云在大模型方面的进展。在过去近一年的时间内阿里云视频云在大模型方面做了深入探索开发了多个算法所做工作涉及音视频采集、生产、处理、媒资管理、传输分发、播放消费全链路的多个环节。 正如上图所示在生产制作环节我们开发实景抠图、声音克隆、文生图、图生图、AI作曲等多个基于大模型的算法在媒资管理环节开发了基于大模型的视频搜索、视频标签、视频概要等技术在处理环节我们开发了基于大模型的视频修复、语音增强等算法。 目前我们已经初步形成了较为完整的视频云大模型算法阵列。这些算法中很多都已集成进产品并服务客户。在这里我将从生产制作、媒资管理、处理方面分别介绍一项典型算法实践即实景抠图、视频检索、视频修复。 实景抠图是一项非常重要的底层技术它的应用面非常广比如我们熟知的数字人制作、虚拟演播厅、影视特效、视频剪辑、视频会议等都会用到它。 阿里云视频云在抠图方面有多年的积累已开发多种抠图算法可以应对客户端、服务器等的不同需求也已在多种业务场景落地。 这里重点介绍的是面向服务器的基于大模型的抠图技术。 一般情况下想要得到高质量的抠图结果都要采用搭建绿幕的方式。因为这种情况对光照、设备、去溢色等都有非常专业的要求在一定程度上限制了绿幕抠图的应用范围。 而在实际业务中往往需要对实景拍摄的视频抠出前景来。由于拍摄环境多变、内容多种多样用算法自动进行抠图实现难度比较大。 如何对实景视频实现高质量抠图呢这涉及到算法选型的问题。 我们先看下小模型方法能否实现高质量抠图。经过深入调研我们发现很多抠图效果好的方法都采用人工干预的方法这种方式对单帧图像比较友好但对于视频往往处理耗时久不太实用。而采用非交互式方式的抠图鲁棒性则较差往往只能较好地抠人像难以在多场景推广。 大模型分割算法的出现让我们看到了采用大模型提升抠图效果的可能性。以SAM为例它的分割泛化能力非常强分割质量高对噪声、阴影等也能做到很好的处理。 我们希望借助大模型分割的能力来实现高质量的抠图。 我们提出了一种基于大模型的实景抠图方案。它能统一处理蓝绿幕与实景抠图所以实际处理中不用再区分背景是蓝绿幕还是实景。此外该方案不仅可以抠人像还可以抠与人连带的附属物并且抠图的质量都非常高。 它的整体流程如下首先用户提供一些抠图所需的信息这些信息以文本形式嵌入然后输入图像与文本嵌入向量逐步经过目标检测、基于轻量化大模型的物体分割、基于小模型的抠图网络。 在这个框架中模块是可插拔的而且采用的是大小模型结合的方式。小模型会充分吸收大模型的信息比如这里的抠图网络它吸收来自分割模型的特征提高了抠图的效果。 我们重点看下分割大模型是如何做到轻量化的。 首先选择一个各方面都表现比较好的基础大模型泛化性好、分割准确度高、效果和性能平衡。 接下来的工作是调整它解决其适配业务场景的问题使它在业务场景下表现得比较完美。这里会进行微调我们设计了Adapter结构实践中采用了MLP和低秩分解组合的形式。另外Adapter的插入位置也进行了很多尝试。还有一点是训练数据的制作以及数据配比等等都非常重要。 有了一个效果比较好的大模型我们开始设计轻量化的大模型这个模型采用轻量化的vit结构作为backbone使用前面训练好的大模型对它进行蒸馏使用剪枝等技术进行优化。 经过这些操作轻量化模型的参数下降到基础大模型的2/3。在这个过程中我们也沉淀了多个不同复杂度、不同抠图能力的模型把它们的能力送到知识库中。实际业务使用时决策中心会根据要求调用合适的模型。 除了算法层面的优化我们还进行了一些工程侧的优化主要包含三方面 1、工程架构的优化这里采用了CPU、GPU异步并行 2、网络推理方面的优化如使用推理框架HRT采用fp16、int8推理 3、传统算法模块的优化如控制优化、循环优化、访存优化、线程优化等。 经过算法、工程两方面的优化对于输入的1080p视频我们在A10上实现了33fps的高质量抠图。 我们看下抠图的效果。对于输入图像我们实现了抠人像、以及抠人像加桌子/化妆品/手机等附属物的效果。这个抠图质量还是比较高的特别是发丝抠图效果非常细腻人物、物体的抠图边缘都很精细。 另外我们也开发了前背景和谐化的技术解决了抠出的前景与被贴入背景在光照、对比度、色彩等方面不协调的问题。 在刚刚过去的云栖大会我们也展示了一个抠图的应用在开放环境中实现异地多人实时连麦虚拟背景的功能。右图是现场演示的图像。 我们再看下媒资管理中的视频搜索。它的应用也非常广包括广电传媒、云导播、云盘管理、短视频内容推荐、视频监控等。 这里先介绍下传统的视频检索方法。 它通常采用小模型方法对视频内容进行识别包括人脸识别、物体识别、Log识别、OCR、ASR等等然后生成标签这些标签是文本关键词形式的且大部分是实体标签。这些标签都会送到数据库中。对于用户输入的查询语句进行标签的查询并返回对应视频的片段。 这里存在一个比较大的问题即搜索往往是实体的搜索而对于实体的动作、相互之间关系等很难检索到正确的视频另外搜索往往对查询词很敏感。 我们看到多模态表征技术将图像和文本映射到统一的高维空间中实现了实体、实体关系等的高质量检索并对文本中的同义词、近义词不敏感。这些典型的表征技术包括CLIP、BLIP技术等还有针对中文的ChineseCLIP、TEAM等。但这些技术是针对单帧图像的而我们的场景都是视频。那如何实现视频的检索如何提升高维向量检索的时效性呢 我们提出了一种基于嵌入模型的视频检索算法。 对于视频而言同一个镜头最好用同一个或少数几个embedding vector表示。这样做的好处是减少了embedding向量的数量也就减少了存储的空间和检索的计算量同时由于是对镜头进行处理表征的质量更高检索的质量也就更高。我们通过三步达到这个目标 1、首先对视频内容分析结合固定步长抽帧和自适应抽帧初步过滤掉一些信息冗余的帧 2、其次采用相邻采样帧进行时空维度的特征编码 3、最后对嵌入向量从检索角度进行多级聚类和量化。 经过这三个过程在同一镜头内得到的最终向量只有非常少数大大降低了向量的存储空间提升了检索的效率而且也提高了检索质量。 这里我们设计了多帧的视觉编码器采用微调、蒸馏等方法保证了它的效果并实现了它与文本的对齐。 在前面方法的基础上我们又提出了一种信息融合的视频检索算法。这里解决的问题是 一是实现视觉声音与文本间的检索比如检索出小鸟在树上叫的视频片段二是实现更细粒度的检索比如某位名人在某个著名景点的活动。 针对这两个问题我们分别设计了时空视听嵌入模块和关键实体识别模块分别提取不同粒度的表征信息。在检索阶段我们会分别对两种粒度的嵌入向量进行检索再对二者的信息进行融合最终实现更好的检索效果。 此算法发挥了不同模型优势融合了多模态的信息并提升了检索的适用范围。 我们再看下多模态融合是如何实现的。整个过程如上图所示。 它实现了同一场景视觉与听觉的特征融合也实现了视听特征与文本的模态对齐。我们借鉴了ImageBind的方法把音频、文本都对齐到了视觉空间。 目前该功能已经集成进媒体服务产品中。这里展示了一些视频搜索的效果我们可以看到新方法的一些效果它对动作、时间、数量等都有比较好的检索能力。 最后看下处理方面的视频修复算法。视频修复的应用场景非常广泛比如体育赛事、综艺节目、影视剧、纪录片、动漫、老歌MV等场景。 视频修复的维度非常多样比如针对瑕疵、拍摄或制作中的噪声、细节、色彩等都可以进行修复。这里讲的视频修复针对的是直播、点播等场景中在制作、编辑、转码中引入的细节退化问题。如左图所示我们能看到明显的细节退化比如模糊、块效应、边缘锯齿等。 那用什么方法来解决细节退化呢这里牵扯到算法选型的问题。 从我们之前积累的经验看GAN方法对一些垂直领域的、退化不是非常严重的场景可以有比较好的效果。但当片源或流的质量比较差时GAN方法的细节恢复就显得不够了而且此时生成的效果也不太自然。此外RealESRGAN的效果一定程度上也印证了我们的结论。 我们发现基于SD预训练模型的StableSR可以取得更好的细节生成效果具体表现为它对源质量适应性强效果自然、稳定细节恢复质量高。因此我们选择SD来应对这样的修复场景。 下面介绍我们的方案。该算法借鉴了StableSR的一些想法网络层面也是由UNet和VAEFGAN组成的。我们结合业务场景进行深入的设计和调整特别是针对badcase的处理做了大量工作。这里简单介绍几方面 1、在训练数据方面采用了离线和在线结合的数据降质模拟策略 2、针对VAEGAN中编码器处理后有信息损失的问题我们采用了编码器特征导引解码器的网络形式并对他们进行联合微调 3、在训练策略上通过引入HR编码器特征把扩散模型与VAEGAN解耦 4、此外我们也采用了多阶段训练策略。 这里展示了SD修复的效果。从图中不难看出新方法对人像和自然物都有很好的修复比如头发上的很多细节都恢复出来了人的五官变得更清晰了远处船上及绳索上的细节、建筑物的细节也恢复出来了。 04 音视频大模型的思考 关于音视频大模型的思考这里介绍四个方面 第一是端侧智能。随着终端芯片对大模型支持的力度越来越大比如apple、高通等公司都发布了大模型终端芯片大模型在端侧落地已是必然趋势。目前我们从端侧大模型设计、推理优化两方面入手针对高端机型进行了端侧大模型落地的探索。 第二是云端一体。从技术层面讲需要解决两方面的问题第一个是如何划分大模型云、端的计算负载第二个是大模型的特征编码。 第三是模型的统一。这里重点强调两个统一视觉模型backbone的统一、以及多模态encoder的统一。在有了统一的基座模型之后可以针对业务场景对下游任务进行finetune。 第四是大模型的决策能力。我们希望大模型不仅能解决单点问题还希望它有规划、行动的能力也就是Agent的概念。现在在算法层面我们已经做了一些工作接下来我们希望用大模型来提升引擎、调度、业务层的智能化水平。 我的分享就到这里谢谢
http://wiki.neutronadmin.com/news/86795/

相关文章:

  • 注册网站流程及费用搜附近的人用什么软件
  • 妇女之家网站建设方案广告设计与制作就业方向是什么
  • 动易网站模版的制作东营 网站 建设
  • 哈尔滨高端品牌网站建设12380网站建设情况说明
  • 网站源码授权长沙有哪些公司
  • 友点企业网站管理系统 模板wordpress文件夹里图片无法获取
  • 汕头建站价格吉林市网站建设
  • 网站互联网设计图风格天津网站设计 河西
  • 重庆怎么制作网站?本科毕业设计代做网站
  • 智能科技网站模板下载wordpress网格化插件
  • 学网站前端wordpress 文章 指定
  • 微信公众号文章里好看的图片在哪个网站做wordpress更新服务ping
  • 做网站的商标是哪类个人网页可以做什么内容
  • 中山家居企业网站建设自助建网站系统看电影
  • 网站建设qq软件开发工具的基础
  • 学做网站最好的网站网站建设需求分析表怎么写
  • 做网站用的三角形图片如何先做网站再绑定域名
  • 做网站需要编程么有哪些实用的网络推广方法
  • 做钓鱼网站视频教程个人商城网站备案
  • 做订阅号要建立网站吗国内网站备案流程图
  • win 2012 iis 默认网站怎么新建自己的网站
  • 六安木兰巷sem seo招聘
  • 泉州市建设局网站重庆网站设计好的公司
  • 电子商务网站建设期末试题及答案电子交易网站流程
  • 学校网站建设所使用的技术域名转移影响网站访问吗
  • 代码网站有哪些烟台学校网站建设
  • 卢沟桥网站建设广告营销策划公司
  • 网站怎样做wordpress template_include
  • 企业网站前端模板网站设计的专业流程
  • 如何给网站做2维码南京市雨花区建设局网站