明光网站建设,如何免费做网站赚钱,登录自己网站的后台 wordpress,广州企业网站建设价格简介#xff1a; 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践#xff0c;剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。
作者#xff1a;新浪微博数据计算平台系统架构师 曹富强 本文讲述了微博机器学习平台和深度学习平台的业务功…简介 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。
作者新浪微博数据计算平台系统架构师 曹富强 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。
微博介绍
微博是2008年上线的中国头部、流行的社交媒体平台提供人们在线创作、分享和发现优质内容的服务微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿月活是5.16亿。
微博机器学习平台WML优势
微博机器学习平台的特点是样本规模大百亿级样本实时性比较高是分钟级然后模型规模是百亿级模型实时性根据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个9平台业务多场景丰富迭代快。
微博机器学习平台WMLCTR模型 微博机器学习平台的CTR模型经过数字版本的迭代从1.0的离线机器学习到3.0的离线和深度到5.0的在线机器学习、离线机器学习和深度机器学习结合。再到目前我们是往在线深度学习方向发展。总体来说经过历史迭代目前支撑的参数规模达千亿级服务峰值达百万QPS模型更新是10分钟量级。
微博机器学习平台WML架构 我们看一下微博机器学习平台的架构微博机器学习平台为CTR、多媒体等各类机器学习和深度学习算法提供从样本处理、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群离线计算集群和高性能计算集群。我们通过资源的WeiBox调度框架和WeiFlow工作流引擎计算平台的话是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch提供了诸多丰富的算法。基于这些算法训练的模型我们入到我们WeiPS模型库然后通过WeiServing对外提供在线推理服务。
微博机器学习在阿里云上实践 我们的阿里云上实践使用了Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed流、绿洲推荐使用MaxCompute实现在相同规模下万亿样本百亿特征全量训练比Hadoop集群提升10倍。支持从天级到分钟级的实时热门微博、Feed流业务推荐及搜索样本实施训练、上线业务推荐效果提升10%。基于Flink搭建了实时计算平台集成了作业提交端UI/WeiClient、作业管理、资源管理、日志系统、监控报警系统等各链路作业规模上千。整体来说阿里云建设机器学习有几大优势支持大规模处理、算法丰富、平台成熟运维方便、投入时间直接聚焦到业务。
微博深度学习平台WDL典型业务场景 接下来介绍微博深度学习相关的业务目前的话在微博的关系流、绿洲、新浪视频推荐、正文推荐流里面都有深度学习的应用。
微博深度学习平台WDL架构 基于在线gpu的机器我们通过K8s和Yarn管理然后通过WeiArena和el-submit提交任务。我们的WeiLearn集成了TensorFlow、Pytorch引擎然后集成了样本库读取和输出的模型库。然后WeiServing加载了模型库对外提供两路服务一个是通过AI服务直接对外提供AI输出能力另外就是我们的计算服务WeiStorm集成了数据流调用WeiServing RPC服务框架实时生成多媒体特征对外提供在线服务推理。
微博深度学习平台WDL多媒体特征生成 微博机器学习深度平台多媒体特征的生成只有两条链路第一路是离线的训练离线训练模型通过数据源的处理输出到样本库然后通过我们WeiServing分布式训练模型调用输出到模型库这一路的话是一键CICD、分布式训练、支持多种类的模型。另一路是在线推理在线推理的话消费多媒体实时数据流调用我们的WeiServingRPC框架输出多媒体特征然后应用到业务这条链路的话我们通过对账系统、case追踪、全链路监控去做服务保障成功率是99.99%延时是秒级延时。开发模式是通过UI化、配置化、一键部署。
微博深度学习平台WDL基本功能 微博深度学习平台产品功能的话一个是样本库然后分布式训练模型库在线推理服务和计算服务。样本库的话主要是包含样本数据管理和样本分布式存储对在各节点上零散的样本进行统一管理分布式训练的话内置常用深度学习算法并持续新增成熟的算法规范样本读取训练gpu集群的灵活调度和训练模型的统一存储模型库的话提供分布式系统和本地两种存储方式为在线推理服务提供模型在线推理服务支持Python和C模型的一键部署实现模型推理的服务化以及监控、告警等。可封装为HTTP服务对外直接提供AI的能力实现AI能力的直接输出计算服务基于内部的多媒体分发系统接入多媒体数据流调用在线推理服务实时生成多媒体特征。
微博深度学习平台WDL业务实践 微博深度学习平台业务实践早期的话基于单机训练处理大规模数据时训练周期长迭代慢影响业务效果。 于是我们提供了多媒体深度学习服务方案微博深度学习平台就应运而生实现了样本存储、离线训练、在线推理及模型存储一体化功能。最终产生的效果和业务价值是分布式训练极大缩短了训练时间为快速业务迭代提供良好基础一体化服务让我们只需要专注于模型算法优化提高业务效率整体上为业务赋能和业务承建产生了巨大的推动力。
原文链接
本文为阿里云原创内容未经允许不得转载。