玉溪网站建设网站建设,佛山网站建设哪个好点,农业科技公司网站建设,用服务器做网站发布会传送门
产品详情
针对正在兴起的机器学习广泛而多样的应用场景#xff0c;阿里巴巴计算平台基础算法团队在2017年开始基于Flink研发新一代的机器学习算法平台。该项目名称定为Alink#xff0c;取自相关名称#xff08;Alibaba, Algorithm, AI, Flink, Blink#xf…发布会传送门
产品详情
针对正在兴起的机器学习广泛而多样的应用场景阿里巴巴计算平台基础算法团队在2017年开始基于Flink研发新一代的机器学习算法平台。该项目名称定为Alink取自相关名称Alibaba, Algorithm, AI, Flink, Blink的公共部分。经过三年的投入研发Alink在算法性能、算法规模、算法易用性等方面取得了不错的成果并实现了产品化。这使得数据分析和应用开发人员能够轻松搭建端到端的业务流程。
在后面的篇幅中我们将从算法功能、算法性能、用户界面、可视化等方面对Alink做一个系统的介绍。
算法功能
Alink拥有丰富的批式算法和流式算法能够帮助数据分析和应用开发人员能够从数据处理、特征工程、模型训练、预测端到端地完成整个流程。如下图所示Alink提供的功能算法模块中每一个模块都包含流式和批式算法。比如线性回归包含批式线性回归训练流式线性回归预测和批式线性回归预测。另外Alink算法覆盖分类、回归、聚类、评估、统计分析、特征工程、异常检测、文本、在线学习、关联分析等经典领域是一个通用的机器学习算法平台。 目前Alink已经被阿里巴巴集团内部多个BU使用并取得了不错的业务提升。特别是在2019年天猫双11中单日数据处理量达到 970PB每秒处理峰值数据高达 25 亿条。Alink 成功经受住了超大规模实时数据训练的检验并帮助天猫产品推荐的点击率提高了4。
算法性能
下图给出的是一些经典算法与Spark的性能对比通过该图可以看出Alink在大部分算法性能优于Spark个别算法性能比Spark弱整体是一个相当的水平。 但是“在功能的完备性方面Alink更有优势”Alink除了覆盖Spark的算法还包含流式算法、流批混跑、在线学习、中文分词等。
用户使用界面
为了提供更好的交互式体验我们提供两种用户使用界面web和PyAlink。
首先我们介绍一下web界面。Web界面提供拖拽的方式创建试验通过对每一个组件进行配置完成整个试验的参数配置。下图给出的是web界面创建的批式、流式、流批混合的试验。 并且Alink可以支持节点的级别实验运行状态显示。在各个算法节点旁我们用闪烁的小灯泡表示“运行中”的状态用对勾表示“运行完成”的状态。一般情况下只有批式batch组件才有可能运行结束。基于各个组件的运行状态可以十分方便地判断当前实验运行到了什么程度。并且如果实验运行中出现了报错或者长时间不结束的情况也能根据组件运行状态更加方便地定位潜在出问题的组件。除了简单的运行状态以外Alink还提供了查看组件输入、输出数据量指标的功能。对于不同类型的组件Alink提供了不同的指标展现方式对于流式stream组件来说在组件运行时可以接近实时地看到组件的输出BPS和RPS数值。而对于批式batch组件在组件运行完成后会展示总的输出数据条数和字节数。这些指标的展示对于判断实验/业务是否正常运行可以提供很多的参考尤其对于一些线上实时的业务通过这些指标就能直观地看到是否正常运行。
下面我们继续介绍PyAlink。为了满足脚本用户的需求我们提供了PyAlink on notebook用户可以通过PyAlink的python包使用Alink。PyAlink支持单机运行也支持集群提交。并且打通Operator(Alink算子)和DataFrame的接口从而使得Alink整个算法流程无缝融入python。PyAlink也提供使用Python函数来调用UDF或者UDTF。PyAlink在notebook中使用如下图展示了一个模型训练预测并打印出预测结果的过程 可视化
Alink中的可视化包括统计相关的可视化、模型类可视化以及评估可视化等当前能进行大屏可视化的组件包括统计分析类组件直接展示的统计算法的结果机器学习模型类组件展示训练好的模型的信息评估类组件展示评估接口。 下图给出的是统计可视化通过下图可以看到我们的统计可视化支持窗口统计和累计统计并且支持曲线、柱状图、统计表、矩阵图等多种展示方式。
同样下面两幅图给出的是模型的可视化和评估的可视化。 总结展望
经过三年的发展Alink已经成为一个功能完备的机器学习算法平台而且已经在2019年FFA19将代码开源到社区让更多的人能够使用这个平台解决业务问题。虽然Alink开源已经取得了阶段性成果但是我们将继续积极向FlinkML贡献代码我们希望将更多优秀的机器学习算法贡献给Flink项目也希望和社区一起努力共同促进Flink社区机器学习生态的发展和繁荣。
原文链接 本文为云栖社区原创内容未经允许不得转载。