湘潭专业网站建设湘潭振企专业,电子商务平台开发内容,免费建网站广告语,aspcms网站地图模板本文介绍如何使用Databricks进行广告效果归因分析#xff0c;完成一站式的部署机器学习#xff0c;包括数据ETL、数据校验、模型训练/评测/应用等全流程。
内容要点#xff1a;
在当下的信息化时代#xff0c;用户每天都会收到媒体投放的广告信息#xff0c;如何做到精准…本文介绍如何使用Databricks进行广告效果归因分析完成一站式的部署机器学习包括数据ETL、数据校验、模型训练/评测/应用等全流程。
内容要点
在当下的信息化时代用户每天都会收到媒体投放的广告信息如何做到精准广告投放可以通过分析广告产出结果来合理分配广告渠道。归因分析(Attribution Analysis)通过归因分析模型分析不同渠道的店铺客流量数据量化评估影响客户消费的活动因子。面对多且杂的数据Databricks 如何通过一站式数据分析平台和 Delta Lake 架构简化执行过程。一、数据ETL 本文通过归因分析模型分析不同渠道下的NewYork City快餐店的人流量数据量化影响人们去快餐店消费的主要活动因子。
首先从不同的媒体网站获取分析需要的人流量的数据模拟SafeGraph月度的人流量数将数据存储到Bronze层。然后进行数据清洗将每月的时间序列数据每日访问次数存储到Silver层将影响快餐店人流量的数据汇总至Gold层进行进一步校验确定是否满足要求。 接下来对相关字段进行筛选筛选出需要的字段将店铺每日访问的人流量展示出来。
本文的数据是8月店铺的人流量如果进行机器学习模型训练还需要引入不同快餐店的人流量数据来丰富该数据工程。 为了丰富数据工程数据工程师创建了赛百味的fastfood数据集模拟广告投放、社交媒体、门户网站的流量参数将人流量的具体情况默认到这个food traffic表中。 通过调用谷歌的Google Trends API来丰富food traffic的数据。然后将聚合后的数据写入delta gold table里完成数据的ETL工作。
Google Trends即常说的谷歌趋势是谷歌基于搜索数据推出的一款分析工具。它通过分析谷歌搜索引挚每天数十亿的搜索数据告诉用户某一关键词或者话题各个时期在谷歌搜索引擎中展示的频率及其相关统计数据。
二、机器学习 完成ETL的相关工作之后进入机器学习模块将不同来源的人流量数据统一到Data Lake架构里。通过数据清洗得到需要的数据。然后对数据进行校验确定是否满足机器学习的模型训练需求。 通过使用预测模型量化不同渠道的人流量对最终消费进行预测。
接下来利用模型整合各个媒介渠道影响客流量的百分比对广告投放的优化提出可行性的见解。
如上图所示第一张表是整个纽约州不同城市间的人流分布图第二张表是New York City的人流分布图。通过上图可以直观看到不同城市间的人流量差距较大所以要对纽约州的每个城市进行单独的分析。 接下来使用Plot features对数据进行校验使用Pandas数据框进行数据搜索数据解析。 通过Python绘图可以看到数据的分布情况比如广告投放的连续情况以及社交媒体网站的浏览情况。 完成上述操作后对数据集的整体分布进行校验得出feature分布符合预期。综上所述该数据集满足Xgboost学习训练的要求。 接下来使用Xgboost机器学习框架进行训练。通过调整参数选择一个相对损失较小的训练模型对该模型进行实际预测从上图可以看到红色线是预测结果蓝色线是真实的客户流量。 通过该模型进行实际预测得出社交媒体对客流量的影响占总体的50.7%网页浏览对客流量的影响占总体的39%。故得出不同渠道的广告对客流的影响真实有效。 综上所述利用SHAP模型整合各媒介渠道客流的百分比通过绘制图表能够准确找到影响客流量最大的因子。社交媒体和home页面访问是推动客流量最有效的渠道所以预算分配可以有的放失从而提高整体销售或市场份额。
三、Demo演示
操作演示视频https://developer.aliyun.com/live/249173
作者冯加亮阿里云开源大数据平台技术工程师
原文链接
本文为阿里云原创内容未经允许不得转载。