9e做网站,所有浏览器大全图片,大连建设网官方网站,北京南站是丰台站吗文章目录 前言1.从AB实验平台聊起(1)AB平台在业务中的发挥那些作用(2)AB平台进行实验工作流介绍 2.实验平台底层数据管道最小MVP解构(1)数据管道数据从哪里来#xff1f;(2)数据管道的输出数据有哪些#xff1f; 小结 前言
AB实验平台是一种通过小范围放量#xff0c;测试不… 文章目录 前言1.从AB实验平台聊起(1)AB平台在业务中的发挥那些作用(2)AB平台进行实验工作流介绍 2.实验平台底层数据管道最小MVP解构(1)数据管道数据从哪里来(2)数据管道的输出数据有哪些 小结 前言
AB实验平台是一种通过小范围放量测试不同方案对业务指标影响的归因工具它可以帮助我们科学优化产品设计和提高用户体验。然而要实现一个高效和可靠的AB实验平台一个强大的数据支撑包括数据采集、数据处理、数据统计和数据展示等环节。本文借着渭佬对hive解决实际业务问题的开坑需求计划出一个系列来和大家聊聊怎么用hive这项工具实现AB实验平台底层的数据管道搭建系列计划从三个环节进行讲解
最小的实验平台级别dmeo的底层数据管道方案如何设计实验数据管道数据处理部分问题有那些如何通过hive实现实验数据管道数据统计、检验部分问题有那些如何通过hive实现
本篇主要围绕AB平台demo的底层数据管道方案设计话题展开
1.从AB实验平台聊起
这章通过下楼学习法的方式向读者讲解首先理解AB平台在发挥什么作用使得AB平台的发挥作用的工作流程讲解、再基于工作流程下楼推导引出满足工作流程的数据链路应该包含那些信息表以及它们的作用希望可以帮助读者更好的理解
(1)AB平台在业务中的发挥那些作用
AB平台的核心是通过在线对照实验Online Controlled ExperimentOCE将用户随机、均匀地分为不同的组同一组内的用户在实验期间使用相同的策略不同组的用户使用相同或不同的策略。然后通过收集和分析用户的行为数据和业务数据评估不同策略的效果从而做出数据驱动的决策在实际业务场景中AB平台主要可以起到以下作用
**科学决策**在消除客户体验UI设计、营销策略、算法优化等中不同意见的纷争场景通过实验平台科学决策可以消除纷争。如如营销场景中想要知道8折促销和满100减20谁带来的营销提升大这是通过实验平台建立一个以销售额为评价指标的不同促销策略的AB实验进行观测就可以很好的得出答案 **试错成本最小化**通过AB平台基于目标显著计算可得到满足实验进行的最小样本量进而进行小范围分流测试在确保得到可信实验结果同时将无法确定效果的新功能上线后带来的风险控制在了最小规避直接全量的发布带来对用户带来大范围使用体验影响和关键指标波动难科学归因的风险**快速实验验证因果:**AB另一个好处就是可以快速敏捷验证产品的猜想帮助产品找到问题的真正原因并量化影响因素的大小提高产品设计和运营水平
(2)AB平台进行实验工作流介绍
在数据分析实际工作一个最小的实验demo发起最少应包括以下环节
前期分析制定策略:对于分析同学来说比较理想的情况是大部分的AB实验发起来自分析师分析中对产品、算法同学负责业务场景数据分析报告的优化建议分析师通过数据分析发现xxx场景存在xxx问题建议xxx做xxx优化以提升/解决。由此为契机协助业务同学制定业务的优化策略并沟通好策略评价指标与需要同时观测的关注指标 (这部分在数据链路系列不做详细讲解) **设计开发、发布实验:**制定好优化策略并完成开发后业务同学就可以在实验平台中进行实验的注册并完成实验对应指标信息的填写后发布实验。21年版本的火山AB平台的实验注册为例主要需要完成基本信息、版本信息的填入与指标、实验样本的选择。 实验生效、数据回收实验发布后一般通过哈希分流的方式将对应比例的用户随机分流到实验对照组中各组的用户数据一般通过埋点方式采集回收至数仓用于后续的数据统计分析统计检验生成结论通过数据仓库对埋点数据进行清洗后进一步统计得到指标数据基于指标数据可以再得到检验的结果数据后将ads层的数据统计检验结果上传到平台用户展示、与结论的生成解读**基于结论决策实验**根据数据分析的结果分析和业务同学判断实验是否符合预期目标而做出决策是否要大规模的放开优化策略同后续数据持续跟踪这块细节 数据管道系列不会展开
2.实验平台底层数据管道最小MVP解构
基于上述最小实验demo的工作流介绍笔者以前端类实验为例绘制一个简单的AB实验平台数据管道流转图 章节2围绕图(AB实验平台数据管道实现最小MVP构成)向大家介绍想要一个支撑AB实验平台跑通的数据管道至少需要获取那些数据源以及向平台输出那些数据
(1)数据管道数据从哪里来
由图(AB实验平台数据管道实现最小MVP构成)不难看出想要实现实验平台数据管道自动化跑动至少需要获取以下两个渠道的数据
实验平台侧的实验信息数据产品侧AB实验进组用户的埋点行为数据
实验平台侧这里继续以火山的AB平台为例为了后续数据管道的跑通最少需要平台中
实验列表信息即实验的名称、实验id、实验版本信息、版本id、实验指标信息、指标id等指标管理信息即指标名称、指标id、指标统计类型是均值类指标如日活还是比率类指标如点击率等、指标统计id均值类需要曝光埋点、比率类需要分母、分子类埋点 注这里需要注意的是笔者提及需要来源数据解决方案均实验平台所在公司没有指标管理平台建设或指标平台未和AB平台打通如下火山为例AB平台内自嵌了一个指标管理 **产品侧**产品的数据主要需要前端上传埋点类的行为数据用于后续实验的指标统计至少需要用到
用户的行为数据信息一般来自前端埋点页面的曝光、点击等埋点日志信息用户所在实验进组情况信息用户所在实验组别信息一般通过埋点内字段信息携带 (2)数据管道的输出数据有哪些
数据管道的输出数据是指数据管道将处理后的数据发送给实验平台的数据这些数据是实验平台进行监控和分析的基础。数据管道的输出数据可以分为两类实验指标数据和实验结论数据。这里以腾讯云AB平台实验报告页为例一份可以支持数据驱动业务决策的实验平台页至少包含以下数据
数据类型数据含义数据用途实验指标数据Experiment Indicator DataEID包含实验中关键关注指标的实时当天、历史情况数据用于业务、分析同学监控数据观察实验的效果和趋势实验结论数据Experiment Conclusion DataECD包含实验的Z/T检验结果、基于结果推导出的是否通过的结论用于业务、分析同学做出数据驱动的决策确定是否全量或调整实验方案 小结
本文主要介绍了实验平台的作用与使用流程以及底层的数据管道的链路图。通过下楼讲解的方式帮助大家理解平台的作用以及底层数据管道设计的逻辑思路。不足之处欢迎大家多多指正关于实验更多细节欢迎文末评论区提出讨论。 在下一部分笔者将深入探讨数据管道的实现细节包括
如何使用hive对回收的实验信息、实验用户行为数据进行处理清洗的思路以及落地代码需要一定的Hive中高阶段处理知识如开窗、行列转化、字符处理等前置知识如何设计hive调度实现各类指标统计完成Z/T检验Z-test/T-test结果如何通过Hive完成计算需要一定的统计检验前置知识。
希望大家继续关注本系列的后续文章从中学习到更多的知识和技能。 参考资料 《关键迭代》 《AB实验科学归因和增长的利器》