网站网页主页的区别,wordpress 代码解析,2021近期时事新闻热点事件,做网站编程的电脑配置源 | 京东零售技术在以人工智能技术为支持的推荐、搜索、广告等业务中#xff0c;点击率预估#xff08;CTR#xff09;一直是技术攻坚的核心#xff0c;同时也是人工智能技术在业务落地中最难实现的技术方向之一。第一期介绍了视觉信息使用帮助提高点击率预估的准确度点击率预估CTR一直是技术攻坚的核心同时也是人工智能技术在业务落地中最难实现的技术方向之一。第一期介绍了视觉信息使用帮助提高点击率预估的准确度Category-Specific CNN for Visual-aware CTR Prediction at JD.com KDD2020。本次介绍京东广告团队在用户行为建模中的工作基于卡尔曼滤波的注意力机制——广告点击率预估中的用户行为建模。此次工作《Kalman Filtering Attention for User Behavior Modeling in CTR Prediction》被机器学习领域中含金量最高的顶级国际会议NeurIPS 2020成功收录为Spotlight论文。本次会议的OralSpotlight共收录了385篇论文占9454篇总投稿量的4%。介绍之前首先致谢京东零售数据算法通道委员会的支持。2020年京东零售建立数据算法通道委员会后推出了适合算法工作特点的评价体系机制算法技术氛围变的更浓厚使得算法工作能朝向长期深入的方向去深耕也为算法工程师去尝试风险较高的创新项目提供信心保障将视野投向行业敢于去挑战业界的难题。任务背景广告点击率Click Through Rate, CTR预测问题即已知户信息()、商品信息()、和环境信息()预测该用户点击该广告的概率即CTR预测是广告领域的最根本问题之一。精准的广告点击率预测是整个广告系统的基石直接关系到京东数亿活跃用户的使用体验与百万广告主的切身商业利益。在电商场景下用户在平台上产生了大量的浏览、点击、购买行为。相比于用户年龄、性别等静态属性这些行为包含了更多、更细力度、更实时的用户偏好信息。因此对用户行为建模能有效挖掘用户兴趣偏好从而为CTR预测提供强有力的支持。本文的目标是提出了一种用户行为建模方法能从用户丰富的历史行为中提取能精准地表达用户实时兴趣偏好的特征向量从而助力后续的CTR预测。现有方法现有用户行为建模模块均采用经典的注意力机制Attention来融合用户历史行为的特征表示。具体地建模过程都可以看成一种对用户行为序列的某种加权求和给定特定用户的 1当前搜索词2长度为的历史行为和3其对应历史搜索词预估用户对当前搜索词的兴趣偏好。具体为其中是历史行为的权重。以最基础的Vanilla Attention为例直观地与当前搜索词相关的行为会被赋予更大的权重是几乎所有现有注意力机制的共同设计理念。State-of-the-art的算法包括DIN [1]、DIEN[2]、Transformer[3]等。然而这些现存的注意力机制都存在着两个缺点传统的注意力机制大都假设用户此刻的兴趣一定被历史行为覆盖。然而实际的电商场景中用户的当前兴趣经常是与他们相关历史行为无关的新商品图一左。在这种情况下无论权重如何分配都无法用历史行为的加权平均来刻画用户此刻的兴趣。传统的注意力机制将所有用户行为等价看待而忽略电商领域中用户行为的严重的频次不均。所以在加权求和的过程中高频用户行为复购周期很短的食品、消耗品相比于低频用户行为例如奢侈品、电器会获得较大的总权重图一右导致用户兴趣偏好预估有偏。图一、电商场景下传统Attention结构的缺点。左随着用户行为序列长度的加长目标商品类别更可能在用户历史行为中有所体现。但即使序列长度高达400时仍存在10%以上的行为属于新的诉求。右绝大多数情况用户行为都被被高频行为占据而高频行为有很大可能性与目标无关。当目标商品为复购率低的商品如手机、手表时情况更加严峻。以上两个问题都限制了用户兴趣抽取的精度影响后续CTR预估的准确性。我们的算法原理针对电商场景中用户经常出现历史行为中没有表现过的新的兴趣对不同品类商品行为频次严重不均衡这两个问题我们提出了新的用户行为建模算法。该技术旨在克服已有基于Attention算法的不足并基于卡尔曼滤波给出一套新的算法框架。在新框架中算法一方面能做不局限于用户历史行为的兴趣抽取另一方面能够克服用户行为中频次差异巨大的问题。相比于现有的用户行为建模算法我们提取的用户兴趣更精准、无偏从而提升CTR预估准确性。1. 基于卡尔曼滤波注意力机制的用户行为建模卡尔曼滤波是原本用于多传感器融合的算法假设各传感器都存在一定测量误差置信程度融合得到误差更小、更精确的目标变量估计值。在这里我们借鉴卡尔曼滤波的思想对传统的注意力机制进行改进。以下将方法命名为Kalman Filtering Attention简称KFAtt。给定当前搜索词我们假设用户对当前搜索词的兴趣偏好服从高斯先验分布。这里的随机变量刻画了不同的用户在相同搜索词下的兴趣偏好。具体地代表着用户兴趣偏好的平均值即在搜索词下的爆款商品代表着兴趣分布差异即对于越具体的搜索词兴趣分布差异越小。同时我们将用户历史行为看成当前兴趣偏好 的次独立的、不确定性不同的传感器的观测值。并假设这些观测值服从高斯分布其中不确定性可以认为是传感器和待测量量的距离在用户行为建模场景下可以认为是当前搜索词和历史搜索词的距离。因此对当前搜索词的兴趣偏好就可以通过最大后验估计MAP得到其中表示高斯概率密度函数。该MAP存在解析解通过引入兴趣先验对用户没有在历史行为中表现过的新诉求KFAtt也都可以很好地建模。借助KFAtt得以从其他用户的兴趣表达中学到当前用户的先验。借助KFAtt得以在兴趣先验和用户行为后验之间折中。实际操作中和都可以输入通过两层全连接层得到。可以通过和的距离得到例如取则最终得到的计算表达式和传统Attention的表达式非常类似。如果进一步让在不考虑用户兴趣先验的情况KFAtt将退化为传统Attention也说明了本方法的合理性。2. 带频次控制的卡尔曼滤波注意力机制在KFAtt基础上我们进一步针对用户行为中不同品类商品行为频次严重不均衡的问题做了方法改进Kalman Filtering Attention with Frequency Capping简称KFAtt-freq。沿用KFAtt的假设我们依然假设用户对当前搜索词的兴趣偏好服从高斯先验分布。不同的是为了处理不同种类商品的频次不均问题。我们对历史搜索词进行去重对历史行为按搜索词归并。具体地用户行为建模可以抽象为用个相互独立的传感器对进行的测量。在传感器上我们得到个测量值. 显然。每个测量值中的误差中包含两个独立的部分系统误差由传感器本身带来的误差。传感器和目标的距离越远系统误差越大。测量误差传感器精度带来的误差。这部分误差通过多次重复测量可以降低。假设这两部分误差都服从高斯分布那么其中是排除掉测量误差外的传感器的测量值。而测量值因此和KFAtt类似KFAtt-freq也可以通过最大似然估计MAP得到对目标对当前搜索词的兴趣偏好该MAP存在解析解其中 表示同一个传感器下的多个测量值的均值。KFAtt-freq相比KFAtt由于将用户同商品品类的多个行为当成同一个传感器的多次测量而多次重复测量只会降低测量误差无法降低系统误差。因此这些行为对最终的总贡献会存在上限进而可以解决行为中频次差异巨大带来的问题做到精确、无偏的用户兴趣抽取。 实验效果我们首先在亚马逊商品推荐数据集上测试KFAtt和KFAtt-freq算法的表现。如前文讨论我们算法的收益来自 1引入全局信息解决用户当前新兴趣不被历史行为覆盖的问题 2通过频次控制解决不同种类行为频次不均带来的权重有偏的问题。为了证明这一点我们从亚马逊数据集里额外抽取了两个挑战更大的子测试集New与都来自不同类别和Infreq与同类的极为低频即. 实验结果如下我们的算法最右两列的AUC明显高于所有被比较State-of-the-art算法并且在New和Infreq上的优势更为明显。这不但证明了我们算法的优越性也验证了我们的两项Motivation的合理性。我们的算法可以广泛适配于多种现存注意力机制并获得一致性的提升。我们的算法应用于京东具体搜索业务在百亿样本的巨大工业数据集上和在真实的线上流量里获得了较大的效果提升。我们的算法在线上系统中的耗时远低于DIEN与最高效的STOA算法平齐。 结论我们提出了一种基于卡尔曼滤波的注意力机制用于工业级广告点击率预测系统中的用户行为建模任务。通过卡尔曼滤波建模有效地引入特定搜索词的全局先验信息并有效控制高频商品在用户行为中的权重从而得到比现存注意力机制更适配用户行为建模任务的算法有效提升用户行为建模及其后续广告点击率预估的准确性。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~ [1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate.[2] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction.[3] Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep interest evolution network for click-through rate prediction.[4] Feng, Y., Lv, F., Shen, W., Wang, M., Sun, F., Zhu, Y., Yang, K. (2019). Deep session interest network for click-through rate prediction. arXiv preprint arXiv:1905.06482.