二手交易网站开发系统,湖南网络营销外包,施工企业安全生产评价汇总表最终须由( )签名。,苏州网站建设公司哪个好逻辑回归LR、POLY2、FM、FFM1.逻辑回归LR2.辛普森悖论3.POLY24.FM-20105.FFM6.GBDTLR-20147.LS-PLM-2017《深度学习/推荐系统》读书笔记1.逻辑回归LR
Logistic Regression – 融合多种特征#xff0c;通过sigmoid 函数#xff0c;预测样本的被点击的概率。样本用特征向量x[x…
逻辑回归LR、POLY2、FM、FFM1.逻辑回归LR2.辛普森悖论3.POLY24.FM-20105.FFM6.GBDTLR-20147.LS-PLM-2017《深度学习/推荐系统》读书笔记1.逻辑回归LR
Logistic Regression – 融合多种特征通过sigmoid 函数预测样本的被点击的概率。样本用特征向量x[x1,x2,...,xn]x[x_1,x_2,...,x_n]x[x1,x2,...,xn]表示n为不同特征的数量。 f(z)11e−zf(z)\frac{1}{1e^{-z}}f(z)1e−z1
zw0∑i1nwixi(1)zw_0\sum_{i1}^nw_ix_i\tag{1}zw0i1∑nwixi(1) (每个特征如何编码[性别,年龄,身高],这里应该默认每一维度就是一个特征吧而不是每个特征one-hot 编码的拼接。) CTR-Click Through Rate
将用户的年龄、性别、物品属性、描述、时间、地点等特征数值化成特征向量确定罗辑回归模型的优化目标点击率模型就是最大似然函数训练模型权重参数推断阶段输入特征向量得到某个用户对物品点击的概率对物品点击概率进行排序后推荐。
记样本被点击的概率为P(y1∣x,w)fw(x)P(y1|x,w)f_w(x)P(y1∣x,w)fw(x), 样本不被点击的概率为P(y0∣x,w)1−fw(x)P(y0|x,w)1-f_w(x)P(y0∣x,w)1−fw(x) 那么样本被点击的概率分布为P(y∣x,w)[fw(x)]y[1−fw(x)]1−yP(y|x,w)[f_w(x)]^y[1-f_w(x)]^{1-y}P(y∣x,w)[fw(x)]y[1−fw(x)]1−y 最大似然估计的目标函数为 L(w)∏i1mP(y∣xi,w)L(w)\prod_{i1}^mP(y|x^i,w)L(w)i1∏mP(y∣xi,w)
逻辑回归模型做推荐的优势
点击率与罗辑回归模型的数据假设一直都是伯努利分布可解释性强逻辑回归模型是广义的线性回归模型能够通过特性向量各个维度权重的大小来反映各个维度的作用模型简单易于并行训练开销小
逻辑回归的局限性无法进行特征交叉组成高维特征
后续的POLY2,FM,FFM 用于CTR预测时都可以看作在LR目标函数的基础上研究不同的特征组合方式。训练参数的方法都与上述LR中的最大似然一致。
2.辛普森悖论
在对样本进行分组研究时在分组比较中占优势的一方在总评中有时反而是失势的一方。
demo:按性别分组后的数据男女都是推荐视屏B但是将所有的数据合并在一起后却得出推荐视频A的结论。
获取特征非线性组合的一个常用方法和核方法核方法计算量大内存需求大
3.POLY2
Degree-2 Polynomial Margin–度为2多项式特征
考虑所有二阶特征组合方式并且为所有的二阶特征构建可学习参数。 zw0∑i1nwixi∑i1n−1∑ji1nwi,jxixjzw_0\sum_{i1}^nw_ix_i\sum_{i1}^{n-1}\sum_{ji1}^nw_{i,j}x_ix_jzw0i1∑nwixii1∑n−1ji1∑nwi,jxixj
相比于原始LR的式子(1)新增组合特征n(n−1)2\frac{n(n-1)}{2}2n(n−1)
缺点
参数数量指数增加极大增加了训练的复杂度数据稀疏特征使得大部分交叉特征权重缺乏有效训练数据无法收敛。
4.FM-2010
Factorization Machine–因子分解机(原来因子分解机本身是一个可以展开研究的内容本博文注重FM特征组合方式)
2010年提出2012-2014年成为业内主流的推荐模型之一。原文–《Fast Context-aware Recommendations with Factorization Machines》
FM为每个特征学习一个隐权重向量(latent vector) 在做特征交叉时使用两个特征隐权重向量的内积作为交叉特征的曲子权重(权重向量的学习后续补上好吧)
zw0∑i1nwixi∑i1n−1∑ji1nwj1,wj2xixjzw_0\sum_{i1}^nw_ix_i\sum_{i1}^{n-1}\sum_{ji1}^nw_{j_1},w_{j_2}x_ix_jzw0i1∑nwixii1∑n−1ji1∑nwj1,wj2xixj
优点
把权重参数的数量从Poly2的n2n^2n2降到的knknknk为特征向量的维度能够很好的解决数据稀疏问题隐向量的学习不仅依赖某个稀疏特征。
5.FFM
Field-aware Factorization Machine 不同特征在组合时隐向量的作用域应该不同也就是说不同的特征不止一个隐权重向量。
zw0∑i1nwixi∑i1n−1∑ji1nwj1,f2,wj2,f1xixjzw_0\sum_{i1}^nw_ix_i\sum_{i1}^{n-1}\sum_{ji1}^nw_{j_1,f_2},w_{j_2,f_1}x_ix_jzw0i1∑nwixii1∑n−1ji1∑nwj1,f2,wj2,f1xixj
适用于离散特征聚合连续特征最好使用FM 。 参考博文CTR预估传统模型
6.GBDTLR-2014
2014-Facebook 提出利用GBDT自动进行特征筛选和组合进而形成新的离散特征向量将该特征向量当作LR模型的输入。
用GBDT构建特工程和利用LR预估CTR这两步是独立训练的不存在将LR的梯度回传到GBDT的复杂问题。
GBDT-梯度上升决策树。每棵树都是一棵标准的回归树生成过程其目标是上一棵树的预测值D(x)D(x)D(x)与样本标签f(x)f(x)f(x)之间的残差: R(x)f(x)−D(x)R(x)f(x)-D(x)R(x)f(x)−D(x) 每棵树每个节点分裂是一个自然的特征选择的过程多层结点结构则对特征进行了有效的自动组合。(没法产生新的特征)
每个样本转换成特征向量的方式很巧妙–样本落入的叶子结点为1,没有落入的结点为0构成一个类似于one-hot编码的向量把所有子树编码向量串在一起构成了该样本的特征向量。
迷惑点1:GBDT模型的训练过程没有实验过特征分裂与一般回归树一样么残差有什么用呢 迷惑点2:样本特征转换最终特征向量与原始特征的关联不是很强了可解释性减弱。
7.LS-PLM-2017
2017年-阿里巴巴公布大规模分段线性模型(Large Scale Piece-wise Linear Model)。其实早在2012年他就成为了阿里巴巴主流的推荐模型。
LS-PLM 又被称作混合罗辑回归(Mixed Logistic Regression)先对样本进行分片聚类操作在样本分片中应用罗辑回归。
灵感来源很重要女性受众点击女装广告的CTR显然不希望把男性用户点击数码产品的样本数据也考虑进来。
某个样本被点击的概率为分片加权平均 f(x)∑i1mπi(x)ηi(x)∑i1meμix∑j1meμjx11e−wixf(x)\sum_{i1}^m\pi_i(x)\eta_i(x)\sum_{i1}^m\frac{e^{\mu_ix}}{\sum_{j1}^me^{\mu_jx}}\frac{1}{1e^{-w_ix}}f(x)i1∑mπi(x)ηi(x)i1∑m∑j1meμjxeμix1e−wix1 其中m为分片数。μi\mu_iμi和wiw_iwi的学习同时进行么 阿里巴巴给出m的经验值12最佳。LS-PLM适用于工业级推荐、广告等大规模稀疏数据场景。
主要优点
端到端非线性学习能力模型系数性强
LS-PLM可以看作加入了注意力机制的三层神经网络输入层为样本特征隐藏层为m个以sigmoid为激活函数的神经元输出层为单个神经元。