桐乡网站制作,导购网站模板,郑州前端培训机构,网站个人备案容易过吗原文链接#xff1a;https://developer.aliyun.com/article/770631 基于GAN的个性化短标题生成在1688平台的实践应用 在电商情境下#xff0c;卖家为了吸引买家兴趣#xff0c;也为了提高商品被搜索引擎检索命中的概率#xff0c;通常趋向于写过于冗长的商品标题。如何从过…原文链接https://developer.aliyun.com/article/770631 基于GAN的个性化短标题生成在1688平台的实践应用 在电商情境下卖家为了吸引买家兴趣也为了提高商品被搜索引擎检索命中的概率通常趋向于写过于冗长的商品标题。如何从过于冗长的标题中抽取关键信息作为短标题展示在手机端同时结合不同用户的兴趣及用户特征展示不同的短标题是我们研究的核心。过去1688导购场景中的短标题文案由卖家填写或仅通过简单的统计方法实现基于此我们运用算法的手段构建深度学习模型并在1688平台的多个场景里尝试并落地了个性化短标题生成的技术丰富了场景的营销内容在场景中取得了不错的效果。/span一、背景介绍
我们团队从去年的工作中积累了风格化文案生成算法的内容生成方案。之后我们创新的提出使用Generative Adversarial Network的生成技术结合用户特征进行个性化短标题的生成同时提高稀疏数据集下模型的鲁棒性。目前成果已被DLP-KDD2020会议录用论文题目是“Selling Products by Machine: a User-Sensitive Adversarial Training method for Short Title Generation in Mobile E-Commerce”。
过去的相关研究主要从商品的内容出发而缺少对用户行为的挖掘从而忽视了买家的需求。我们提出了“个性化指针生成对抗网络PPGAN”生成用户感知的个性化短标题。此外在数据集上电商用户行为数据中用户的低点击率使得我们的数据集非常稀疏本文模型引入一种无监督的信息理论策略能够从用户未点击数据中识别出高质量的短标题训练模型。 二、模型结构 PPGAN模型网络整体包含三个模块1.电商词嵌入2.个性化短标题生成器G3.两种不同的判别器D真假判别器和CTR判别器。这三个模块共同组成我们的个性化短标题生成模型框架。
1.电商词嵌入
我们使用AliNLP的电商NER工具对商品标题和用户特征进行识别提取“颜色”、“风格”、“品类”等实体类型特征。例如在商品标题“包邮Nike品牌的红色运动裤”中“包邮”标记为“市场服务”“Nike”标记为“品牌”“红色”标记为“颜色”“运动裤”标记为“品类”。对于每个单词我们将其单词向量和NER向量拼接共同作为模型的词向量输入。
对于商品标题序列每个单词被表示成 对于用户特征序列每个单词被表示成 通过加入单词的NER信息模型更能够学习到每个单词的重要性将重要的单词保留在短标题中。
2. 个性化短标题生成器
对于短标题生成器来说输入信息为商品标题和用户特征通过one-step Pointer Networks模型从原标题中抽取式的生成短标题与传统的多步指针网络相比一步指针网络在解码阶段一步解码避免了多步解码的重复性抽取问题。
用户特征的构建我们基于用户在平台的点击记录运用统计方法计算用户特征具体来说对于用户点击过的商品item_t收集点击itemt之前点击过的10个商品数据通过词频统计取TOP10的单词作为用户特征U(u_1, u_2, ... , u_10)。
如图所示在用户特征构建后将用户特征向量序列输入GRU网络中计算得到用户表征。 为了融合用户和被点击的商品的特征我们将用户表征与商品词向量进行拼接再输入GRU编码器进行编码。 在解码部分通过基于注意力机制的一步解码和softmax层输出在原输入序列上的概率分布取概率TopK的单词作为生成的短标题。 3. 判别器
判别器D是一个以生成器G的输出分布Pg和真实短标题分布Pr为输入的二元分类器用来判别是商家手写真实短标题还是机器生成的伪短标题。我们将真实短标题的输入分布定义如下其中T为原始长标题S(s_1, s_2, ... , s_m)为真实短标题m是短标题的长度。 同时为了让判别器不那么容易的判别出真伪短标题我们给真伪短标题的分布加入服从高斯分布的噪音使训练过程更加稳定。 将这两个标题分布与商品词向量点乘得到“短标题”的向量表示在拼接用户特征后分别输入判别器D进行判别。判别器D网络采用常用的卷积神经网络包括真假判别器和CTR判别器两种。真假判别器用来使生成器生成的短标题更接近用户点击的真实短标题此外考虑到数据集的稀疏性用户点击样本量相对于未点击样本量较少因此我们希望引入CTR判别器从大量的用户未点击样本中识别高质量的短标题训练模型。
4. 对抗训练损失与模型训练过程
生成器G尽力为目标用户生成接近真实的短标题分布判别器D尽力最大化真伪短标题分布之间的距离从而做出正确判别。算法流程如下图所示 首先使用大量长短标题pair对预训练生成器G快速更新我们的生成器。由于没有足够的用户点击数据覆盖所用商品我们在预训练阶段仅使用商品标题特征而不考虑用户特征。我们使用L2损失函数作为预训练生成器G时的损失 正式训练阶段1输入数据为用户点击的商品数据[T, U, S]生成器G和真假判别器D的损失函数如下 正式训练阶段2输入数据为用户未点击的商品数据[T-, U-]。事实上用户未点击的短标题并不仅仅由于短标题质量不好也可能是用户对商品本身不感兴趣。因此我们考虑通过对抗的方式识别出用户未点击但质量好的短标题。我们借鉴了现有的工作最大化正负例之间的信息边界在判别器损失中加入正负两个类别之间的加性条件熵M_D(x)。CTR判别器的损失函数如下
三、实验结果与线上效果
1. 样本数据和训练
我们的训练样本来自1688平台商家手写的短标题以及现有短标题场景中用户的行为数据可以将数据集表示成其中O为商品原始长标题S表示手写短标题U为用户特征序列L为用户对商品的标签1表示点击0表示未点击样例如下图所示。我们的用户点击样本量为64万用户未点击样本量为695万因此数据集较为稀疏。此外数据样本上经过了一定的数据清理工作因为本身训练样本数据的质量会严重影响最终生成短标题的质量我们的处理主要包括脏语料的剔除、异常字符的过滤、原始标题长度限制等同时利用AliNLP进行用户和商品特征的命名实体识别工作。
数据样例如下 2. 个性化短标题生成样例
与对比方法相比我们的模型PPGAN能够根据不同的用户特征从原始长标题中抽取特定用户感兴趣的信息生成个性化的短标题。表中短标题的生成长度设定为5根据不同的产品和场景需求我们能够生成不同长度的个性化短标题从而让生成的短标题更贴合业务需求。
PPGAN实验生成样例如下图所示 3. 1688落地效果
目前个性化短标题已落地到1688平台的多个场景中包括伙拼、天天特卖、厂货集采等。我们在榜单的“发现好货”进行AB测试结果上实时个性化短标题比截断长标题点击率绝对值高出2.3个点左右比统计短标题高出1.7个点左右。并且在2019年的920大促中全量上线到大促会场中承接住1100QPS的调用量为1688导购场景全面赋能目前已沉淀为场景侧技术工具供运营使用。
线上效果如下 四、参考文献
[1] Martin Arjovsky, Soumith Chintala, and Leon Bottou. 2017. Wasserstein Generative Adversarial Networks. In ICML. 214–223.[2] Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. 2015. Pointer networks. In NIPS. 2692–2700.[3] Tao Zhang, Jin Zhang, Chengfu Huo, and Weijun Ren. 2019. Automatic Generation of Pattern-controlled Product Description in E-commerce. In WWW. 2355–2365.[4] Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O K Li. 2016. Incorporating copying mechanism in sequence-to-sequence learning. In ACL. 1631–1640.[5] Yue Deng, Yilin Shen, and Hongxia Jin. 2017. Disguise Adversarial Networks for Click-through Rate Prediction. In IJCAI. 1589–1595.