当前位置：首页 > news >正文

网站建设icp备案仿 wordpress

news 2026/1/14 2:12:10

网站建设icp备案,仿 wordpress,wordpress修改主题,湖北建设网官方网站在过去的几年里#xff0c;大多数的推荐算法都是基于深度学习#xff08;DL#xff09;方法。遵循我们领域的一般研究实践#xff0c;这些工作证明了新的DL方法在离线实验中优于其他不基于深度学习的模型。然而#xff0c;在与推荐相关的机器学习竞赛中#xff08;如与年… 在过去的几年里大多数的推荐算法都是基于深度学习DL方法。遵循我们领域的一般研究实践这些工作证明了新的DL方法在离线实验中优于其他不基于深度学习的模型。然而在与推荐相关的机器学习竞赛中如与年度ACM RecSys大会一起举行的挑战赛没有观察到基于DL的模型的这种几乎一致的成功。取而代之的是成功的解决方案主要包括大量的特征工程和使用梯度提升的技术。在本文中我们探讨了这种令人惊讶的现象的可能原因。我们考虑多个可能的因素如问题设置、数据集和DL方法的特点和复杂性竞赛参与者的背景或评估方法的特殊性。然而当我们观察推荐任务的机器学习竞赛的结果时我们无法观察到近年来DL方法对非DL技术的胜利。例如当我们看一下每年在ACM推荐系统大会(ACM RecSys)上举行的挑战赛时我们发现其他技术在排行榜上占据主导地位。具体地说在这些依赖于相对古老的梯度提升树的方法似乎总是能拿名次。而成功的一个关键在于特征工程过程的有效性这通常需要对该领域有很好的理解。为了证明这一差异我们看了2017年至2019年与ACM RecSys举行的挑战相关的研讨会的会议记录。最新ACM RecSys挑战赛的DL方案分析在2017年至2019年ACM RecSys挑战赛的前五大解决方案中只有一个方案完全依赖于DL方法的组合在2018年挑战赛中排名第二的方案。他们解决自动播放列表问题的方法将Autoencoder处理曲目和艺术家列表与字符级 CNN处理音乐曲目标题相结合。所有其他解决方案通常基于特征工程、梯度提升或各种技术的组合包括矩阵分解、支持向量机、逻辑回归、基于内容的技术或最近邻技术等。在一些融合方案中也经常包含DL模型。选手也经常会给出单个模型的结果我们经常观察到即使使用相同的特征集DL模型也没有达到梯度提升的性能。在2018年获胜的两阶段模型中第一阶段使用了CNN组件但据作者的说法它在第一阶段模型中表现最差。在GBDT类模型与DL技术结合时。为了避免过度拟合DL方案只训练了一个epoch最后它对整体提升也很小。在2019年竞争第二名的解决方案中作者说效果最好的单模型是使用的XGBoost。他们试验了基于LSTM和基于Transformer的神经体系结构使用相同的一组特征对查询后显示给用户的商品序列进行建模。此外他们用预先训练的XGBoost模型的预测输出叶一种称为叶编码的技术丰富了特征集。然而根据作者的说法“即使是这样我们发现深度学习模型很难与GBM效果相匹配。”ACM RecSys 2020挑战赛的胜出团队将三个梯度提升决策树即XGBoost融合在一起对100多个工程特性进行了训练最终得出了最终的预测结果。他们探索了一些利用文本内容BERT标记的神经方法但最终的解决方案中没有包含这些方法。从其它推荐系统和数据科学竞赛中观察表格数据类似的情况也可以在Kaggle等流行平台上举办的推荐系统竞赛中找到。例如在Outbrain Click Prediction竞赛2017中FFM是前三名获奖解决方案中的核心技术。在Criteo2014和Avazu52014主办的CTR点击率预测竞赛中同样的技术也取得了成功。与后两项比赛不同的是Outbrain比赛的任务是排名而不是CTR预测。然而FFM技术在三年后继续表现最好同样是为了这个替代的预测目标。在这些竞争中神经网络扮演了次要的角色继FFM、带有FTRL优化和XGBoost的logistic回归模型。当我们用一般的表格数据来看待其他数据科学竞赛时我们的观察结果是相似的。近三年来Kaggle竞争的表格数据来看大多数以GBM为核心模型。偶尔有例外例如Porto Seguro’s Safe Driver Prediction和Predicting Molecular Properties 竞赛其中获胜的解决方案依赖于DL模型。在前者中所提供的特征名称是匿名的不可能将领域知识用于特征工程。我们可以推测这是一个有利于使用DL模型的因素。在后一场比赛中获胜的解决方案是一个精心设计的具有自我关注能力的图神经网络GNN。在这里数据的底层图结构可能对基于图的体系结构有利。对于此类现象的潜在原因我们确定了三大潜在差异和解释数据集和问题特征研究者的目标和动评估方法问题是否不同我们观察到的差异的一个潜在原因可能在于学术研究和竞赛中所讨论问题的特点。数据集相关方面数据集相关方面数据量大, ACM RecSys Challenge等比赛提供的数据集通常包含数百万个交互旨在代表行业数据。例如2017年挑战赛的XING数据集包含超过3.2亿次记录交互。自2006年Netflix以1亿的ratings这样大的数据集在推荐系统研究中并不少见。然而在学术界最近的DL方法通常是基于更小的数据集只包含100000个交互甚至更少。DL方法的一个流行假设是当有大量的数据可用于训练时DL会尤其有效。如果这是真的这些方法将从比赛中使用的大数据集中获益。然而另一方面训练深层神经网络的计算成本很高这也是为什么即使是最近的学术论文在评估时也使用相对较小的数据集的原因之一。在竞争对手没有处理大计算能力的情况下例如具有大内存的gpu可以容纳用于高基数分类特征的巨型嵌入表因此他们可能会求助于其他方法如梯度提升树模型等。竞赛和实际部署之间的一个决定性区别可能是真实世界系统中可用的数据量。比赛中的数据是从短时间内用户子集中采样的而部署的系统利用现有模型的迭代再训练来维护用户和商品丰富的交互历史。因此DL方法在已部署系统中的优势可能只会在更多的数据出现时才显现出来可用。与数据集特性相关的另一个方面是学术界使用的一些数据集如传统的MovieLens100k电影收视率集合比竞赛数据集和一般真实世界的数据集稀疏。众所周知高数据稀疏性可能导致过度拟合这可能特别适用于某些DL架构。这里需要考虑的一个重要方面是实际上竞争数据集通常在记录的交互数量方面很大。然而有时这些互动是在一个狭窄的时间窗口内收集的例如几个星期。因此由许多DL模型学习的用户和项目嵌入通常只基于每个用户和项目的非常小的交互集。在额外的数据方面过去的三个ACM RecSys挑战中提供了各种类型的元数据即不仅提供了用户和商品之间的交互而且数据集还分别包含了有关工作、艺术家和酒店的信息。通常认为DL方法的优点是它们非常适合于异构或多模式数据并且能够检测和利用此类数据中的复杂交互例如通过使用共享表示。同样元数据的可用性原则上应该对DL方法有利但是我们只观察到一些例子比如CNN被用来利用元数据信息。在某些情况下更多元数据特性的可用性甚至会在某些方面误导DL方法。在推荐系统竞赛中最常见的任务是对用户交互进行bianry分类或根据其预测的相关性对商品进行排名。这些任务需要负样本不存在的user item交互进行评估大多数算法也使用这些负样本进行训练。完美的场景应该是有真正的负样本这些样本实际上被用户看到而忽略了。然而竞赛数据集中的负样本通常是由商品的某些概率分布例如基于项目的最近性、流行性、“共现”co-occurrence或“内容相似性”content similarity试图模拟用户在浏览会话中可能看到或忽略的商品。如果负项的分布与正项的分布不太接近复杂模型可以学习模式将正样本和负样本从可用的泄漏特征中分离出来并利用这种方式进行准确预测。当一组更丰富的功能可用时这种风险会增加。当存在这种泄漏特征时神经网络很容易过度拟合即使使用诸如L2正则化或dropout之类的正则化技术。相比之下树的集合例如GBDT、随机森林则使用诸如bagging实例抽样和替换、feature bagging列抽样和boosting优化以正确预测前一个训练步骤中的错误来对抗过度拟合。最后这些技术可能会产生更一般化的模型即低方差误差。预测相关方面在学术界最常见的问题是rating预测、bianry分类和给定历史用户项交互矩阵的top-n推荐。在许多研究工作中一个相应的假设是对于每个用户来说在训练阶段有一些过去的交互是已知的。然而在过去三次ACM-RecSys挑战中的预测问题是不同的。2017年挑战的离线部分的目标是预测哪些用户会对新发布的工作邀请感兴趣这与商品冷启动问题相对应。与典型的学术研究不同使用了一种非常具体的评价指标考虑了用户对推荐的各种反应。2018年我们的任务是给定最初的几首歌曲创建音乐播放列表continuation。2019年的目标是预测用户在给定的会话中点击了哪一个酒店搜索结果。特别是在后两种情况下问题不是传统的矩阵补全设定而是基于会话和上下文感知的推荐问题在商品冷启动和用户冷启动推荐场景中使用神经网络时通常商品和用户嵌入会像初始化一样随机没有预测能力。因此利用用户和商品元数据例如人口统计、内容特性和上下文信息例如最近的交互、时间、位置是判断给定用户是否对给定上下文中的特定项感兴趣的关键。近年来针对基于会话和顺序推荐任务提出了一些基于DL的方法。然而特别是对于基于会话的方法基于rnn或注意力的DL方法并不一定比基于概念上更简单的技术例如基于最近邻的方法。请注意许多基于会话的深度学习算法仅依赖于协同信息即用户-商品交互但没有考虑副信息这可能是限制其有效性的一个因素。例如在之前新闻领域的实验表明简单的基于会话的算法例如基于kNN和关联规则能够提供比基于RNN和基于GNN图神经网络的模型更高的精度当只考虑用户-商品交互时。只有当附加信息被添加到一个基于RNN的体系结构CHAMELEON中时该体系结构设计用于处理冷启动问题其精度比任何其他基于会话的算法高20%。研究人员和他们的目标不同吗另一个我们看不到DL方法持续获胜的潜在原因可能与参加比赛的人有关。例如可以假设一些参与者无法访问GPU驱动的硬件这就是为什么他们求助于其他计算要求较低的技术。另一种假设是挑战参与者会定期参加数据科学竞赛。考虑到梯度提升在这类比赛中的流行和过去的成功人们可以推测这些参与者要么偏爱更传统的模式要么不精通最新的深度学习技术。然而当研究人员关注这些假设时很难维持这些假设。表现最好的贡献来自具有不同背景的团队。有来自专注于人工智能的公司的团队有从事推荐系统的学术研究小组的成员还有一些个人假设是独立的研究人员或机器学习爱好者但他们的背景并不多。至少对于来自公司的参与者我们可以假设他们配置了足够的计算资源。此外当查看来自工业界和学术界的单个研究人员简介时也会发现这些参与者非常了解DL方法并且在某些情况下如上所述报告他们在解决方案中添加DL方案的经验。尽管如此研究人员和挑战选手可能有不同的目标、偏好和工作流程。在竞赛中参赛者通常依靠常规的科学数据和竞赛数据来获得胜利。这些模型在数据预处理方面非常轻量级例如不需要特征缩放进行自动特征选择对过度拟合具有鲁棒性并且可以解释从而提供对最重要特征的见解。另一方面神经网络通常需要在特征规范化、体系结构设计、正则化或损失函数方面有深入的专业知识而且它们还需要专门的硬件GPU来实现高性能。此外由于对预处理、体系结构设计和超参数选择的敏感性神经模型通常需要努力和时间才能获得更好的结果。仅仅找到一个网络体系结构包括结构、层和节点的数量的问题就可以打开一个巨大的设计空间在这个空间中可以找到一个性能良好的解决方案。由于比赛的时间跨度通常相对较短因此当给出表格数据时DL模型可能不是参赛者的首选。根据我们的经验挑战赛参赛者在处理表格数据时通常会在特征探索和工程设计上投入大量时间。另一方面学术研究者通常更关注科学方面例如针对给定的问题或领域探索和提出复杂的训练算法和神经体系结构设计。他们在实验中一般不注重特征工程和泄漏的开发。例如有论文报道了将混合推荐的新神经体系结构与XGBoost模型进行比较的实验XGBoost模型使用相同的丰富特性集。是评估过程不一致吗在学术研究和竞赛中如何设置性能比较实验以及如何实际进行评价是完全不同的。我们在表1中说明了主要差异。这两种基准测试算法之间的差异是显著的。在竞赛中这样做的方式似乎更客观也不容易受到研究人员的潜在偏见的影响他们是唯一在发表前对自己的提案进行评估的人。实际上在学术环境中研究人员在决定实验装置的具体细节时有很大的自由。拥有这种自由是绝对重要的因为它允许研究人员探索新的结构和研究以前没有研究过的问题。这种自由的一个潜在的缺点可能是研究人员可能会有意识或无意识地以实验配置结束这些配置支持他们的假设即他们新提出的方法比以前的方法更好。上下文中的一个典型问题可能在于基线的选择和优化。也就是说可能是因为新的Baseline太弱了。最近的研究提供了几个例子其中DL方法与论文中报道的方法相比并不总是优于现有的并且通常相当简单的方法。当然在学术文献中我们无法知道DL方法在多大程度上战胜了以往的方法论问题。这一点尤其不清楚因为在数字图书馆时代之前也曾观察到类似的问题例如在信息检索领域。我们可以在不同的学术评价方法和方法中观察谁来设计和研究。然而最终这些差异是否与学术论文和竞赛中获奖模式之间观察到的差异密切相关目前仍不清楚。在行业中也可以看到类似的差异推荐的成功是以组织为导向的通常是纵向的关键绩效指标。例如谷歌在他们的在线实验中报告说与具有相同特征集的线性模型相比他们的广度和深度模型在在线获取方面的收益增加了3.9%。从更积极的方面来说我们可以越来越多地观察到学术研究人员通过公开代码、超参数选择和数据集来更加关注可重复性。这将导致其他研究人员有机会客观独立地验证实验和结果。讨论和总结我们的工作突出了许多潜在的原因为什么DL方法不能一直赢得推荐系统的竞争。也可能存在其他原因例如这只是发生在特定比赛系列中的巧合。事实上一年之内有一个完全基于DL的第二个解决方案。可能是DL方法对于这些类型的问题“只是不能很好地工作”。然而考虑到DL在机器学习的其他应用领域和工业中的成功这样一个概括的解释似乎不太可能。总的来说我们认为DL方法在推荐问题上的潜力还没有得到充分的开发。也许我们还需要更好的方法来并行地组合不同的信息源。结合前10期作品的成功经验提出了相关建议。尤其是在需要考虑某些细节的情况下比如在新闻领域我们有一个永久性的项目冷启动问题。另一种在竞赛中使用DL获得更好结果的潜在方法可能是开发和使用能够实现高性能“开箱即用”的工具即不需要进行广泛的特征工程和神经结构设计。在DL的上下文中例如这样的AutoML技术NAS。然而我们的讨论也强调了在学术研究中不要忘记非DL方法的重要性。近年来我们有时观察到新提出的方法只与其他DL方法进行比较而不再考虑以前的方法。当后来发现这些基线DL方法并不一定比我们以前的方法更好时例如。由于以上提到的方法问题我们再次以“提升不会add up”结束这种以DL为中心的基线模式也出现在行业数据集的在线评估中而且这一建议也可能适用于此。最后人们可能会质疑机器学习竞赛对于一般科学过程的重要性。这样的比赛在某些方面强化了一种“追逐排行榜”的文化在这种文化中主要的、通常唯一的目标是在一组准确度指标上比以前的方法高出几个百分点。这可能会导致这样的结果这些改进在实践中是否重要的问题从未被问过。此外为什么某个解决方案导致了改进这也变得无关紧要因为这样的研究方法不是基于基础理论或研究假设的。另一方面竞赛可以对科学研究产生一些积极的影响。例如通过这样的竞赛组织可以与学术界分享他们感兴趣的问题。此外竞争是学术研究人员获取数据集的重要来源之一也是吸引研究人员在未来不断建立更好的推荐系统的有效手段。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集

查看全文

http://www.yutouwan.com/news/233316/