软环境建设网站,网站命名规范,大型购物网站建设费用,win2003建设网站paper阅读
任务差异带来的固有冲突实际上会损害至少某些任务的预测#xff0c;特别是当模型参数在所有任务之间广泛共享时。#xff08;在说ESMM#xff09;
共享底层参数可以减少过拟合风险#xff0c;但是会遇到任务差异引起的优化冲突#xff0c;因为所有任务都需要在…
paper阅读
任务差异带来的固有冲突实际上会损害至少某些任务的预测特别是当模型参数在所有任务之间广泛共享时。在说ESMM
共享底层参数可以减少过拟合风险但是会遇到任务差异引起的优化冲突因为所有任务都需要在共享底层上使用相同的参数。在说ESMM
对于任务是否相关MMOE不敏感而ESMM和OMOE很敏感。 在两个任务相同的极端情况下MMoE 模型和 OMoE 模型的性能几乎没有差异 当任务之间的相关性降低时OMoE 模型的性能明显下降而对 MMoE 模型的影响很小。
5.2 Trainability
探讨MMOE是否容易训练。举了个例子认为比普通 RNN 表现更好的一些门控 RNN 模型如 LSTM 和 GRU只是更容易训练而不是具有更好的模型能力。
6.2 mmoe可以调整的参数 MMOENumber of experts, number of hidden units per expert专家数量每个专家的隐藏单元数量 利用验证集中主要任务的AUC来做参数调整。
实验部分
table1的解释 鉴于任务相关性通过皮尔逊相关性粗略测量在两组中都不是很强共享底部模型几乎总是多任务模型中最差的张量因子化除外。 L2-Constrained 和 Cross-Stitch 对于每个任务都有单独的模型参数并添加了如何学习这些参数的约束因此比 Shared-Bottom 表现更好。
然而对模型参数学习的约束很大程度上依赖于任务关系假设这不如 MMoE 使用的参数调制机制灵活。 因此MMoE 在第 2 组中的所有方面都优于其他多任务模型其中任务相关性甚至比第 1 组更小。 皮尔逊相关系数越大越相关是越大越相关。 那不是group2更相关吗 单任务可以对辅助任务进行单独调参所以辅助任务在多任务中没有单任务效果好这种情况也会发生。
table4 说明 参与度黏性任务样本多满意度任务样本少。
table4说明MMOE可以在大幅提高满意任务的同时还能轻微调整参与任务在置信区间水平为95%时。
indicates confidence interval level 95% 表示置信区间水平为95%
而esmm在提高满意度辅助任务时会降低参与任务主要任务的指标。