KDD2020|对大规模推荐模型输入的神经搜索
作者:互联网
Neural Input Search for Large Scale Recommendation Models
https://arxiv.org/pdf/1907.04471.pdf
这是一篇谷歌推荐的短文,介绍了使用强化学习搜索的策略分配不同物品embedding size和不同特征选择问题的方法。
背景
推荐场景下的人工特征选择会花费大量的时间,并且由于离散特征数目的日益增长,导致映射的embedding维度也越来越高,对于每个item储存其id和其他特征的embedding映射表耗费了巨大的存储空间。文中提出了使用强化学习的方法自动选择不同特征的embedding size的方法。
输入信息的神经搜索
首先定义了两个概念,一致维度嵌入(sigle-size embedding):所有item id或特征都对应相同的维度大小。多维度嵌入(muti-size embedding):每个item id或特征可以对应不同大小的维度。提出这个概念的目的是使交互信息多的item可以得到更高维度的嵌入,更好的学习到更多的信息;交互信息少的item使用较小的embedding size节省存储空间,并且由于其本身交互信息不充足就算使用高维的嵌入也没法得到充分的训练。
映射矩阵
由于每个item有不同的embedding size,所以需要做一个映射,映射到同一个维度的空间中。这里其实我有个问题,就是文中方法的提出一部分是为了解决存储空间的问题但是额外的映射矩阵又增加了内存开销。
神经搜索策略
这里也没看太懂,大概就是在说经过实验测试对输入数据进行分块,物品数目划分比例是[0.1, 0.2, 0.2, 0.2, 0.3]以及维度划分为[0.25, 0.25, 0.25, 0.25]总计20块block,然后搜索哪些维度是必须的。对于一致维度来说,搜索得到[7m*192]dim的embedding映射矩阵;对于多维嵌入来说,得到[3m*192]dim和[7m*64]dim的映射矩阵。
实验
在两个任务场景下,分别是检索和排序任务上测试了他们提出的框架,对比直接固定维度,使用神经搜索的一致维度和使用神经搜索的多维度,证明了神经搜索多维度embedding的优越性。
总结
提出了神经搜索自动确定最佳embedding size和多维度embedding的方法,并在两个不同的数据集上验证了所提出方法的有效性。
Ref:Joglekar M R, Li C, Chen M, et al. Neural input search for large scale recommendation models[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2387-2397.
标签:映射,KDD2020,item,搜索,embedding,神经,维度,size 来源: https://blog.csdn.net/EdmundYan/article/details/117785656