其他分享
首页 > 其他分享> > 序列模型

序列模型

作者:互联网

序列建模

行为序列数据蕴含用户的兴趣偏好,对该信息的挖掘可以提高推荐结果的准确性。

行为序列建模可以归纳为两个方面:

  1. 特征工程
  2. 模型结构

特征是对某个行为过程的抽象表达,特征工程旨在更精确的刻画行为过程,需要对具体的业务场景有一定的理解。构建完特征后,还需要运用合适的技术有效地挖掘数据中的信息,所以特征和模型两者缺一不可。

行为序列相关的工作很好地兼顾了特征和模型。

一方面,很多技术包括行为序列建模在搜广推领域是通用的,但是应该注意到不同的场景下会有相应的变化。

搜索场景中的用户意图主动明确,目标是让用户更快找到需要的物品;

推荐场景中的用户意图是被动模糊的,目标是尽可能的增加用户的使用时长。

场景差异要求我们使用某一技术时因地制宜。例如,在搜索场景中,由于Prefix或Query的限制,召回的物品嘚满足相关性,一些向量召回方法就不易发挥用处。另一方面,推荐系统不同阶段的特点对特征和模型也有所限制,例如,召回阶段面对的是海量的候选集,只能上见到那的特征和模型粗略选出用户可能感兴趣的物品,而排序阶段的候选集的规模较小,可以上复杂的特征和模型更精确地预估用户对物品的感兴趣程度。

文章从特征工程模型结构两个方面总结行为序列的相关工作,同时会对搜索推荐场景以及召回排序阶段

1. 特征工程

1.1行为类型

点击,收藏,成交等可以分别表示为用户的短期,中期,长期兴趣,既可以组织为一个混合序列通过类别特征区分,也可以直接组织为多个种类的序列分别建模。用户对近期点击过的商品大概率仍然感兴趣,但对于近期购买过的商品一般短期内不在感兴趣(需求以满足)。

1.2 行为时间

1.3 行为场景

对一个商品的点击可以发生在首页推荐,搜索推荐和广告推荐,同一种行为在不同场景下含有不同的意义。

1.4 物品种类

行为序列中的物品可以是Query,Item,Review,Music,Movie,Book,Food等,视业务场景而定

1.5 物品属性

如果只使用物品ID特征,长尾物品在样本和序列中的占比都很低,其ID Embedding不容易学好,因此可以加入类目,品牌和店铺等泛化特征,同时模型也能学习到更泛化的偏好,例如某一用户更喜欢购买阿迪达斯品牌的商品。

1.6 序列划分

1.7 超长序列

加长序列可以引入更丰富的用户历史行为,但是序列模型在处理时计算量大且RT高。因此,一方面,可以根据某个规则快速筛选出超长序列中与Target相关的物品,例如,同一类目下的物品,Embedding接近的物品(LSH)等,另一方面,可以合理设计网络结构并利用记忆网络学习,将兴趣向量的更新与候选物品的打分解耦

2. 模型结构

对序列数据的处理非常自然,忽略序列的位置信息可以使用简单的Mean Pooling [13,14],但是位置(时间)信息是刻画用户行为过程的重要特征,因此可以使用CNN/RNN/Transformer等模型处理。目前主流的方法是各种改进的RNN和Attention模型。

2.1 RNN

可以分为基础的LSTM,GRU和改进的Attention-RNN,如DIEN[15],DUPN[1]等。RNN可以建模用户的兴趣进化过程,并促进序列中相邻物品的特征交互,但是RNN的计算是串行的容易造成RT高,并且部分场景中用户的兴趣可能是跳跃的,例如,用户购买了Switch后又购买了便携屏,投影仪,塞尔达,前后行为是相关的;但是,也有用户购买了手机后又购买了衣服,零食,前后行为并不相关。

2.2 Attention

Attention模型从全局抽取序列信息,缓解了RNN的长程依赖问题,但是Attention本身并不建模位置信息,需要合理设计位置特征Embedding。根据Query的类型,可以分为Self Attention,Target Attention和User Attention;根据Attention计算的方式,可以分为点积模型,双线性模型,加性模型,门控模型,其中门控模型是指运用RNN中计算门控的方式计算Attention向量(区别标量),从而在更细粒度的范围建模重要性差异。

2.3 胶囊网络

文提到行为序列中包含了多种兴趣,使用单一的兴趣向量表示存在缺陷,胶囊网络中的动态路由算法可以自动学习这样的兴趣划分,相当于对行为序列进行了自动软聚类。

2.4 记忆网络

记忆网络利用外部存储单元来贮存长期信息,同时每个记忆单元又可以看做一个兴趣向量,既可以用来建模多兴趣也可以用来建模长期兴趣。

标签:模型,Attention,用户,物品,序列,行为,兴趣
来源: https://www.cnblogs.com/jev-0987/p/15440496.html