其他分享
首页 > 其他分享> > 旅行场景下的个性化营销平台揭秘

旅行场景下的个性化营销平台揭秘

作者:互联网

图片

图片

分享嘉宾:弘轶、寻潇、溪怀@飞猪

编辑整理:郭嘉伟

内容来源:DataFunTalk


导读:个性化投放的"无人驾驶"平台何以自动化支持上千个场景的千人千面投放?商家、运营、小二,我们如何做到极致赋能和提效?面对旅行场景下用户需求低频、行为稀疏,特别是在营销活动大促期间,用户量迅速增长,用户的冷启动问题更加严峻,如何提高冷启动用户的推荐效果成为关键。另外,面对旅行场景下的丰富多样的的货品需求依赖关系,我们如何来组织和呈现给用户?阿里飞猪个性化推荐团队将通过本文,为大家带来旅行场景下的个性化营销平台揭秘。

主要分享内容包括:

01

背景介绍

飞猪专注于在旅行场景。个性化营销团队承接飞猪日常场景和会场场景,我们会给用户呈现千人千面的个性化投放。

1. 日常场景

图片

飞猪App上有众多页面。上图最左的首页界面中,上方是Banner,下方是猜你喜欢。由首页的入口可以进入各频道页,包括周边游、飞猪门票、旅游度假等。各频道页有不同的投放模块,这些全都由个性化营销平台承接。

2. 会场场景

图片

每年的双十一、六一八、五一、春运、暑促等会场中,个性化营销团队承接各场景模块,包括主会场、全部会场、目的地会场、一些榜单会场等。

3. 挑战和难点

面对众多页面和众多模块,个性化营销存在如下几点挑战和难点:

02个性化营销平台架构

个性化营销平台架构的设计主要包括以下内容:

1. 场景抽象

图片

我们首先对上节讲到的日常场景和会场场景进行场景抽象,抽象出的场景包括:入口、单Tab场景、多Tab场景、胶囊、主题榜单、单物料投放、多物料混投、LBS推荐、周边推荐和实时热榜等。

2. 功能抽象

图片

个性化营销平台可以投放的物料包括:商品、酒店、内容、玩法、目的地、商圈、主题、榜单、店铺、优惠券、景点、POI等。

投放的功能包括:召回、排序、加权、打散、定坑。

3. 链路抽象

图片

我们将链路抽象为6个模块:产品运行端、选品平台、场景管理平台、个性化投放平台、前端、用户。

4. 个性化投放

图片

本节我们将介绍个性化投放平台如何构建人货匹配的个性化方案。图中从下向上依次是离线和在线处理过程。

4. 用户建模

图片

用户建模过程如图所示,从最底层往上依次是:实时公共层、实时特征层、用户表达层和实时服务层,其中用户表达层是我们的核心工作。

5. 全域流量调控

图片

全域流量调控过程如图所示,从最底层往上依次是:实时流计算中心、调控商品配置中心、 PID调控中台 。

整体的流量调控结果反应在实时调控看板上,可以及时做到自适应的反馈和流量调整。

6. 整体方案

图片

整体方案集成如图所示,从最底层往上依次是:数据后台、个性化营销中台、业务前台。

03个性化营销平台算法

下面我们将介绍飞猪个性化营销平台算法:

1. 用户session理解

① 背景

图片

旅行场景下,用户兴趣可能来源于多方面:用户基础属性、用户群体属性、用户实时兴趣、用户周期兴趣、用户长期兴趣。

本次我们会重点介绍用户实时兴趣的挖掘,也就是用户session理解。

用户session 中会有以下行为:首页、搜索、商品页、收藏、加购、购买。完整的session从进入首页直到完成购买,期间可能发生若干次搜索、商品页、收藏、加购行为。但是常见session并不完整,往往未完成购买就会退出APP。针对不同的session,我们会进行session理解。

② 用户行为网络抽象

图片

用户行为session中产生一次点击Item的行为,有很多附加关系可以利用,这种附加关系可以用异构图的形式表现[1]。

③ 用户行为构建图网络

图片

我们根据上节的抽象,构建了用户行为网络。具体来说,我们将用户到商品的行为抽象为一个网络结构图,采取了GraphSAGE[2]的做法,训练主要节点的Embedding。主要节点有用户、商品、POI。用户本身有一些属性,如年龄、LBS、购买力等也会作为附加节点和主要节点建立边。

④ 用户行为session表达

图片

基于上节介绍的用户行为session中的节点向量表达,我们进而构建用户行为session的表达[3]。我们首先检索与当前session有协同信息的邻居session。邻居检索:根据当前session有哪些item,粗筛出有相同item的session,再根据最大覆盖原则选出自身有多个item和当前session相同的邻居session。

当前session的通过long-term加short-term方式学习到当前表达:

邻居session通过global encoder加local encoder方式学习邻居表达:

邻居表达通过Guided Attention with Time-aware机制经当前表达指导提出取协同表达后,当前表达和协同表达通过Co Attention机制学习到最终表达。离线在item集上评测,HIT@20 约为0.6,POI上约为0.49。

2. 用户冷启动技术

① 背景

图片

我们将近最近3月没有任何行为的用户划分为冷启动用户 ,冷启动用户在飞猪、淘宝、支付宝三端占比都很高。用户的行为稀疏或者无任何行为,使得推荐系统无法有效捕捉到用户的真实兴趣,特别是在大促期间,用户量迅速增长,用户的冷启动问题更加严峻。

② 基于层次主题知识的召回

图片

营销场景上沉淀了⼤量运营根据行业知识精⼼选品后的数据域,这些数据域划分的topic涉及多个维度 ( 类⽬、玩法、POI、⽬的地、销量、热度等 ) 且具有层次性,不同层次代表了⽤户不同的购买心智。

以图中右侧为例,从level 1中可以获得用户对于类目的偏好,从level2中可以获得用户对于不同玩法的偏好。我们在不同层次学习用户不同的购买心智,通过不同数据域的偏好去映射得到用户可能偏好的一些宝贝。

图片

航旅背景下,目的地是重点考虑的维度。同一区域的用户,朋友、亲属关系往往比较集中,分布比较一致,同⼀区域的⽤户偏好具有⼀定相似性这一现象更加明显。

我们据此提出U2Htopic2I:

图片

U2Htopic2I存在的问题:

我们据此提出Attr2Htopic2I:通过模型去学习⽤户属性到topic偏好的映射关系,对⾏为稀疏的⽤户或⽆⾏为⽤户, 根据⽤户的属性信息关联到⽤户的偏好。

Attr2Htopic2I同样是选取一批飞猪活跃用户,与U2Htopic2I不同在于,通过模型去预测历史活跃用户对层次主题的偏好。通过冷启动用户的属性集,将其映射到偏好主题库上,从而召回用户可能感兴趣的宝贝。

图片

用户侧我们提取用户的静态信息,因为对冷启动用户而言,我们只能利用到用户的基本属性,如年龄、性别、区域信息、购买力等。层次主题一侧我们提取层次主题的标签信息,如人群、品牌、目的地区域、玩法等。

用户历史行为过的层次主题的数据量极大,为使模型更好地学习用户的层次主题偏好我们采取如下方式构造样本空间,增大正负样本的差异性:

线上测试结果显示,U2Htopic2I在淘宝端带来了2个点的提升,Attr2Htopic2I在U2Htopic2I的基础上,在淘宝端带来4个点的提升,效果明显。

③ 基于用户跨域映射的召回

图片

背景:三端稀疏⾏为⽤户占⽐33.9% ( fliggy )、69.0% ( taobao )、65.8% ( alipay ),仅采⽤飞猪本场景数据难以覆盖这么⼤⽐例的冷启动⽤户。

思想:跨领域特征映射,将⽤户在淘宝的⾏为特征向量映射到飞猪⾏为特征向量。

数据有效性和想法可行性:

模型构造:

图片

通过在淘宝和飞猪两端⾏为都丰富的⽤户,学习⼀个user embedding映射函数,将三个领域间的知识迁移[4]。用户在淘宝端的用户画像,除了用户的点击收藏加购外,我们引入了对于航旅场景下非常重要的用户LBS行为序列信息。用户飞猪端行为序列生成飞猪侧向量表达,用户在手淘端的行为序列、LBS属性和用户属性信息生成手淘端向量表达。上述两个表达共同输入一个两层的全连接网络,学习到user的embedding。

训练时,我们选取在飞猪端和淘宝端都有行为的交集用户。线上召回时,我们把冷启动用户在手淘端的行为序列、用户属性和LBS信息输入网络,得到一个隐藏层的embedding,作为用户在飞猪端的用户画像。根据隐藏层的embedding,计算其与宝贝embedding向量的相似度,召回飞猪端与其相似度最高的top@N的宝贝。

图片

上面的方法在飞猪端带来1到2个百分点的uctr提升,在淘宝端带来了2个百分点的uctr提升。但是同时也存在以下几个问题:

④ 基于异构关系的冷启动建模

我们将用户与用户、用户与宝贝、宝贝与宝贝之间这种不同的关系称为异构关系[5]。

图片

旅行具有群体性:

图片

训练阶段:

筛选出一批淘宝和飞猪双端的活跃用户,将活跃用户在淘宝端的用户行为序列和LBS信息通过聚类得到user group;将user group最近行为过的历史宝贝和目标宝贝组成一个item group,通过这种方式引入了用户与用户、用户与宝贝以及宝贝与宝贝之间的异构关系;分别将这两个group输入attention网络中,学习目标用户和user group之间的相似度,目标宝贝和item group之间的相似度,再分别加上用户侧的side information以及宝贝侧的side information;再分别经过一个全连接网络,得到user embedding和item embedding;最后计算embedding向量之间的相似度。

生成阶段:

将冷启动用户在淘宝端的行为序列、LBS信息及user侧的属性信息输入网络;得到模型⽬标输出隐层user embedding以及item embedding;利用user embedding和item embedding对冷启动用户进行召回,返回top@N的宝贝推荐。

图片

我们进一步介绍user group和item group的构建。

user group:

item group:

图片

离线评估,我们从真实点击数据对比中看出,叶子类目及目的地相同的比例达到69%,完全命中的比例达到1%。上图右侧我们列举了几个线上真实召回的案例,如用户在淘宝端行为过潜水镜、沙滩鞋,我们则召回了关于海岛、潜水方面的宝贝,用户在淘宝端行为过防滑鞋套,我们据此召回了雪乡相关的宝贝。

3. 旅游玩法标签体系建设

我们将分为4个方面介绍玩法标签体系建设:玩法标签生产与挖掘、玩法标签树建设、玩法标签树挂载、玩法标签的应用。

① 玩法标签挖掘与生产

图片

难点和挑战:数据覆盖更全面、更准确,同时精细化地绑定到宝贝上。

图片

玩法标签的挖掘与生产的迭代过程:

主要思想:基于⽂本分类的思想,基于商品⽂本信息,预测商品的关键词兴趣点

主要⼯作:

② 统一的玩法标签树体系

图片

在挖掘和生产了大量符合用户感知的玩法标签后,我们需要构建全⾯的,层级的,有旅⾏特⾊的统⼀玩法标签树体系。我们借助行业运营的经验与知识,构建了自由的航旅玩法标签树,其中涉及了美食、⼈⽂、交通、住宿等16个⼀级标签,叶子结点则包括冲浪、滑雪等具体玩法。

③ 玩法标签的挂载

图片

在构建好玩法标签树之后,我们需要将标签准确的挂载到宝贝之上。一个宝贝可以拥有多个玩法标签,玩法标签挂载本质上是一个多标签问题,我们将其拆解为多个二分类问题。飞猪团队最初采取传统的机器学习方法。我们取得了玩法标覆盖占⽐90.21%、 商品覆盖占⽐92.12%、 商品⼈⼯评测准确率88%的结果。传统方法存在标签信息利用不充分的问题,人工评测准确率依然有可提高的空间。

图片

传统方法将挂载过程拆成3个部分,f0是学习文本关键词的embedding,f1是抽象出整个文本的embedding,f2是一个挂载模型,全程都没有利用到标签信息。

我们采用LEAM[6] 算法:学习word和label在同⼀空间内的embedding,利⽤text和label的相关性构建⽂本表示,提高挂载准确率。

图片

我们将玩法标签准确挂载在宝贝上后,可以有如下应用:

在实际的搜索界面,我们的标签会作为market-in set展示。

图片

进一步,我们希望在时空的场景下,结合玩法进行更深层次的应用。我们会基于用户历史行为数据,得到宝贝每一天的点击、收藏、加购,宝贝的目的地等信息,并且宝贝已挂载相应的玩法标签。我们进一步借助时序分析的方法,得到该宝贝在什么时间、什么地点、什么玩法是最热门的,从而更好的服务用户在时间、空间、玩法三个维度辅助用户出行。

04参考文献

[1]. Zhao, Jun, et al. "IntentGC: a Scalable Graph Convolution Framework Fusing Heterogeneous Information for Recommendation." Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

[2]. Hamilton, Will, Zhitao Ying, and Jure Leskovec. "Inductive representation learning on large graphs." Advances in neural information processing systems. 2017.

[3]. Lv, Yang, Liangsheng Zhuang, and Pengyu Luo. "Neighborhood-Enhanced and Time-Aware Model for Session-based Recommendation." arXiv preprint arXiv:1909.11252 (2019).

[4]. Wang, Xinghua, et al. "Cross-domain recommendation for cold-start users via neighborhood based feature mapping." International Conference on Database Systems for Advanced Applications. Springer, Cham, 2018.

[5]. Hu, Liang, et al. "Hers: Modeling influential contexts with heterogeneous relations for sparse and cold-start recommendation." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

[6]. Wang, Guoyin, et al. "Joint embedding of words and labels for text classification." arXiv preprint arXiv:1805.04174 (2018).

今天的分享就到这里,谢谢大家。


在文末分享、点赞、在看,给个三连击呗~~


分享嘉宾:

图片

弘轶阿里飞猪 | 算法专家

于2015年4月加入阿里巴巴,曾负责手淘多个核心业务场景的个性化推荐算法研发和优化工作,自2018年7月转岗到飞猪个性化团队后,在旅行特色化的个性化推荐场景中持续迭代和升级平台化推荐能力,打磨并沉淀出了一套通用的个性化营销平台工具,全面赋能运营小二,目前平台自动化支持飞猪上千个业务场景的个性化推荐。

图片

寻潇阿里飞猪 | 算法工程师研究生学历,毕业于电子科技大学计算机科学与工程学院。2018年7月加入阿里巴巴,负责飞猪通用个性化推荐平台的搭建与优化,平台承接飞猪所有营销大促,为飞猪整体GMV的提升产生深远影响;在用户冷启动方面有着长期与深入的研究,结合最新研究技术并加以改进,极大改善了冷启动用户的推荐效果。图片溪怀阿里飞猪 | 算法工程师于2019年7月入职阿里巴巴,参与建设飞猪个性化标签体系建设,和流量调控等个性化营销平台工具,全面赋能运营小二,以及个性化推荐。


关于我们:

DataFunTalk 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100场线下沙龙、论坛及峰会,已邀请近500位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章300+,百万+阅读,7万+精准粉丝。

图片


标签:场景,标签,玩法,用户,飞猪,揭秘,个性化
来源: https://blog.51cto.com/15060460/2673526