「回顾」AI如何让广告投放进入“自动驾驶”?
作者:互联网
配套PPT下载,请识别底部二维码关注社区公众号,后台回复【1220】
分享嘉宾:郑晓东 360 技术经理
编辑整理:王杰
内容来源:DataFun AI Talk《AI,让广告投放进入“自动驾驶”》
出品社区:DataFun
注:欢迎转载,转载请注明出处。
一、背景和问题
当我们的客户在谈论广告投放的时候,是在谈论什么呢?
l 预算:广告主需要花多少钱来进行广告投放;
l 广告创意:制作什么样的广告创意;
l 广告文案:给广告创意配上什么样的文案;
l 出价:给每个点击出多高的价格;
l 人群:圈定什么样的人群进行投放;
l 媒体:选择在什么样的媒体进行投放;
l 时段:选择在什么时段进行投放。
这让我们的广告主面临的选项是非常多的,而这会带来什么问题呢?对于经验丰富的大广告主来说,可能不是什么太大的问题。但是对于很多中小广告主来说,就会碰到以下几个问题:
l 首先,中小广告主缺乏专门的创意设计师。而创意素材的制作难度大,门槛高,耗时耗力,而且对广告文案的撰写和图片的选取有较高的要求。
l 其次,广告主的预算有限。而在有限的预算下,如何根据不同的媒体和人群进行账户搭建和广告投放优化是广告主面临的又一个问题。
面对这两个问题,常规的解决办法和他们存在的问题都有哪些呢?
1、 创意制作:通过客户自行制作或者请外包公司来解决。这样的解决办法存在以下问题:
1) 额外耗费工作量和预算。
2) 审核通过率低,进一步增加客户和平台运营量。
3) 素材质量不高,导致投放效果差。
2、 账户搭建&投放优化:客户或者中小代理手工优化。这种方式存在如下问题:
1) 媒体x人群x创意的组合众多,手工管理困难。
2) 重复推广组多,增加投放平台负担。
3) 优化周期长,客户容易流失。
二、系统组成框架
基于这样的背景下面,360推出一款帮助中小广告主自动生成并优化创意、快速搭建推广计划的整合型一站式平台——360易投放。主要分为以下三个模块:
l 易创意。
l 易审核。
l 易优化。
1、 易创意——一键生成创意,图片文案全自动化生成的系统工具。
客户只需要两步就可以完成海量创意投放。第一步:客户选择业务词。第二步:预览系统自动生成的文案和素材并完成。目前系统大约有超过5千万的版权图片和超过10亿的文案可供选择。所有文案都是自动生成,并在此基础上自动配上相应图片,并且做到全行业覆盖,目前该系统可供客户免费使用。
2、 易审核——创意快速过审,投放快人一步。
由于素材库内的创意元素、落地页可以预先审核,素材质量可以预先判断,使得易投放的审核时长是普通审核时长的1/3。
3、 易优化——一步搭建计划。
传统的计划搭建流程一般如下:
设置推广计划->设置推广组->设置创意
整个过程涉及计划名称、计划预算、投放时段、预算分配、推广组名、人群定向、媒体定向、高级设置、出价设置等多达15个设置项。
易投放一步完成计划搭建。整个过程仅涉及选定创意、推广名称、计划预算、投放时段、投放目标总共5个设置项。
易投放根据广告主的创意和投放目标自动设置推广计划、推广组,人群、媒体和出价也将由系统自动接管并优化,无需人工设置调整。那么易优化通过什么来达成投放目标呢?通过OCPC投放自动优化和场景智能匹配的结合,使得效果能够轻松达成。
l OCPC投放自动优化:根据广告主的创意和投放目标,自动设置推广计划,并自动优化。
l 场景智能展现:根据用户浏览内容智能搭配广告内容。
易投放整体的技术框架如下:
l 最基础的是数据层,主要包括:文案素材库、图片素材库、业务词典、用户画像、转化数据、点击数据等。
l 在数据层之上的是模型层:通过DMSM、GBDT、DNN、CNN、word2vec等算法在数据层上构建模型。
l 服务层通过将模型层包装成不同的服务供各个模块使用:包括文案生成、智能配图、智能定向、CVR预估、创意优选。
l 最后就是我们的系统层:易创意、易审核、易优化。
三、组成模块介绍
接下来详细介绍一下各个模块的组成。
3.1 易创意——创意生成和推荐
整个流程如下图:
首先,通过业务词去文案模板库召回文案,进行文案改写和文案预过滤,同样,图片也是通过业务词去图片素材库召回图片并对图文相关性进行打分,最后对图片进行剪裁,返回最终的图文创意。
3.1.1文案库构建
文案库由以下方式进行构建:
l 文案素材收集。主要途径包括内容媒体、广告主物料和人工撰写。广告主物料由于涉及到广告主,使用起来比较敏感,因此实际使用的比较少。人工撰写需要设计师来完成,产出并不高。因此使用的大部分文案都是没有数据标注的内容媒体。
l 文案标注。主要包括:文案解构、业务词标注、品牌标注、卖点痛点标注、套路标注。举个文案标注的例子如下,通过这个例子可以看出我们通过对文案解构,将一个文案变成了模板,通过对模板填充不同的内容就可以产生更多的文案。
仅仅通过人工的方式来进行文案标注的话,是一种耗时耗力,并且很难拓展的方式。因此需要通过一些算法来加速我们的标注。主要包含以下几个方面:
l 业务词的识别。通过字典加上命名实体识别的方式就可以完成这个任务。
l 品牌词识别。品牌词识别看上去可能和业务词识别非常接近,但是事实上大部分中小企业广告主的品牌词可能除了广告主自身以外并没有知名度。那么这种情况下,传统方法就不再有效。其实品牌词出现在问题里面一般都有一定的模式,比如:买什么到什么等,而FastText能很好的识别这种模式。因此,采用FastText算法来进行品牌识别。
l 套路识别。一般套路都会出现在文案的前缀和后缀,而且他们之间存在一定的相关性。因此通过训练一个简单的DSSM模型就能够将套路识别出来。
因此整个过程就是,首先通过初始的人工验证在文案上进行标注,在标注文案的基础上进行模型的训练调优,模型训练以后通过inference计算对文案进行自动解构,最后再对这些解构后的文案进行人工验证和标注。这样就可以形成一个正向的循环。通过这种加速方式,可以对标注速度提升10倍以上。但是通过标注的方式获得的文案库的量还是远远不够的,还需要对文案素材进行进一步的扩充。
l 同级业务词模板互通。
l 近义词扩充:同义词词林,word2vec(通过在维基百科数据上训练一个word2vec得到词向量,通过词向量找到最相近的近义词)。例如如下扩充的近义词。
l 近似句扩充。例如如下句子通过DSSM模型得到的扩充近似句。
3.1.2 文案扩写和过滤
通过以上方式得到文案素材库后,我们就可以对文案库中召回的文案进行扩写和过滤。为什么要进行文案扩写呢,看下面这个例子。
相同的文案主体搭配不同的套路,可以产生不同的效果。当然并不是所有的文案扩充都是能通过的,因为有时候搭配上一个并不合适的前缀或者后缀时,可能会导致这句话很累赘或者不太好懂。因此我们会通过用户的反馈和客户的反馈来训练一个模型,对文案进行过滤。
3.1.3 图片自动配图
上面讲解了文案的自动生成,接下来介绍一下图片自动配图。
我们的图片素材有3个主要来源:
l 广告主物料。缺点是应用范围窄。
l 设计师制作。缺点是成本高。
l 版权素材库。购买带有标签的5000万的版权素材。但是原始标签非常的不准,如果直接拿来使用的话是有问题的。
因此这个任务中最重要的是处理图文的相关性,下面我们来看一下图片的召回和精排。整个过程如下图:
首先,通过利用业务词通过关键词召回和召回模型进行召回,然后利用精排模型对召回后的图片进行打分和过滤,最后在线下图片不太够的情况下进行相似召回。这里的召回模型和精排模型的目标都是图文的相关性要好,因此两者是可以共用训练数据的。训练数据的来源如下:
l 大部分来源于360图片搜索数据,这部分数据虽然因为没有版权无法作为素材数据,但是可以作为模型训练数据。
l 少量来源于业务反馈或者客户反馈的标注图。但是这部分只有正样本数据。
l 通过随机负采样生成的负样本数据。
图片召回&精排模型采用典型的双塔模型:DMSM,文本和图片分别作为两路输入。召回模型和精排模型的网络结构是相似的,区别在与两者的损失函数不同。因为我们的任务是通过文本去召回图片,因此我们希望文本和图片是在同一个空间里面,这样的话我们就可以使用向量检索来进行图片召回。因此,这种情况下我们的召回模型采用的是embedding loss,也叫triplet loss,即A和B比A和C更接近。我们的精排模型:similarity network是一个典型二分类网络,采用的是logistic loss。这里有一个trick,就是我们采用的是多维loss,也就是说同一个文案召回的多张图片,同一张图片可以被召回的多个文案我们都会放到模型里面进行训练,这样能对文案的表征和图片的表征学习的更好。
当我们召回的图片不足的时候,我们会对图片进行二次召回。一般有两种方式:如果本身存在高分图片的话,我们会拿高分图片直接进行相似召回。如果没有的话,我们会通过无版权图片进行有版权图片的召回。召回以后的图片同样会经过我们的精排模型。
由于我们广告图片的审核要求非常严格,而且要求丰富多样,因此召回以后的图片还需要进行过滤。我们将多个不同的过滤条件训练多个简单的二分类模型,这样的好处是所需要的样本少,通过预训练+CNN就可以很好的训练出一个图片分类模型。通过训练出来的20多个图片分类过滤模型,我们可以保证返回的图片能较好的符合广告法的要求。
在图片选择出来以后,由于图片样式和媒体尺寸都是非常多样的,在这种情况下,我们需要对图片进行智能裁剪。主要使用的技术如下:
l 人脸识别。
l 目标检测。
l 图片OCR。
l 背景拓展。
上面介绍的就是我们的易创意,客户只要点选用就可以一键使用上我们自动生成的多种创意。
3.2 易优化——自动效果优化
下面来介绍一下我们的易优化模块。主要由三个子模块组成:OCPC自动投放、场景智能推荐、个性化智能展现。
3.2.1 OCPC自动投放
OCPC主要服务于为了客户更加便捷的进行投放的易投放,因此与一般的OCPC不同的是,我们不需要第一阶段的数据积累,而是通过强化学习模块来进行探索。
下面来看一下我们的强化学习模块是如何进行学习的:
1、 行业模型。首先我们会训练一个帮助我们进行智能出价的行业模型,由于有些客户数据量可能非常的少,不同行业之间转化的效率和速度是差异很大的,所以我们需要分行业进行模型训练。
2、 出价实时反馈。在数据量非常小的情况下,转化率预估是非常不准的,我们通过实时反馈系统根据数据的分布来判断数据的置信区间,在置信区间外的数据我们会进行反馈。
3、 转化全天修正。转化还有个问题就是转化周期比较长,这个时候就需要对转化进行一个全天的修正。
4、 差异化策略。举个例子,客户的目标CPA是100块,那么客户可接受的CPA是最低50、最高200还是最低80、最高120。根据客户的接受程度我们需要制定一些不同的策略来进行应对。毕竟我们的目标是服务于每一个客户,而不仅仅是整体目标达成就可以了。
当积累到一定的数据量以后,我们就可以进行OCPC自动投放。我们这里的CVR预估采用的GBDT模型,加上保序回归(isotonic regression)。而且我们这里的GBDT采用的多任务学习,多个广告主之间有部分树是共享参数的,部分树是独享的。最后,我们的CPC智能出价等于预估CVR*目标CPA。
3.2.2 智能场景推荐
接下来我们介绍一下我们的智能场景推荐。我们根据用户当前的上下文进行智能推荐,这里采用的算法和之前的图文精排算法非常接近。主要由三个模块组成:
1、实时处理模块:主要用于广告的召回和排序。
2、异步处理模块:实时对上下文进行处理。这里需要提一下的是,上下文的图片很大程度上是没有商业价值的,我们这里主要分为三步:第一步对图片和他的上下文进行分类,第二步是对图片进行目标检测,检测出目标主体,最后对检测出来的目标进行向量化。这样对整个算法精度的提高是很有帮助的。
3、离线处理模块:对广告物料进行特征提取。
在我们这里面临的一个问题是不同的场景的转化效率是不一样的,在这种情况下怎么进行多场景的转化打平是非常重要的。举个例子,可能一个流量在图片的场景下的转化率是10%,在文字场景下的转化率是1%,如果我们用同样的出价去买这个流量,那么肯定是不合理的。所以我们需要将不同场景下的转化率预估当成是不同的任务。借鉴多任务学习的思想,我们将广告主id和转化类型作为特征放到我们的训练数据里面,但是在进行预估的时候,这两个特征是不再使用的。为什么这么做呢,是因为并不是所有的客户都会回传转化,对于没有转化数据的客户我们也需要进行转化打平。
3.2.3 个性化展现
最后我们介绍一下个性化展现。举个例子,假设我们需要推广的产品是鼓浪屿旅游,那么针对不同的人群和流量,我们可以配上不同的文案或者图片,来吸引他们注意到我们的广告。
这个模块类似于传统广告系统的广告推荐和广告精排,在广告精排之后我们就可以确定把这个流量卖给这个客户的这个创意,但是以什么样的方式来展现这个创意,就是我们后面增加的模块创意精选。
一般来说,创意的候选集可能有上百或者上千个,是个相对比较小的数据量。但是如果我们对同一个创意进行不同形式的展现,那么所需要的计算量就会呈现爆炸式的增长。这种情况下,我们采用一个相对轻量级的模型来处理。模型结构如下,我们可以看到这个模型也是一个双塔模型,左边是素材特征,右边是用户、媒体和上下文特征,左边可以在素材构建好的时候预计算完成,而右边特征针对每个流量只需要计算一次就够了。这里我们引入一个创意精选的pctr来排除因为非素材因素导致的创意的bias。
四、案例展示和总结思考
最后看一下易投放的一个案例实操。下图是某个装修公司使用我们的易创意生成的图片和文案,而从易优化的结果数据上可以看出,随着天数的增加,客户的转化数是一直在涨,而CPA是一直在降的。在这种情况下,其实更能吸引到中小企业客户来进行广告投放。
最后是我们项目工作中的总结和思考:
1、 AI算法可以深入到广告营销的每一处。而不仅仅局限于进行一些排序、召回的工作。
2、 数据很重要,怎么用好数据也很重要。
3、 在算法选型之前要明确重点和难点。例如对文案生成来说,他的重点是文案素材库的构建,而对图片配图来说,他的重点是图文相关性的排序。
4、 把问题拆解,把一个复杂问题拆解成多个简单问题。
5、 模型的实用性比复杂度更重要。
作者介绍:
郑晓东,360技术经理。就职于360商业化团队展示业务部,专注于RTB广告算法六年,对业内模型策略、投放机制、产品生态有深入的了解,把AI应用于广告投放的各个角落,为客户带来方便、放心的产品体验。毕业于复旦大学,曾在KDD、IJCAI等发表论文。
社区介绍:
DataFun定位于最“实用”的数据科学社区,主要形式为线下的深度沙龙、线上的内容整理。希望将工业界专家在各自场景下的实践经验,通过DataFun的平台传播和扩散,对即将或已经开始相关尝试的同学有启发和借鉴。DataFun的愿景是:为大数据、人工智能从业者和爱好者打造一个分享、交流、学习、成长的平台,让数据科学领域的知识和经验更好的传播和落地产生价值。
DataFun社区成立至今,已经成功在全国范围内举办数十场线下技术沙龙,有超过一百五十位的业内专家参与分享,聚集了万余大数据、算法相关领域从业者。
标签:回顾,AI,广告投放,我们,召回,文案,创意,模型,图片 来源: https://blog.51cto.com/15060460/2676252