业界 | 专访阿里算法天才盖坤:AI在阿里妈妈广告业务的应用
2017-07-31 23:49
AI科技评论按:由中国计算机学会(CCF)主办,雷锋网和香港中文大学(深圳)承办的CCF-GAIR全球人工智能与机器人峰会终于悉数落幕。
阿里妈妈精准展示广告技术总监盖坤
在大会第三天的机器人专场上,阿里妈妈精准展示广告技术总监盖坤作为主场演讲嘉宾,为大家带来了《互联网大数据下的模型结构挑战》的演讲。在演讲中,盖坤对Kernel方法、Tree based方法等经典模型在互联网大数据下存在的问题进行了介绍,并就其提出的MLR模型和深层用户兴趣网络做了深入浅出的讲解。
阿里妈妈:阿里巴巴的主要变现来源
盖坤所属的阿里妈妈,是阿里巴巴集团的大数据营销推广平台。
2007年,阿里妈妈正式上线。据一项数据表明,该平台每天有超过50亿的推广流量,能完成超过3亿件商品的推广展现。10年以来,阿里妈妈早已成为阿里集团变现的主要来源之一。除了由阿里旗下的优酷、土豆、淘宝、天猫、支付宝、UC浏览器、高德地图等公司聚合而成的全域大数据的助力之外,当然还离不开AI算法在广告系统中的应用的支持。
说到AI算法,自然免不了盖坤负责的精准定向检索及基础算法团队的贡献。该团队的目的在于帮商家更准确地预测用户的行为,从而实现更精准的广告投放。
2011年,刚进阿里的盖坤提出了分片线性模型MLR,这对当时主要使用简单线性模型来预测CTR的业界来说,因为极大地提高了CTR预估的准确性而颇具意义。几年来,MLR模型已经被广泛应用在直通车定向和钻展业务中。
近期,盖坤又带领团队在CTR预估方面推出了一个新的模型结构——深层用户网络兴趣分布,即利用深度学习在用户的历史行为和广告CTR预估之间建立部分匹配,匹配度越高的历史数据对预估结果的影响越大。其具体介绍可看雷锋网此前报道和盖坤本人在这次CCF-GAIR大会上的演讲。
在盖坤主题演讲结束之后,雷锋网也带着一些重点问题旋即对其进行了采访,以下是采访实录:
阿里妈妈利用AI算法在广告业务的应用
AI科技评论:阿里妈妈在把AI算法运用到广告业务领域都做了哪些工作?取得了哪些成就?
盖坤:跟机器学习相关的,一个是典型的CTR预估模型。预估模型需要对流量的价值进行拆分和预估,这也是广告价值售卖的基础,比如点击收费、转化收费、展示位置收费各不一样。这是阿里妈妈最基础的一层。
在此之上,还有一些自动化的方法。我们做了一些客户端的工具,借之赋能广告主去自由地表达自己的要求。比如,CTR、AOC,质还是量等等,从而实现事前的预估和事后的洞察。这类自动化方法,跟传统的机器学习不完全一样,更多还是偏向优化和统筹分化类。这类方法有两个重点:
其一,事前预估。比如我们会用自动化方法提前把流量和广告主的价值和匹配度预估出来,从而与客户目标达成一致,实现定价保量。再对其使用运筹、优化的方法去做事前的分配。
其二,在事中环节采取实时控制策略。因为流量一直随时间而变化,所以事前不可能实现完美的预估。在此其中,我们运用了很多黑盒测试,也采用一些白盒测试等机智类方式去解决。对于黑盒测试,我们主要集中在强化学习上——即整个序列如何建模能够达到最终预期目标或者长期收益的最大化。
AI科技评论:现阶段在预测CTR的准确性上,主要存在哪些阻碍或限制因素?
盖坤:CTR预估,在工业界上来说,一般会有AOC等指标,这些指标的上限都挺高的。如,按照AOC的理论上限“1”这点来衡量,实际上在各个公司也就做到0.7或者0.8左右,反正离上限总有个Gap。不过,实际做到什么程度不仅和技术能力有关,也跟数据特性有关——有的技术本身就难区分,而容易区分的数据能达到的指标相应也就更高一点。
如果我们能百分之百预估CTR准确性的话,淘宝网根本不会给用户展示其任何不想点的东西,百度也不会给大家展示不需要的信息。
但就现阶段而言,理论空间上,大家离这个目标还有很远的距离,虽然每年技术上都有进步。而在现实应用中,一般是用一套模型的一套方法论加上配套的特征工程,上下游的处理,以及前后的迭代优化,以让这个方法论达到一个上限。但是,一种方法论在某个时期都会达到一个上限。
就像我在CCF-GAIR演讲中提到的,线性模型本身就有限制,虽然它已经有配套的工程能力和特征处理能力去补足了这个缺陷,但还是会对其有所制约,所以很难去突破它现在的状态。如果要说突破的话,更多的要从模型设计变化去做突围。比如,从线性模型到非线性模型,或者到更复杂的非线性模型。
AI科技评论:与CTR预测准确性紧要相关的,还有图像素材的识别和投放精准度两项因素,阿里这边在图像素材的投放效果的技术判断上做到哪一步了?之后会有更深入的计划吗?
盖坤:在这一块,我们已经做了一套深度兴趣神经网络。对深度兴趣神经网络而言,其传统的做法可能是直接搬迁,比如Embedding、全连接、CNN、LCM,这些都不是在互联网大数据下提出来的。虽然可能部分适用,但并不是最适合这个状态的网络结构。
刚才在主题演讲里,我已经讲了一部分利用该模型做的工作,即我们会根据数据来定制网络。(雷锋网注:盖坤在演讲中表示,深度兴趣网络利用深度学习在用户的历史行为数据和要预估的广告之间建立了联系,其利用权重调制变成子序列,再在子序列上做Pooling建模,将历史行为的兴趣向量和目标广告的兴趣向量连接起来,通过简单的多层全连接,从而实现二者的部分匹配,匹配度越高的历史数据就对CTR预估的结果影响越大。)
后续,阿里还希望利用技术驱动业务本质形式的变化,而不只是效率的提升。目前,我们在做的Uni Marketing 全域营销,就是希望用户不管是从淘宝,还是从淘宝关联的场景,或是从阿里关联的有关公司,都能和阿里的数据进行持续性的交互。通过前后一致的关系序列,在本质上提升用户体验。当然,我们希望能在全域营销的基础上去做建模,全面提升用户的体验和营销能力的提升。
AI科技评论:您之前提出来的MLR模型,已经在那些广告业务领域被应用?
盖坤:这几年在直通车定向、钻展等类型的应用上,都是以MLR为主模型进行迭代,其中模型又包括特征工程和优化。MLR也是这几条业务线获得盈利的主要推动因素之一。
和Google、Facebook和亚马逊的算法比较
AI科技评论:就Google、Facebook和亚马逊三家巨头而言,他们在测量CTR的准确性上也做了很多努力,在您看来,阿里妈妈的测量算法和他们相比,侧重点有何不同?存在哪些优势和劣势?
盖坤:先举一个例子:目前国内的移动支付比很多国家做的都好。但是前几年的信用卡时代,中国是远远落后于国外的。
同理类推到CTR算法上,我个人认为,这反而是阿里的一个机会。前几年,尤其是在逻辑回归时代,很多公司积累的算法功力都是很高的。但是在新的浪潮里,中国在深度学习的改造上,在业界来说还比较新。所以,我们希望能够像移动支付一样,找到赶超的机会。而阿里的优势在于,其负担更小,所以前进的更快。
目前来看,在CTR预估技术的提升这一块,阿里在非线性模型里已经比较领先了。
AI科技评论:看大家在知乎上的讨论,普遍认为亚马逊的推荐算法更好,您作为专业人士,怎么看待这样一个观点?阿里和亚马逊相比呢?
盖坤:推荐算法其实应该是另一个部门在负责,我主要在精准广告技术这一块。就阿里整个业务形式而言,其实对广告变现还不那么急迫。所以在预期的业务走向上会更加正向,更重要的还是在商业化土地上先做好技术算法和变现能力。而且,现阶段推荐算法的商业化率在推荐场景里并不够。
说到和亚马逊的比较,核心来讲还是要聚焦在指标定义上。我们原先定的指标维度会稍微单一一点。目前来看,我们对指标也在慢慢拆解。这个拆解包括对业务的认知,即到底什么是用户体验,认知背后也需要技术能力。其实用户体验并非直接反应在数据里,它需要从中去学习和抽取。
而推荐算法上来讲,大家其实都差不太多,但是有的在指标优化的专注度上来讲会更高,这样也直接造成用户体验上的偏差。
阿里和亚马逊相像的地方在于。不仅是在高举未来的AI或云计算的目标,也会就目前正在使用的业务领域会去做一些新技术的结合。
那些问题
AI科技评论:就一些用户的体验来看,淘宝和天猫的“猜您喜欢”和推荐系统中,用户已购买的产品依然会出现在推荐栏里,或者用户无意点击的产品也会被多次推荐。对于这项功能,是否已有相应的解决办法来作优化?
盖坤:这个问题关系到两点。
第一是指标导向问题。用户已消费的产品依然会推送在列表里,可能会造成不太好的用户体验。但从数据上来看,实际上这一块的用户CTR非常高,比其他几类宝贝的平均CTR都要高。很多消费者可能心里在骂,但还是忍不住去点。所以,单从数据上来讲,如果用用户CTR这个指标来衡量指标的话,就很容易陷入满足感的误区。
第二是技术能力还需要积累。当换了一个新的指标之后,Label 就很难去定义,还需要模型去学习。所以这件事对模型,对整个技术要求都非常高。虽然整个业界在其中也有一些启发性的方法,但是还暂时没有一个系统性的方法来解决。
AI科技评论:在淘宝上,仍然存在很多无良商家利用图片嵌入违规信息来变相宣传,针对此类问题,你们是怎么解决的,效果怎么样?
盖坤:这个问题主要集中在NLP和图像技术上。我们希望借助二者的力量像人类一样去理解广告主不符合规定的行为。其实整个淘宝的生态市场特别多,从管控难度来讲,是非常大的。因为我们不仅要给几百万商家提供平台,还要知道他们都做了什么,有哪些是不对的行为,这对技术的要求就更高了。
所以,我们也期望发展AI技术来解决这一问题。目前我们主要利用两种方式去解决这一问题:
业务方向:用规则约束;对商家进行引导。
技术基础:利用NLP的技术,再对其做推进。
AI科技评论:现在很多用户画像因为Cookie或追踪工具被平台或商家利用,用户隐私被侵犯,同时作为一名普通消费者和技术开发者,你怎么去看待这个问题?有否改善的方法?
盖坤:在我看来,数据互通可能会给未来孕育一种更好的生活方式。从这个方面来讲,积极意义很大。当然,在这其中,用户的隐私也需要被考虑其中。
从个人经验来看,公司或者平台绝对不对去关注某单个用户的行为,而是在模型中尽量做一个隔离。如果我们对用户行为做一个更泛化的兴趣点的话,其实对用户隐私能起到保护作用。在数据交换时,也会对其进行加密。
如果说,用户隐私可能会涉及风险环节的话,其最可能和公司内部有关。因为公司与公司之间的战略是完全对立的,每家公司都把数据当做自己最大的资产,所以不用担心数据会在这些环节被泄露。但就内部而言,比如说,UC、优酷等都属于阿里,在这些平台之间互通数据,我们也会做一些用户隐私保护的措施。