Transcript
Page 1: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

书书书

第34卷 第10期2011年10月

计  算  机  学  报CHINESEJOURNALOFCOMPUTERS

Vol.34No.10Oct.2011

 

收稿日期:20110812;最终修改稿收到日期:20110915.本课题得到国家自然科学基金(60925005)、上海市重点学科建设项目(B412)资助.周傲英,男,1965年生,教授,博士生导师,主要研究兴趣为数据管理与信息系统,包括Web数据管理、中文Web基础设施、Web搜索与挖掘、数据流与数据挖掘、复杂事件处理与实时商务智能、不确定数据管理及其应用、数据密集的计算、分布存储与计算、对等计算及其数据管理、Web服务计算等.周敏奇(通信作者),男,1980年生,博士,讲师,主要研究方向为分布式数据管理、云计算中的数据管理、计算广告等.Email:mqzhou@sei.ecnu.edu.cn.宫学庆,男,1974年生,副教授,主要研究领域为数据流分析、RDF数据管理、数据密集型计算等.

计算广告:以数据为核心的犠犲犫综合应用周傲英 周敏奇 宫学庆(华东师范大学软件学院 上海 200062)(上海高可信重点实验室 上海 200062)

摘 要 计算广告是随着互联网应用发展起来的一个综合多学科的研究领域,这多学科包括数据管理、信息检索、数据挖掘、统计分析、机器学习、分布式系统等.由于其广泛的应用和巨大的市场价值,计算广告学已逐步发展成一个独立的研究方向.目前,计算广告学涵盖在线广告投放、移动终端广告投放、社会网络应用广告投放、用户信息分析等.文中主要介绍计算广告学的演化过程,包括计算广告投放模式的演化(由按合约投放演变为实时竞价投放)、计价模式的演化(由按展示计价演变为按点击计价、按交易计价等)、投放目标的演化(由品牌效果展示演变为直接市场营销);计算广告学的组成部分,包括计算广告产业链(如广告主、网络媒体、联盟网络、广告交换、需求方平台、销售方平台等)、计算广告的分类(如条幅展示广告、赞助商搜索、联盟广告等).此外,文中还重点讨论了广告检索、排序投放算法以及广告离线分析、实时投放平台等关键技术和平台.最后,还将讨论在移动计算环境下的移动终端的广告投放、基于位置信息的广告投放、基于社会网络的广告投放等新型应用模式对计算广告学发展的影响.

关键词 计算广告;广告检索;广告竞价;广告定向中图法分类号TP311   犇犗犐号:10.3724/SP.J.1016.2011.01805

犆狅犿狆狌狋犪狋犻狅狀犪犾犃犱狏犲狉狋犻狊犻狀犵:犃犇犪狋犪犆犲狀狋狉犻犮犆狅犿狆狉犲犺犲狀狊犻狏犲犠犲犫犃狆狆犾犻犮犪狋犻狅狀ZHOUAoYing ZHOUMinQi GONGXueQing

(犛狅犳狋狑犪狉犲犈狀犵犻狀犲犲狉犻狀犵犐狀狊狋犻狋狌狋犲,犈犪狊狋犆犺犻狀犪犖狅狉犿犪犾犝狀犻狏犲狉狊犻狋狔,犛犺犪狀犵犺犪犻 200062)(犛犺犪狀犵犺犪犻犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犜狉狌狊狋狑狅狉狋犺狔犆狅犿狆狌狋犻狀犵,犛犺犪狀犵犺犪犻 200062)

犃犫狊狋狉犪犮狋 ComputationalAdvertisingisestablishinganewscientificsubdiscipline,andbringsmanydisciplinestogether,includinginformationalretrieval,datamining,statisticalanalysis,machinelearning,distributedsystemsandsoon.Itiscreatingtremendouslargemarketvalues,andhasamountofrealapplications,suchasonlineadvertising,mobilebasedadvertising,socialnetworkbasedadvertisingandsoon.Inthispaper,wemainlyfocusontheevolutionsofcomputationaladvertising,includingtheevolutionofitsadvertisingmodel(fromcontracttorealtimebidding),theevolutionofitspricing(fromCPMtoCPCandtoCPT),theevolutionofitsadvertisinggoal(frombrandingtodirectmarketing),andtheecosystemofthecomputationaladvertising(e.g.,advertiser,publisher,adnetwork,adexchange,demandsideplatform,salesideplatformandsoon),andthecategoriesofthecomputationaladvertising(e.g.,banneradvertising,sponsoredsearch,adnetworkandsoon),andthealgorithmsforadretrieval,adreordering,andplatformsforofflineadvertisinganalysis,realtimeadvertising.Wefindthenewtrendsforcomputationaladvertisingforthecomingyearsaremobilebasedadvertising,locationbasedadvertising,andsocialnetworkbasedadvertisingandsoon.

犓犲狔狑狅狉犱狊 computationaladvertising;advertisementretrieval;advertisementbiding;advertisementtargeting

Page 2: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

1 引 言广告有着悠久的历史,从古希腊时期叫卖奴隶

和牲畜的雏形广告,到古罗马时期角斗场内以商标和字号形式展示的图形化广告以及从中国宋代起采用活字印刷制作的印刷化广告,到当代报刊、电台和电视台播出的媒体化广告,广告的内容和投放方式始终在跟随人类社会的进步不断地发展变化.近十多年来互联网的飞速发展,为广告的投放提供了新的平台,也从根本上改变了广告的投放模式,形成了一个拥有巨大市场价值的互联网广告产业.据尼尔森统计,2010年上半年中国互联网广告价值估算已达95.6亿元人民币,相比2009年同期增长了27.9%[1];而在美国,2010年互联网广告支出已达258亿美金,首度超过了报纸平面广告[2].最初的互联网广告多采用类似于传统媒体广告的投放方式,通过在页面中嵌入固定的图片和文字来展示广告内容.这种广告投放方式对于互联网平台来说不够灵活,很难与不断变化的网页内容相匹配,广告投放的效果较差.根据网页的内容和访问用户的特点,实现广告的定向投放是互联网广告投放机制的发展趋势.计算广告(ComputationalAdvertisement)是根据给定的用户和网页内容,通过计算得到与之最匹配的广告并进行精准定向投放的一种广告投放机制.采用该机制可以大幅度地提高广告主所投放广告的点击率(ClickThroughRate,CTR),增加广告所投放网站的访问量,帮助用户获取优质信息,从而构建出一个良性和谐的广告投放产业链.

互联网计算广告的发展始于20世纪90年代.当时,DoubleClick公司(2008年被Google收购)提出了动态广告报告与目标定向(DynamicAdvertisingReportingTargeting)技术.该技术将条幅广告和Cookies分析相结合,利用条幅广告的Cookies长期追踪和记录用户的上网行为,并将其作为依据来投放符合用户兴趣的广告.1998年成立的Goto.com公司(2001改名为Overture,2003年被Yahoo!收购)采用了根据网页内容进行广告匹配的文字广告投放技术,开启了文字广告投放的新篇章.这种技术具体又可以分成赞助商搜索(SponsoredSearch)和内容匹配(ContentMatch)两类,前者是根据搜索引擎的搜索结果进行广告匹配;后者是根据所发布网页的内容进行匹配.同时,该公司还提出了基于关键词竞拍的广告投放方式,创造了一

种新的互联网广告盈利模式.2005年以后,互联网广告行业中先后出现了广告联盟网络、广告交换、需求方平台、销售方平台、媒体买卖平台等多种角色,计算广告技术得到了快速的发展,互联网广告投放的效果不断得到优化,形成了一个深度细分的产业链.

时至今日,随着计算广告技术的不断发展,互联网广告行业的整个产业链已经日渐成熟,行业内的竞争也日趋激烈,所提供的广告服务也日臻完善.与过去相比,整个互联网广告行业在多个方面都发生了转变:(1)广告的售卖逐渐由传统的合约方式转变为实时竞价方式.这里的实时竞价既包括实时竞价销售,也包括实时竞价购买.这种转变促使需求方平台和销售方平台加入到了整个产业链中;(2)广告的定向投放逐渐由基于网页内容的定向转变为基于受众的定向.广告投放的最终目标是针对每个特定的用户,根据其所处的互联网环境,为其提供最适合的广告内容.随着产业链中数据交换和数据提供者角色的出现,使得基于受众的广告精准定向投放成为可能;(3)广告的目的逐渐由品牌展示转变为直接市场营销.随着广告定向技术的不断优化以及用户参与程度的不断加强,对于广告受众的定向也越来越精准,使得广告主在互联网上投放广告的目的逐渐由品牌展示转变为直接市场营销;(4)广告的营销逐渐由单一广告营销方案转变为整体广告营销方案.整体广告营销一方面是指针对同一用户,通过不同的终端(如PC、智能手机和平板电脑等)同时进行广告投放的方案;另一方面是指为同一广告主的不同商品(如一次广告战役)同时进行广告投放的方案.

以上这些转变使得互联网广告行业成为一个与传统广告行业不同的新兴市场领域.在这个领域中,能够实现广告精准定向投放的计算广告技术占据着不可替代的核心位置.首先,计算广告可以有效地提高广告定向投放的精度,从而将广告由骚扰信息变为有用的信息.广告之父大卫·奥格威曾说过“广告是一种信息的载体”[3],而经济学家飞利浦·尼尔森也认为“广告就是信息”[4].但每条广告只有针对适合的客户,在特定场合投放才是有用的信息,否则便为骚扰信息.计算广告正是实现广告精准投放的主要技术手段.其次,计算广告技术的发展有助于完善互联网广告产业链并营造良性、和谐、共赢的产业环境.计算广告可以提高广告定向投放的精度,这有助于提高所发布页面的有效信息量,从而吸引更多用

6081 计  算  机  学  报 2011年

Page 3: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

户的访问,最终达到抬高广告位竞价并增加网页发布者收入的目的;计算广告可以提高广告的点击率,这有助于提升商品知名度和销量,最终为广告主达到增加商品销量的目的;计算广告可以提高网络广告联盟的信誉,进而吸引更多的网页发布者和广告主参与广告竞标;计算广告还能够帮助用户获取有用的信息.最后,计算广告推动了第三方付费模式的发展.第三方付费是指由作为第三方的广告主为用户向软件开发者(或服务提供者)支付使用软件(或服务)的费用.在该付费模式下,软件开发者(或服务提供者)可以获得发布广告的收入,用户可以获得免费的软件(或服务),而广告主则可以通过精准定位的广告来销售更多的产品.

计算广告是支撑互联网广告产业链发展的基础,其涉及的技术主要包括广告检索、用户数据分析和广告投放算法等.近年来,信息检索、机器学习和数据密集型计算等领域的研究工作为计算广告的发展提供了技术支持,例如,基于信息检索的关键词抽取技术,基于机器学习算法的广告检索技术和点击率估计技术,基于分布式数据密集型计算系统的海量数据分析处理平台和实时广告检索排序平台等.这些技术不仅使得广告系统能够实现精准定向,并且能够在毫秒级的时间范围内处理上百万并发的实时广告检索、排序和投放需求.

本文第2节将对互联网广告产业链进行详细介绍,包括产业链中各角色的分工及其演化过程、计算广告的计费方式及其演化过程以及广告的实时竞拍机制;第3节主要介绍三种类型互联网广告的检索及排序算法,即条幅展示广告,赞助商搜索以及联盟广告;第4节介绍互联网广告处理平台,包括离线分析平台以及实时广告检索平台;第5节介绍计算广告技术发展的趋势和动向;最后,在第6节中将对全文进行总结.

2 计算广告产业链2.1 角色及其演化

互联网计算广告的发展起始于1995年,当时产业链中仅包含有三个角色,即广告主、发布者(网络媒体)和用户.产业链中的每个角色均希望自身获得最大的效用(Utility)①.例如,广告主的效用是希望最终能够销售更多的商品,这又可以分为即时效用和长期效用.即时效用是指用户点击了广告主所投放的广告,并购买了相应的商品,为广告主带来销售

收入;而长期效用是指通过广告展示,提升商品的品牌价值,从而吸引更多的用户购买商品.发布者的效用是希望通过投放广告能够有更多的收入.该效用一般是通过为用户提供有效信息来吸引更多的用户访问(流量),最终达到提高广告位单价来实现.用户的效用是指在浏览网页时能够获取尽可能多的有用信息.2000年左右,互联网上涌现出大量的网络媒

体,其中一部分的网络媒体没有自己的广告投放平台,必须依赖于广告联盟网络(AdNetwork)来进行广告投放.广告联盟网络主要可以分为两类,一类是连接广告主和网络媒体的广告中介;另一类是拥有大量广告“存量”的网络媒体,如搜索引擎等.前者的效用是通过租用网络媒体的广告位,为广告主投放广告,并从中赚取广告费差价来实现;后者的效用是通过有效投放广告,提升广告位的价值,最终增加广告收益.2005年左右,互联网上广告联盟网络的数量已

经颇具规模,但是多数的广告联盟网络仅服务于一小部分的广告主和网络媒体,很难在广告主和网络媒体之间实现广告、广告位资源的有效分配.一方面,部分网络媒体的广告位大量闲置;另一方面,部分广告主难以购买到合适的广告位.广告交换(AdExchange)平台的出现有助于在多个广告联盟网络之间实现资源的有效分配.广告交换平台能够帮助网络媒体降低广告位闲置率;能够帮助网络媒体提高广告位售价;能够帮助广告主提高广告投放的效果.广告交换平台的效用是通过提高网络媒体和广告主的效用来实现的.据Forrester统计,72%未使用广告交换平台的广告买卖双方将尽快考虑使用广告交换平台②.2010年前后,广交换平台的服务已经无法满足

广告主和网络媒体的需求,在产业链中出现了需求方平台(DemandSidePlatform)等多种新的角色.需求方平台能够较好地理解广告主的需求,并通过实时竞价系统(RealTimeBidding)为广告主竞拍到投资回报率较高的广告位.相对应的,针对网络媒体也出现了销售方平台(SaleSidePlatform),通过实时销售系统(RealTimeSale),实现网络媒体广告位库存的实时销售.此外,数据交换(DataExchange)

708110期 周傲英等:计算广告:以数据为核心的Web综合应用

TimRoughgarden.AlgorithmicGameTheory.CambridgeUniversityPress,2007Onlineadexchanges.ForresterCustomResearchPreparedforDoubleClick,March2007

Page 4: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

的主要作用是为产业链中的各方提供用户相关的数据,用于支持广告的精准投放.媒介买卖平台(MediaBuyingPlatform)是销售方平台和需求方平台的综合,同时为网络媒体和广告主提供实时销售和实时竞价服务,在同一平台上实现广告实时销售与投放.

图1给出了计算广告产业链中各个角色的演化过程,由最初的网络媒体和广告主这两层角色(如虚线所示)逐步演化为加入了销售方平台、需求方平台、广告网络和广告交换的四层角色(如实线所示).产业链中角色之间的分工也变得越来越细,其中销售方平台主要处理网络媒体方的需求,实现网络媒体广告位存量的实时销售;而需求方平台、广告网络和广告交换主要处理广告主方的需求,实现广告主对广告位的实时竞拍和购买.通过中间这两层角色,可以使互联网上广告的定向投放更加精准.

图1 计算广告产业链中的角色演化关系图

2.2 广告计价模式互联网广告产业链中各角色的数量在互联网广

告发展过程中有过较大的变化,这种变化直接影响到了广告投放的计价方式.互联网广告的计价方式经历了从按展示计费(CPM)、按点击计费(CPC)到按交易计费(CPT/CPA)①的转变过程.图2给出了最近20年间,互联网用户数量、网站数量和互联网广告投入之间的发展对比,并标明了广告投放计价方式的演变过程.1997年之前,互联网上网络媒体的数量较少,

因此广告主仅能通过为数不多的网络媒体实现广告投放.在这一阶段,网络媒体占据了产业链的主导地位,拥有了广告投放的定价权.此阶段中,广告投放的定价均采用合约(Contract)方式,即广告主通过合约要求网络媒体按照规定次数展示相关广告,这种方式也被称为确定投放(GuaranteedDelivery).

图2 互联网用户、网站数量和广告投入之间的对比

这种以展示次数计费的模型与在传统媒体上投放广告的计价方式类似,比较适合用于建立产品的品牌效应.随着网络媒体数量的增长,广告合约也由起初的非定向广告投放转换为定向广告投放.所谓非定向广告合约是指仅规定了广告投放次数的合约,而定向广告合约是指针对特定的用户群(特定的年龄、性别、职业、薪资等)约定相关广告的投放次数.通常,广告合约会在广告投放之前签署,因此网络媒体需要对未来一段时间内该网站特定用户的流量进行预先估计.如果网络媒体低估了相关流量,会造成广告位的浪费;相反,如果高估了相关流量,会导致网络媒体在约定的时间内无法完成广告展示合约.

随着网络媒体的数量进一步增长,网络媒体在产业链中的优势地位不断下降.与此同时,互联网用户的数量出现了大幅度的增长(参见图2),使得单位时间内广告被展示的次数也出现大幅度增长,直接导致了广告主广告费用的激增.在这一阶段,广告主对于广告的展示效果提出了更高的要求,而信息检索和WEB数据挖掘技术的应用,使得按页面内容为广告主投放广告成为可能.1997年Goto.com率先提出了按点击量计费的广告计价模式.基于点击的广告计价有两种模型,统一费率模型(FlatrateModel)[21]和基于拍卖的模型(BidbasedModel)[22].统一费率模型是指广告主与网络媒体之间预先签署关于单次点击费用的合约,然后网络媒体在广告投放后按广告的点击量向广告主收取费用.这种方式会促使网络媒体将广告投放在内容相关的网页上以提高广告的点击率.基于拍卖的模型是指广告主与网络媒体或广告联盟网络之间签署合约,通过在线拍卖工具实时调整当前愿意支付的最高单次广告点

8081 计  算  机  学  报 2011年

①NazerzadehH,SaberiA,VohraR.Dynamiccostperactionmechanismsandapplicationstoonlineadvertising.

Page 5: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

击费用.网络媒体或者广告联盟网络通过预测不同广告的点击率并结合广告主的竞拍价格来决定所投放的广告.按点击量计费的方式能够大幅度地提高广告的投放效果,降低小广告主的风险[25],使得广告主的效用得到进一步扩展.同时,这种计费方式会促使网络媒体和广告联盟网络不断提高广告投放技术,使用户能够由此获得更多有用的信息,从而提高所投放广告的点击率.按点击量计费的方式也存在一定的不足,首先,广告主需要在用户点击广告之前出价(合约或者竞拍),因此广告主需要准确估计用户点击的转换率(ConversionRate),这具有一定的难度;其次,这种方式对行业的监管提出了挑战,例如,如何避免网络媒体和广告联盟网络伪造点击(FraudClick)[24].

随着产业链中网络媒体和广告联盟网络数量的进一步增长,行业竞争愈加激烈,在2003年左右出现了按广告投放效果进行计费的模式.广告主与网络媒体或广告联盟网络通过合约来对广告投放的效果(Action)进行约定,可以是帮助广告主获取新客户(Acquisition)、获得新用户注册(Lead)、产生下载(Download)、产生交易(Transaction)或者是促进销售(Sale)等等.与其他计费方式相比,按广告投放效果计费有诸多优势.首先,所有的广告效果均在广告主一端进行处理,因此广告主能够准确统计广告的投放效果,从而具备更高的竞拍表达能力;其次,采用这种方式可以使广告主进一步规避广告投放的风险,获得更好的效用.当然,按广告投放效果计费的方式也存在着一些不足.一方面,由于这种计费方式忽略了广告展示的长期效用,会导致部分广告主利用不计费的广告展示(即不产生效果)来为产品建立品牌效应[25],却逃避广告费用;另一方面,由于广告投放效果的数据全部都维护在广告主一端,使得网络媒体和广告联盟网络难以通过对这一部分数据进行分析来提高广告投放的效果.

随着互联网广告行业竞争的白热化,产业链中不同角色数量的变化导致了竞争优势的迁移,使互联网广告投放的计费模式也随之发生转变,按广告投放效果进行计费将最终取代其他计费方式,成为现阶段互联网广告行业中最主要的计费模式.2.3 广告竞拍

互联网广告在发展过程中逐渐形成了几种不同形态的广告形式,包括条幅图片广告(Banner)、赞助商广告和联盟广告等.广告主在发布广告的过程中,争夺广告显示权的方式也逐渐从合约式(Contract)

转变为实时竞拍式(Biding).针对不同形态的广告形式,广告主实时竞拍的

内容也各不相同.对于条幅图片广告,广告主可以针对展示竞拍(Impression),针对展示位置竞拍(Slot)[26]、针对广告受众属性竞拍,以及针对它们的组合进行竞拍;对于赞助商广告,广告主可以针对展示竞拍,针对展示位置竞拍,针对关键词竞拍以及针对它们的组合进行竞拍;而对于联盟广告,广告主可以针对关键词竞拍,针对受众属性竞拍,针对展示位置竞拍以及针对它们的组合进行竞拍.

传统商品的竞拍规则主要有4种:第一价格密封投标、第二价格密封投标、开放式递增投标和开放式递减投标.互联网广告的竞拍与传统商品竞拍有所不同,主要体现在如下4个方面:(1)互联网广告的竞拍是一个持续的过程,只要网络媒体有流量(即有用户访问),就可以进行拍卖;(2)针对不同形态的广告,虽然竞拍的内容各不相同,但实际上竞拍的均是网络媒体的流量;(3)如果竞拍中出现流拍,相关的流量是无法保留到未来进行再次竞拍,这会造成流量的浪费;(4)由竞拍所产生的过度广告投放将会有损于用户的效用.因此,传统的竞拍规则不一定适合于互联网广告的竞拍,但无论采取何种竞拍规则,竞拍所追求的最终目标都应是一致的:(1)如果竞拍者拥有占优策略(DominantStrategy)[23],则应该使用占优策略.此时无论其他竞拍者如何选择策略,占优策略均能使该竞拍者获得最大效用.使用占优策略能够让每个竞拍者按照心理价位出价,体现出竞拍者的真实意愿(Truthfulness)[23];(2)拍卖规则应体现出纳什均衡(NashEquilibrium)[23]特性,也就是在给定其他竞拍者策略的前提下,每个竞拍者都选择自己的最优策略.显然,传统商品的四种竞拍规则并不一定都适合于互联网广告的竞拍.1997年Goto.com首先在广告竞拍中采用了

通用第一价格密封投标(GeneralizedFirstpriceAuction)[89]规则,即让竞拍者各自出价,然后根据最高出价依次获得不同位置的广告展示,并按各自的最高出价进行付费.采用这种竞拍规则时,竞拍者往往需要出比心理价位更高的价格,并且必须一次比一次出价更高,才能获得广告展示的机会.因此,通用第一价格密封投标规则无法体现出竞拍者的真实意愿,也不具备纳什均衡的特性.在连续竞拍的过程中,当竞拍价格在竞拍者可承受范围之内时,竞拍者不断推高的出价会使中标价格不断攀升,当竞拍价格超出竞拍者可承受范围后,会出现因无人出价而

908110期 周傲英等:计算广告:以数据为核心的Web综合应用

Page 6: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

导致中标价格跌落的情况.由此可见,通用第一价格密封投标规则对于互联网广告的拍卖来说不够稳定,往往会导致中标价格的频繁波动.类似的竞拍规则还有通用Vickrey竞拍(GeneralizedVickreyAuction)规则,也称为VCG(VickreyClarkGroves)竞拍规则,是让竞拍者各自出价,然后根据最高出价依次获得不同位置的广告展示,并按第二高出价进行付费.VCG竞拍规则能够体现竞拍者的真实意愿,即各竞拍者能够按照心理价位出价,但是不具备纳什均衡特性.2002年起Goolge开始采用通用第二价格竞拍(GeneralizedPriceAuction)规则,随后Goto.com和Yahoo!也转到采用该规则.针对不同计费模式,通用第二价格竞拍有两种排序方式,一种是按照竞拍的出价排序(BidRanking)后在不同的广告位置展示,这主要是针对按展示计费或按显示位置计费;另一种是按照收入排序(RevenueRanking)后在不同的广告位置展示,这里所说的收入是按竞拍人的出价乘以所投广告的点击率来计算的,这主要针对按点击计费或按广告投放效果计费.

在为互联网广告竞拍选择竞拍规则时,不仅要求所选的竞拍规则能够体现出竞拍者的真实意愿以及具备纳什均衡特性,还要求该竞拍规则具备丰富的表达能力(Expressiveness).竞拍规则的表达能力是指一个竞拍规则不仅仅能够支持对广告展示机会的拍卖,还能够针对用户的需求方便地支持对不同内容的组合进行拍卖.近年来,出现了多种具有丰富表达能力的互联网广告竞拍规则.例如,针对条幅图片广告的拍卖,可以按网络媒体所属的类型、用户所属的区域、用户的性别、用户的职业和用户的收入等多种内容以及它们的组合进行竞拍[27],并通过竞拍树(BiddingTree)的形式为用户提供了用于出价的竞拍语言(BiddingLanguage)[27].又如,针对广告战役(AdvertisingCampaign)层次的竞拍规则及相关的投放策略优化规则[28].而针对关键词竞拍,同样也有具备丰富表达力的竞拍规则,不仅能够支持对单个关键词和组合关键词的竞拍,还能够提供不同关键词组合的概率以及向竞拍者推荐关键词组合,使得广告主能够比较容易选择需要竞拍的关键词,并能够评估相应的投资回报率[91].

与互联网广告竞拍相关的研究工作已经成为业界关注的热点.实时竞拍系统只有采用具备丰富表达能力的竞拍规则才能够更好地服务于广告主和网络媒体,不仅能够提高广告主的实时竞拍能力,使广告主获得合理的投资回报率,还能够帮助网络媒体

降低广告位存量,获得更高的收益.

3 检索与投放算法本节主要针对条幅广告、赞助商搜索和联盟文

本广告这三种不同形态的互联网广告形式,介绍与之相关的检索、排序和投放算法,并对各自的优缺点及最新研究进展展开讨论.3.1 条幅广告检索

条幅广告是指在网络媒体的网页上所投放的条幅图片广告.条幅广告的投放方式可以分为确定投放和不确定投放两种,但无论哪种投放方式均包含用户信息生成、受众选择和性能预测这几个子任务.其中,在投放受众的选择上还存在着两类不同的定向(Targeting)技术:基于规则的定向(Rulebased)和基于模型的定向(Modelbased).以确定投放方式投放的条幅广告大多采用基于规则的定向技术来选择受众;而采用不确定投放方式投放的条幅广告,可以使用任何一种定向技术来选择受众,当前的趋势是越来越趋向于采用基于模型的定向技术.下面我们将具体阐述这两类定向技术.

基于规则的定向技术中所使用的规则是根据用户的属性信息生成的布尔检索条件,利用这些布尔检索条件在广告数据库中进行布尔检索,可以获得符合规则的广告.根据规则中所涉及用户属性信息的不同,基于规则的定向技术又可分为人口统计定向(DemographicTargeting)和地址定向(GeographicTargeting)两大类.人口统计定向主要使用用户的人口统计学属性,例如,年龄、性别、收入、职业和学历等,这些信息一方面可以通过用户的注册信息获得,另一方面还可以通过机器学习算法来学习获得.目前,在这一领域已经有了相当多的研究工作和应用系统,例如,通过支持向量机回归算法(SupportVectorMachineRegression)可以预测网页浏览用户的性别和年龄[71];通过支持向量机分析可以预测博客用户的性别[72];通过潜语义分析(LatentSemanticAnalysis)可以自动创建用户的属性信息[73];通过用户所搜索的关键词可以预测用户的性别[74]等.与人口统计信息相关的应用系统包括微软公司用于预测用户年龄和性别的人口统计预测系统[68]、谷歌公司用于预测用户属性信息的人口竞价系统(DemographicBidding)、利用人口统计信息投放广告的谷歌内容网络(GoogleContentNetwork)[69]和用于在投放网络中选择拥有匹配受众的

0181 计  算  机  学  报 2011年

Page 7: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

网站的网站选择系统(DemographicSiteSelection)[70].地址定向主要使用用户的地址信息,例如家庭住址和当前所在位置等,这些信息可以通过分析用户的注册信息、IP地址、浏览器默认语言和搜索语言等来获取.

基于模型的定向技术,是针对用户的行为信息和相关的网络环境信息,通过不同的学习算法来确定各种信息的权重,构建出广告匹配模型,然后依据所构建的模型在广告数据库中为用户选择最匹配的广告.基于模型的定向技术具体可以分为行为定向(BehaviorTargeting)、重定向(Retargeting)和上下文定向(ContextTargeting)三类.行为定向又被称为兴趣定向,是指网络媒体或广告联盟网络根据用户的历史行为信息,在广告数据库中检索与之匹配的广告,然后将检索出的广告定向投放给该用户.用户的历史行为信息包括搜索历史、浏览行为、广告点击历史和交易历史等.相关的技术包括针对网页浏览历史,依据TFIDF[75]对用户进行刻画[76];针对(用户、效果)矩阵,依据潜语义索引(LSI)[78]、概率潜语义(PLSI)[79]和潜Dirichlet分配(LDA)[80]等方法对用户进行聚类;针对用户的点击行为历史,依据线性泊松回归算法对类似用户进行聚类[77],分析用户全局话题的趋势[81]、分布[82]以及数量的变化[83],用户近期和长期兴趣的变化[84]等等,从而能够更好地对用户建模.重定向实际上是行为定向的一种特例,是利用用户的当前搜索信息或浏览信息来分析用户当前的兴趣,从而选择适合的广告投放给该用户.因为重定向利用的是用户当前的行为信息,因此所投放的广告具有较强的目的性,通常能获得较高的广告点击率.上下文定向是指根据网页的上下文内容来选择所投放的广告,所涉及的广告投放技术与联盟广告投放所采用的技术类似.上下文定向技术通常在无法获取用户信息时被使用.此时,由于无法实现针对用户的个性化投放,因此只能根据网页的内容来投放广告,所投放广告的点击率一般也比采用其他定向方法所投放广告的点击率低,但仍比未使用上下文定向时高出2~3倍.

目前,条幅广告的检索大多采用基于规则的定向技术,当用户的属性信息过多时通常采用回应方式(Reaction)进行处理,即通过类比先前发生过的场景进行条幅广告检索;而当用户的属性信息过少时通常使用预测方式(Predictive)进行处理,即通过当前场景的特征以及先前预测时各特征的权重来预测最匹配的广告.定向技术是通过对当前用户的个

性化喜好进行分析,从而选择有针对性的广告进行投放,因此往往可以获得较高的广告点击率.当前大多数的互联网广告投放系统都采用了广告定向投放技术.3.2 赞助商广告检索

赞助商搜索是一种特定的广告投放形式,其广告投放的目标位置是搜索引擎所返回的搜索结果页面.与其他广告投放形式不同,在赞助商搜索的场景中,搜索引擎既充当了网络媒体也充当了广告网络,因此赞助商搜索便成为广告主、用户和搜索引擎三方的一个博弈过程,博弈的目标是要使三方的总收益(Payoff)最大.通常可以使用凸线性组合来对博弈的收益进行模拟,即犝=α犝狋犻犾犻狋狔犃犱+β犝狋犻犾犻狋狔犘犫+γ犝狋犻犾犻狋狔犝狊狉.这里,由于较难衡量广告主的长期效益,因此只强调单次搜索能够产生的效用,即注重用户每次搜索的效用和广告主在每次搜索中的投资回报率.研究表明,用户的搜索行为可以分成三类:导航(Navigational)、获取信息(Informational)和事务(Transactional),各自所占的比例分别为25%,40%和35%[2930].显然,用户在使用搜索引擎进行搜索时往往具有较强的目的性,因此可以比较有针对性地在用户搜索的结果页面上投放广告.

有研究表明,互联网用户在使用网页搜索功能时,所提交的查询短语具有以下两个特点:(1)查询短语较短,平均长度为2.2个单词,常用查询短语的平均长度为1.7个单词[31];(2)查询短语的使用频率呈幂率分布(PowerLaw)[41],近50%的查询短语每小时的使用频率在5次以下[31].考虑到查询短语的这些特点,赞助商搜索主要采用了两类广告检索的方法,即确切匹配(ExactMatch)和高级匹配(AdvancedMatch).在采用确切匹配方法来对广告进行检索时,通常是将广告数据以记录的形式保存在数据库中,并将竞拍关键词作为广告记录属性的一部分,并且依赖于数据库的查询处理机制来实现检索.例如,当处理查询短语狇时,可将狇作为竞拍关键词在广告数据库中查询竞拍关键词中包含狇的广告记录,因此该方法也被称为数据库方法.在采用高级匹配方法来对广告进行检索时,通常是将广告数据以文档的形式保存在文档库中,然后根据查询短语利用信息检索技术来对广告进行检索,因此这种方法也被称为信息检索方法.

如图3所示,在赞助商搜索的架构中,当一个新的查询狇到达时,首先会利用查询中包含的关键词查询现有数据库中的各种数据,包括查询历史、广告

118110期 周傲英等:计算广告:以数据为核心的Web综合应用

Page 8: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

数据和竞价数据,获得与查询狇相关的广告,并按照竞拍价格排序将这些广告投放在查询结果的页面中.在采用数据库方法进行广告检索时,往往由于查询短语较短,只能够获得部分与查询相匹配的广告;另外,由于查询短语的使用频率呈幂率分布,往往会导致部分广告被频繁地检索到.为了解决这些问题,在赞助商搜索的架构中通常都会引入查询重写(QueryRewriting)机制.

图3 赞助商搜索架构

图4 查询重写机制

图4给出了一个典型的查询重写机制及其过程,通过各种查询重写机制(如查询日志、查询会话等)可以将查询狇重写成新查询狇′,然后利用狇′在广告数据库进行相关广告的检索.查询替代(QuerySubstitution)是最常用的查询重写方法,不同的查询替代技术有着各自的优缺点.一种查询替代技术是使用相关反馈(RelevanceFeedback)[32]、伪相关反馈(PseudoRelevanceFeedback)[33]或者检索到的文档[34]进行替代,这种替代方法比较简单,但是容易产生查询漂移(QueryDrift)[36].另一种查询替代技术是使用查询日志(QueryLog)[37]、有效识别的查询会话(QuerySession)[35]或者查询链(QueryChain)[38]进行替代,可以获得较好的替代效果,但缺点是可供选择的替代短语数量有限.潜语义索引(LatentSemanticIndex)[39]是通过矩阵奇异值分解来获取用于替代的相关短语,这种技术能够获得较好的替代效果,但是计算量较大.当查询短语中包含有多义词和限制词时,通过数据库方法进行广告检索的匹配精度会很差,为此可以通过删除部分冗余的短语[40],来提高广告检索的匹配精度.此外,据统计仅有30%~40%的查询能够找到相匹配的广告[42],针对分布在长尾上的查询可以通过抽取特征

(如单词、短语和所属类别等)[43]以及检索查询日志等方法来进行查询扩展(QueryExpansion)[42],最终为查询找到相匹配的广告.根据大量的历史点击数据,可以在查询与网页的URL之间构建马尔可夫随机场(MarkovRandomFields)[44],然后通过随机行走算法来生成新的查询短语[45],或者通过优化后的Simrank算法[46]均能有效实现查询重写[47].3.3 联盟文本广告检索

联盟文本广告是指在第三方的网络媒体上投放的文本广告.根据对广告投放精度的不同要求,可以将网络媒体分为两大类.一类是以提供内容为主的传统网络媒体,如纽约时报和博客等,这些网络媒体以广告收入作为主要的收入来源,因此对广告投放精度的要求很高;另一类是以提供电子商务服务为主的混合网络媒体,如淘宝和ebay等,这些网络媒体拥有自身的销售收入,其广告收入为额外收入,因此往往对广告投放精度的要求较低.

目前,主要有两类服务提供商为广告主提供联盟广告的投放,一类是搜索引擎公司,如谷歌和百度等;另一类是广告联盟网络,如DoubleClick、聚胜万合和好耶等.虽然这两类服务提供商通常采用不同的广告检索和排序方法,但他们所使用的广告投放架构是一样的.如图5所示,广告服务提供商会在第三方网络媒体的网页中嵌入Java脚本,当用户访问网络媒体的网页时,Java脚本会将相关的信息发送给广告服务器,并选择相关的广告进行排序投放.

图5 联盟广告投放架构

目前,谷歌、雅虎和微软等搜索引擎公司都拥有针对第三方网络媒体进行广告投放的系统,分别为Adsense、Contentmatch和ContentAds.如图6所示,在提供联盟广告投放服务时,搜索引擎公司为了能够重用赞助商搜索中所使用的广告投放平台,通常采用基于网页关键词抽取的技术来投放联盟广告.具体包括如下几类:(1)关键词抽取.Turney证明了使用基于参数可调遗传算法的规则关键词抽取系统GenEX[48]比通过C4.5训练的关键词抽取系统[49]更准确;另外基于朴素贝叶斯学习算法[50]构建的分类器,以及基于机器学习算法构建的KEA[51]

2181 计  算  机  学  报 2011年

Page 9: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

关键词抽取系统也具有近似的抽取效果;在KEA关键词抽取系统中引入WEB相关的特性[52]、WEB文档[53]和语言信息(LinguisticInformation)[54]将会获得3个不同的KEA变种,其关键词抽取的准确性也相应的有10%、40%和50%的提高.(2)使用语义模板(SemanticTemplates)的信息抽取.这种方法可以从无结构文档中抽取具有特定结构的信息,所采用的算法包括聚类[55]、一组特定整合模式[56]、概念层次[57]、隐马尔可夫模型[58]和符号学习规则[59]等.(3)新查询抽取.利用领域相关关键词抽取方法从不同的数据源,如新闻数据源[60]或邮件数据[61],通过利用TFIDF、词根法或语言信息等方法,来抽取代表新查询的关键词.(4)关键词扩展.由于网页关键词不一定能够与广告关键词匹配,即所谓的关键词阻碍问题(ImpedanceCoupling),文献[13]提出了通过贝叶斯网络方法[62]来实现关键词的扩展,以提高网页关键词与广告关键词匹配的效果.(5)综合方法.综合上述4种关键词抽取方法,文献[12]给出了一种综合关键词抽取的方法.

图6 搜索引擎端的联盟广告

广告联盟网络一般使用信息检索方法来实现对广告的检索,即以广告数据构建检索文档库,以目标网页作为检索条件,来获取最匹配的广告.各类信息检索方法均可以用于广告检索,具体可以划分为如下几类:(1)基于向量空间模型[63]的算法.首先根据不同的数据(如标题、主题文本[13]或者分类[14])构建网页向量和广告向量,然后通过余弦算法[13]、遗传编程[64]等算法来计算广告向量与网页向量之间的相似度,并按照相似度的大小对广告进行排序.(2)基于相关反馈的算法.首先抽取网页和广告中的特征(如标题、全文等),然后构建广告点击的近似罗吉斯回归(LogisticRegression)模型,并由此预测和选择与网页最为相关的广告.(3)基于概率模型[65]的算法.首先通过广告点击数据构建广告与分类、网页与分类之间的概率模型,然后通过EM算法[66]解决广告与网页关键词不能直接匹配的问题,最终为网页选择最相关的广告[17].

3.4 排序投放广告排序是指通过广告检索获取广告候选集之

后,应当根据一定的规则对候选广告进行排序,排序的结果可以被用于决定广告投放的顺序和位置.最基本的广告排序条件包括广告的相关度、广告的竞拍价格和广告的点击率估计等,此外还可以按照多条件组合的形式对广告进行排序.广告排序的目标是希望产业链中各个角色均能获得较高的效用,实现收益最大化.现有的广告投放系统通常会根据一定的权重对上述多个条件计算总分,并按照该分值对广告进行排序.

广告点击率估计对广告排序具有较大的影响.点击率估计是指在给定网页和用户的情况下,估计所投放的广告被点击次数占展示总次数的比例.互联网广告的点击率从20世纪90年代起一直呈下降趋势,目前平均点击率在0.2%~0.3%左右,2%的广告点击率被视为非常成功的广告投放.随着广告计费方式的改变,广告点击率估计在广告投放过程中占有越来越重要的地位,估计的结果会直接影响到广告检索结果的排序,进而影响到用户、网络媒体和广告主的效用.

准确地进行广告点击率估计具有一定的难度,特别是针对最新投放的广告进行估计.据统计,所有广告的展示频率和点击率均呈幂率分布[85],搜索关键词频率也按幂率分布[86].对于处在幂率分布头部的广告来说,由于具有足够的展示次数和点击次数,因此比较容易估计他们的点击率;而对于处在幂率分布长尾上的广告来说,由于缺少足够的展示次数和点击次数,因此较难估计他们的点击率.最有效的估计方法是依据现有的点击信息进行估计,例如,对于查询频率较低的关键词,首先通过关键词聚类来获得与这个词属于同一类的高使用频率关键词,然后根据同一分类中高使用频率关键词的广告点击率来估计这个关键词所对应广告的点击率[86];或者通过网页与广告之间的隐主题关联来预测广告的点击率[17];再者通过广告展示度、广告关联的关键词、广告的登陆页和广告主的声望等广告属性来构建广告点击的回归模型,进而预测新广告的点击率[87].通过预先定义一个关键词的概念层次(ConceptHierarchy),然后根据已知数据计算每个层次中不同区域(Region)所对应的广告点击率,并以此来对长尾分布中广告的点击率进行估计,可以获得较高的估计准确率[85].

318110期 周傲英等:计算广告:以数据为核心的Web综合应用

Page 10: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

4 分析投放平台互联网广告的分析投放平台包括离线分析平台

和实时投放平台两个部分,其整体目标是实现广告的精准投放.离线分析平台的主要作用是对爬取的网页进行信息或关键词抽取,对cookies和WEB日志等用户行为数据进行分析,对广告点击历史数据

进行分析,最终实现网页内容分类、用户短期和长期兴趣的甄别以及广告点击率估计等任务;实时投放平台的主要任务是根据离线分析平台获得的分析结果来实现广告的实时检索和精准投放.4.1 离线分析平台

从功能上可以将广告离线分析平台划分为数据获取、数据格式化、信息抽取和模式分析几个部分,具体如图7所示.

图7 离线分析平台

  数据获取部分的主要功能是搜集各类可用于广告定向和广告投放的数据,主要包括网页数据、WEB日志、搜索日志、用户cookies等.对于不同类型的数据需要采取不同的获取方法,网页数据主要是通过网页爬取手段来获取;WEB日志数据和搜索日志数据需要从网络媒体的服务器端获取;用户cookies需要通过植入的第一方cookies和第三方cookies获取,其中第一方cookies仅能获取网络媒体登录用户的信息,而由广告网络联盟等第三方植入的cookies可以获取同一个用户登录不同网络媒体的信息.

对于所搜集到的数据,需要通过数据清洗、格式化、整合等方法进行处理.网页数据中由于包含有不同类型的信息,如文本、图片和广告等,并且格式多样,因此需要针对不同格式的网页采取不同的数据过滤和清洗的方法进行处理.对于网络日志和搜索日志数据,首先需要对这些日志数据进行事务甄别,最后产生日志的事务数据.而对于用户cookies数据则需要进行匹配和聚集等处理.上述各类数据经过清洗、过滤等预处理之后,需要通过匹配等方法进行整合,形成完整的数据集.最后还要将整合后的数据集按照一定的格式进行格式化,形成高质量的格

式化数据集.最后,对格式化后的数据可以进行挖掘分析和

模式识别等处理,以产生可以实现广告精准投放的数据基础.其中对于网页数据主要是进行信息抽取和关键词抽取;对于用户cookies数据、WEB日志和搜索日志的处理以分析用户行为为主,目标是生成完整的用户配置信息(Profile).

互联网广告的离线分析平台需要对大量的网页、日志和cookies等数据进行处理和分析,因此需要海量数据处理平台的支持.目前,已有多个可以用于对海量数据进行分析的系统.一个是谷歌公司提出的MapReduce框架[5],其数据维护在GoogleFileSystem(GFS)[92]中,目前该框架已由Yahoo公司的Hadoop项目[95]实现了开源共享.许多公司基于这一框架,开发出了多个变种,如Nokia的Disco,Facebook的Cassandra等.该框架的特点在于支持使用大量的PC机并行处理海量数据集,并且能够保证处理的效率.据谷歌2008年公布的数据[97]显示,“在4000台机子上对1PB的数据进行排序,总共需要6小时零2分钟”.GFS文件系统通过数据备份获得了很高的数据容错能力和极高的数据处理吞吐量.构建于GFS之上的Bigtable是为了使文件

4181 计  算  机  学  报 2011年

Page 11: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

系统具有部分的数据库管理特性而构建的大表,其主要特性是使数据具有了记录的格式,并通过锁服务器(Chubby)维护了数据的一致性.最上层的MapReduce框架提供了用户实现数据并行计算的一个接口,用户只需关注其中的Map和Reduce两个并行函数,因此大大简化了并行处理的复杂度.Google所提供的这个高度抽象的编程模型将用户从复杂的资源管理中解放出来.Amazon提供了用于处理海量数据的AWS[96]服务,包括EC2、S3、SQS、CloudFront、RDS和VPC等,能够让用户如同使用本地计算机一样来使用该项服务.而Microsoft提供的构架于WindowsServer2008之上的Azure[98]则是介于这两者之间.此外,Dryad[99]/Scope[100]提出了一种粗粒度的并行运行机制能够胜任一般的并行任务.这些分布式平台和开源分布式系统为海量网页数据、WEB日志数据、搜索日志数据和用户cookies的分析提供了支持.

4.2 实时投放平台广告实时投放平台主要包括广告实时竞价、广

告检索和广告排序三个部分,具体如图8所示.广告实时竞价部分的主要功能是提供一个针对网页信息和用户信息进行实时竞价的平台,广告主可以在这个平台上实时修改竞拍的价格.该实时竞价平台需要给广告主提供足够的竞价信息,并且提供易于使用的方式,例如,广告主可以设定多组竞价规则,针对网页内容和用户信息的组合设置不同的竞拍价格等.广告实时检索是指针对赞助商搜索、联盟网络和条幅广告等不同类型的广告形式,以及不同的广告投放形式,实现对相关广告的实时检索.使用最广泛的依旧是数据库方式,通过相关竞拍关键词检索相关广告,这类检索通常具有较高的效率.广告实时排序主要是指依据广告相关度、竞拍价格、点击率估计等实现对广告检索结果的排序投放.这里主要需要实现的是相关广告的点击率实时估计.

图8 广告实时投放平台

  如图8所示,赞助商搜索广告实时投放平台和联盟广告实时投放平台有着较多的相似之处.此外,搜索引擎在提供联盟广告投放时可以共享其广告实时投放系统中的多个组件.

5 新的发展趋势目前,互联网广告行业的发展日渐成熟,其产业

链中角色的种类也日趋丰富,在2010年前后出现了需求方平台、销售方平台和数据媒介买卖平台等,使

得互联网广告的买卖逐渐由合约模式转换为实时竞拍模式.通过实时竞拍,广告主可以实现有选择的竞拍,以提高广告的投资回报率;而网络媒体也能够以更高的价格销售广告位,增加销售收入.但是,整个产业链中的需求方平台和销售方平台建设还有待进一步加强,需要提供更易使用、更具表达力的实时竞拍平台和实时销售平台.广告主可以通过实时竞拍系统发现最适合自己的广告位需求,并能即时以合理的价格竞拍到该广告位.实时销售方平台则需要能够进一步实时总结出当前网页及其用户的特征,

518110期 周傲英等:计算广告:以数据为核心的Web综合应用

Page 12: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

供参与实时竞拍的广告主进行选择.2011年,互联网广告的产业链中还出现了一个新的角色———数据提供者(DataProvider),该角色通过整合大量的用户数据,来为销售方平台和需求方平台提供数据支持.

近些年来,智能手机和平板电脑等智能终端的普及为广告的投放提供了新的思路和方向.据eMarketer统计,目前移动通信用户使用智能手机的比例已达14%.不仅如此,目前单个用户所拥有的智能电子设备越来越多,例如,笔记本电脑、智能手机和平板电脑等,并且不同的用户使用这些设备时拥有不同的规律和模式,如何针对单个用户及其使用智能设备的规律,设计相应的整体广告投放方案,是受到业界广泛关注的一个热点问题.另外一方面,目前大多数智能终端设备都已配有GPS组件,据eMarketer统计,2010年使用位置服务的用户比2009年增加了20%,因此如何根据智能终端的位置信息提供基于位置的广告投放也是备受关注的一个热点问题.

目前,互联网已经由用户只能被动接受信息的WEB1.0时代进入到了用户可以主动发布信息的WEB2.0时代,用户参与网络活动的程度越来越高.在WEB1.0时代,仅能通过用户cookies、WEB日志等信息来对用户进行分析;而在WEB2.0时代,我们能够获得更多更具体的单个用户的数据,例如,如博客、评论等,支持对用户进行更深入的分析.特别是随着Facebook和新浪微博等社会网络应用的流行,用户参与网络活动的程度又进一步加强.据统计,目前新浪微博的注册用户数已经超过1亿[5],而Twitter的注册用户量更是突破了2亿[6].而据eMarketer预测,2011年Twitter的广告收入将达1.5亿美元[7].因此,如何根据海量的用户数据为用户提供个性化的广告服务是值得研究的一个课题.以Yutube和优酷等为代表的社会视频媒体吸引了大量的用户参与,如何针对视频媒体进行定向广告投放也是当前的一个研究重点.

6 总 结综上所述,互联网广告行业经过十多年的发展,

已经进入了计算广告的时代.互联网广告的销售模式已经由合约形式逐步过渡到实时竞拍方式;投放广告的计价方式也已经由按展示计费逐步过渡到按点击计费和按交易计费;广告主投放广告的目的也

逐步由建立品牌形象过渡到直接市场营销;广告的投放方式也逐步由基于页面内容的定向过渡到基于广告受众的定向.计算广告是一个新兴的跨学科研究领域,它帮助互联网广告行业创造了巨大的市场价值,而广泛的市场应用也推动了计算广告的进一步发展.一方面,互联网广告行业的产业链中出现了联盟网络、广告交换、需求方平台、销售方平台、数据交换和数据提供者等不同的角色,角色之间的分工也越来越细;另一方面,计算广告涉及的领域在不断地扩展,包括面向移动智能终端的广告投放,基于社会网络的广告投放,基于位置信息的广告投放,以及基于网络视频的广告投放等等.由此可见,计算广告是一个值得学术界深入关注的研究领域.

参考文献

[1]CRNielsen.CRNielsen发布2010年上半年中国互联网广告市场简报.http://www.crnielsen.com/wangluo/trend/201007/291758.html,2010.7

[2]eMarketer.OnlineAdSpendSurpassesNewspapers.http://affiliateprogram.amazon.com/gp/advertising/api/detail/main.html.2010.12

[3]DavidOgilvy.OgilvyonAdvertising.Vintage,1985.12[4]PhillipNelson.Advertisingasinformation.TheJournalof

PoliticalEconomy,1974,82(4):729754[5]新浪.新浪微博用户超过1亿,开始进军电子商务市场.

http://tech.sina.com.cn/i/20110302/17395237059.shtml,2011.3

[6]新浪.Twitter董事长称全球用户数已突破2亿.http://tech.sina.com.cn/i/20110112/17495087422.shtml,2011.1

[7]eMrketer.Twitteradrevenuestosoarthisyear.http://www1.emarketer.com/Article.aspx?R=1008192&AspxAutoDetectCookieSupport=1,2011.1

[8]RegelsonM,FainD.Predictingclickthroughrateusingkeywordclusters//Proceedingsofthe2ndWorkshoponSponsoredSearchAuctions.2006

[9]BroderA,CiccoloP,GabrilovichE,JosifovskiV,MetzlerD,RiedelL,YuanJ.Onlineexpansionofrarequeriesforsponsoredsearch//ProceedingsoftheSIGIR.2009

[10]RadlinskiF,BroderA,CiccoloP,GabrilovichE,JosifovskiV,RiedelL.Optimizingrelevanceandrevenueinadsearch:Aquerysubstitutionapproach//ProceedingsoftheSIGIR.2008

[11]JonesR,FainDC.Queryworddeletionprediction//ProceedingsoftheSIGIR.2003

[12]YihW,GoodmanJ,CarvalhoVR.Findingadvertisingkeywordsonwebpages//ProceedingsoftheWWW.2006

[13]RibeiroNetoB,CristoM,GolgherPB,deMouraESilva.Impedancecouplingincontenttargetedadvertising//ProceedingsoftheSIGIR.2005

6181 计  算  机  学  报 2011年

Page 13: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

[14]BroderA,FontouraM,JosifovskiV,RiedelL.Asemanticapproachtocontextualadvertising//ProceedingsofSIGIR.2007

[15]ChakrabartiD,AgarwalD,JosifovskiV.Contextualadvertisingbycombiningrelevancewithclickfeedback//ProceedingsoftheWWW.2008

[16]RichardsonM,DominowskaE,RagnoR.Predictingclicks:Estimatingtheclickthroughratefornewads//ProceedingsoftheWWW.2007

[17]RatnaparkhiA.Ahiddenclasspageadprobabilitymodelforcontextualadvertising//ProceedingsoftheTROA.2008

[18]AgarwalD,BroderAZ,ChakrabartiD,DiklicD,JosifovskiV,SayyadianM.Estimatingratesofrareeventsatmultipleresolutions//ProceedingsoftheKDD’2007.2007

[19]PandeyS,AgarwalD,ChakrabartiD,JosifovskiV.Banditsfortaxonomies:Amodelbasedapproach//ProceedingsoftheSDM.2007

[20]AttenbergJ,PandeyS,SuelT.Modelingandpredictinguserbehaviorinsponsoredsearch//ProceedingsoftheKDD.2009

[21]RayportJF.ThetruthaboutInternetbusinessmodels.StrategyandBusiness,1999,15(3):14

[22]GallagherK,ParsonsJ.AframeworkfortargetingbanneradvertisingontheInternet//Proceedingsofthe30thHawaiiInternationalConferenceonSystemSciences.1997

[23]TimRoughgarden.AlgorithmicGameTheory.NewYork:CambridgeUniversityPress,2007

[24]GrowB,ElginB,HerbstM.Clickfraud:Thedarksideofonlineadvertising.BusinessWeekOnline,2006,10(2):15

[25]MohammadMahdian,KeremTomak.Payperactionmodelforonlineadvertising//Proceedingsofthe3rdInternationalConferenceonInternetandNetworkEconomics.2007

[26]VarianHR.Positionauctions.InternationalJournalofIndustrialOrganization,2007,25(6):11631178

[27]LahaieS,ParkesDC,PennockDM.Anexpressiveauctiondesignforonlinedisplayadvertising//ProceedingsofAAAIConferenceonArtificialIntelligence.2008

[28]BoutilierC,ParkesD,SandholmT,WalshW.Expressivebanneradauctionsandmodelbasedonlineoptimizationforclearing//ProceedingsoftheNationalConferenceonArtificialIntelligence.2008

[29]RoseDE,LevinsonD.Understandingusergoalsinwebsearch//Proceedingsofthe13thInternationalConferenceonWorldWideWeb.2004

[30]BroderA.Ataxonomyofwebsearch.ACMSIGIRForum,2002,36(2):310

[31]StevenM.Onunderstandingandclassifyingwebqueries[Ph.D.dissertation].IllinoisInstituteofTechnology,Illinois,USA,2006

[32]RocchioJJ.Relevancefeedbackininformationretrieval.SMARTRetrievalSystemExperimensinAutomaticDocumentProcessing,1971

[33]RobertsonSE,WalkerS,JonesS,HancockBeaulieuMM,GatfordM.OkapiatTREC3//Proceedingsofthe3rdTextRetrievalConference.1995:109216

[34]TerraE,ClarkeCLA.Scoringmissingtermsininformationretrievaltasks//ProceedingsoftheACM13thConferenceonInformationandKnowledgeManagement.2004:5058

[35]JonesR,ReyB,MadaniO,GreinerW.Generatingquerysubstitutions//Proceedingsofthe15thInternationalConferenceonWorldWideWeb,2006

[36]RuthvenI.Reexaminingthepotentialeffectivenessofinteractivequeryexpansion//Proceedingsofthe26thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2003:213220

[37]AnickP.UsingterminologicalfeedbackforwebsearchrefinementAlogbasedstudy//Proceedingsofthe26thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2003

[38]RadlinskiF,JoachimsT.Querychains:Learningtorankfromimplicitfeedback//Proceedingsofthe11thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryinDataMining.2005:239248

[39]DeerwesterSC,DumaisST,LandauerTK,FurnasGW,HarshmanRA.Indexingbylatentsemanticanalysis.JournaloftheAmericanSocietyofInformationScience,1990,41(6):391407

[40]JonesR,FainDC.Queryworddeletionprediction//Proceedingsofthe26thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2003:435436

[41]SpinkA,WolframD,JansenB,SaracevicT.Searchingtheweb:Thepublicandtheirqueries.JournaloftheAmericanSocietyforInformationScienceandTechnology,2001,53(3):226234

[42]BroderA,CiccoloP,GabrilovichE,JosifovskiV,MetzlerD,RiedelL,YuanJ.Onlineexpansionofrarequeriesforsponsoredsearch//Proceedingsofthe18thInternationalConferenceonWorldWideWeb.2009

[43]AnickP.Usingterminologicalfeedbackforwebsearchrefinement:Alogbasedstudy//Proceedingsofthe26thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2003

[44]LiS.MarkovRandomFieldModelinginComputerVision.NewYork:SpringerVerlag,1995

[45]FuxmanA,TsaparasP,AchanK,AgrawalR.Usingthewisdomofthecrowdsforkeywordgeneration//Proceedingsofthe17thInternationalConferenceonWorldWideWeb.2008

[46]GlenJeh,JenniferWidom.Simrank:Ameasureofstructuralcontextsimilarity//ProceedingsoftheKDD.2002

[47]AntonellisI,MolinaHG,ChangCC.Simrank++:Queryrewritingthroughlinkanalysisoftheclickgraph//ProceedingsoftheVLDBEndowment.2008

[48]TurneyPD.Learningalgorithmsforkeyphraseextraction.InformationRetrieval,2000,2(4):303336

[49]QuinlanJR.C4.5:ProgramsforMachineLearning.SanMateo,CA:MorganKaufmann,1993

[50]PunyakanokV,RothD.Theuseofclassifiersinsequentialinference//ProceedingsoftheNIPS00.2001

718110期 周傲英等:计算广告:以数据为核心的Web综合应用

Page 14: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

[51]FrankE,PaynterGW,WittenIH,GutwinC,NevillManningCG.Domainspecifickeyphraseextraction//ProceedingsoftheIJCAI99.1999:668673

[52]TurneyPD.Coherentkeyphraseextractionviawebmining//ProceedingsoftheIJCAI.2003:434439

[53]KelleherD,LuzS.Automatichypertextkeyphrasedetection//ProceedingsoftheIJCAI.2005

[54]HulthA.Improvedautomatickeywordextractiongivenmorelinguisticknowledge//ProceedingsoftheEMNLP.2003:216223

[55]SoderlandStephen,FisherD,AseltineJ,LehnertW.Crystal:Inducingaconceptualdictionary//Proceedingsofthe14thInternationalJointConferenceonArtificialIntelligence.Montreal,Quebec,1995:13141319

[56]RiloffE.Automaticallyconstructingadictionaryforinformationextractiontasks//Proceedingsofthe11thNationalConferenceonArtificialIntelligence.1993:811816

[57]KimJunTae,MoldovanDanI.Acquisitionoflinguisticpatternsforknowledgebasedinformationextraction.IEEETransactionsonKnowledgeandDataEngineering,1995,7(5):713724

[58]FreitagDayne,McCallumAndrew.InformationextractionwithHMMstructureslearnedbystochasticoptimization//Proceedingsofthe17thNationalConferenceonArtificialIntelligence.Austin,TX,2000:584589

[59]CiravegnaFabio.Adaptiveinformationextractionfromtextbyruleinductionandgeneralization//Proceedingsofthe17thInternationalJointConferenceonArtificialIntelligence.2001:12511256

[60]HenzingerM,ChangB,MilchB,BrinS.Queryfreenewssearch//Proceedingsofthe12thWorldWideWebConference.2003:110

[61]GoodmanJ,CarvalhoVR.Implicitqueriesforemail//ProceedingsofCEAS.2005

[62]RibeiroNetoB,MuntzR.AbeliefnetworkmodelforIR//Proceedingsofthe19thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.1996:253260

[63]BaezaYatesR,RibeiroNetoB.ModernInformationRetrieval.1stEdition.AddisonWesleyLongman,1999

[64]LacerdaA,CristoM,GonalvesMA,FanW,ZivianiN,RibeiroNetoB.Learningtoadvertise//Proceedingsofthe29thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2006

[65]SaltonG.AutomaticTextProcessing:TheTransformation,AnalysisandRetrievalofInformationbyComputer.1989,14(4):530542

[66]DempsterAP,LairdNM,RubinDB.MaximumlikelihoodfromimcompletedataviatheEMalgorithm.JournaloftheRoyalStatisticalSociety,1977,39(2):138

[67]JansenBJ,SolomonL.Genderdemographictargetinginsponsoredsearch//Proceedingsofthe28thInternationalConferenceonHumanFactorsinComputingSystems.2010

[68]MicrosoftadCenterLabs(2008).Demographicsprediction.http://adlab.microsoft.com/DemographicsPrediction/DPUI.aspx.March2010

[69]GoogleAdWords(2010a).DemographicBidding.https://adwords.google.com/support/aw/bin/answer.py?hl=en&answer=80588.March2010

[70]GoogleAdWords(2010b).DemographicsSiteSelection.https://adwords.google.com/support/aw/bin/answer.py?hl=en&answer=33743.March2010

[71]KobayashiD,MatsumuraN,IshizukaM.Automaticestimationofbloggersgender//ProceedingsoftheInternationalConferenceonWeblogsandSocialMedia,2007

[72]BurgerJ,HendersonJ.Anexplorationofobservablefeaturesrelatedtobloggerage//ProceedingsofComputationalApproachestoAnalyzingWeblogs.2006

[73]MurrayD,DurrellK.InferringdemographicattributesofanonymousInternetusers//ProceedingsoftheInternationalWorkshoponWebUsageAnalysisandUserProfiling.1999:720

[74]JansenBJ,SolomonL.Genderdemographictargetinginsponsoredsearch//Proceedingsofthe28thInternationalConferenceonHumanFactorsinComputingSystems.2010

[75]SaltonG,BuckleyC.Termweightingapproachesinautomatictextretrieval.InformationProcessingandManagement:AnInternationalJournal,1988,24(5):513523

[76]YanJ,LiuN,WangG,ZhangW,JiangY,ChenZ.Howmuchcanbehavioraltargetinghelponlineadvertising//Proceedingsofthe18thInternationalConferenceonWorldWideWeb.2009

[77]ChenY,PavlovD,CannyJF.Largescalebehavioraltargeting//Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.2009

[78]DeerwesterS,DumaisST,FurnasGW,LandauerTK,HarshmanR.Indexingbylatentsemanticanalysis.JournaloftheAmericanSocietyforInformationScience,1990,41(6):391407

[79]HofmannT.Unsupervisedlearningbyprobabilisticlatentsemanticanalysis.MachineLearning,2001,42(1):177196

[80]BleiD,NgA,JordanM.Latentdirichletallocation.JournalofMachineLearningResearch,2003,3(2):9931022

[81]BleiDM,LaffertyJD.Dynamictopicmodels//ProceedingsoftheICML.2006,148:113120

[82]IwataT,YamadaT,SakuraiY,UedaN.Onlinemultiscaledynamictopicmodels//ProceedingsoftheKDD.2010

[83]AhmedA,XingEP.Timeline:Adynamichierarchicaldirichletprocessmodelforrecoveringbirth/deathandevolutionoftopicsintextstream//ProceedingsoftheUAI.2010

[84]AhmedA,LowY,AlyM,JosifovskiV,SmolaAJ.Scalabledistributedinferenceofdynamicuserinterestsforbehavioraltargeting//Proceedingsofthe17thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2011

[85]AgarwalD,BroderAZ,ChakrabartiD,DiklicD,JosifovskiV,SayyadianM.Estimatingratesofrareeventsatmultipleresolutions//Proceedingsofthe13thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2007

[86]RegelsonM,FainD.Predictingclickthroughrateusingkeywordclusters//Proceedingsofthe2ndWorkshoponSponsoredSearchAuctions.2006

8181 计  算  机  学  报 2011年

Page 15: 计算广告以数据为核心的犠犲犫综合应用cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf · 传统广告行业不同的新兴市场领域.在这个领域中, 能够实现广告精准定向投放的计算广告技术占据着

[87]RichardsonM,DominowskaE,RagnoR.Predictingclicks:Estimatingtheclickthroughratefornewads//Proceedingsofthe16thInternationalConferenceonWorldWideWeb.2007

[88]Onlineadexchanges.ForresterCustomResearchPreparedforDoubleClick,March2007

[89]EdelmanB,OstrovskyM,SchwarzM.Internetadvertisingandthegeneralizedsecondpriceauction:Sellingbillionsofdollarsworthofkeywords.TheAmericanEconomicReview,2007,97(1):242259

[90]NazerzadehH,SaberiA,VohraR.Dynamiccostperactionmechanismsandapplicationstoonlineadvertising//Proceedingofthe17thInternationalConferenceonWorldWideWeb.2008

[91]KittsB,LeblancB.Optimalbiddingonkeywordauctions.ElectronicMarkets,2004,14(3):186201

[92]GhemawatS,GobioffH,LeungS.TheGooglefilesystem//ProceedingsoftheOSDI’2003.2003

[93]DeanJ,GhemawatS.MapReduce:Simplifieddataprocess

ingonlargeclusters//ProceedingsoftheOSDI.2004[94]YangH,DasdanA,HsiaoRL,ParkerDS.Mapreduce

merge:Simplifiedrelationaldataprocessingonlargeclusters//ProceedingsoftheSIGMOD.2007

[95]Yahoo!.HadoopProject.http://hadoop.apache.org[96]Amazon.com,AmazonWebServices.http://aws.amazon.

com[97]GoogleBlog.Sorting1pbwithmapreduce,http://google

blog.blogspot.com/2008/11/sorting1pbwithmapreduce.html,2008

[98]Micrsoft.AzureServicePlatform.http://www.microsoft.com/azure/default.mspx

[99]IsardM,BudiuM,YuY,BirrellA,FetterlyD.Dryad:Distributeddataparallelprogramsfromsequentialbuildingblocks//ProceedingsoftheEuroSys.2007

[100]ChaikenR,JenkinsB,LarsonP,RamseyB,ShakibD,WeaverS,ZhouJ.SCOPE:Easyandefficientparallelprocessingofmassivedatasets//ProceedingsoftheVLDB.2008

犣犎犗犝犃狅犢犻狀犵,bornin1965,professor,Ph.D.supervisor.Hisresearchinterestsincludedatamanagementandinformationsystem,inclusiveofWebdatamanagement,ChineseWebinfrastructure,Websearchingandmining,datastreamingandmining,com

plexeventprocessingandrealtimebusinessintelligence,uncertaindatamanagementandapplications,dataintensivecomputing,distributedstorageandcomputing,peertopeer

computingandmanagement,Webservice,computationaladvertising.

犣犎犗犝犕犻狀犙犻,bornin1980,Ph.D.,lecturer.HisresearchinterestsincludePeertoPeersystem,distributeddatamanagement,computationaladvertising,dataintensivecomputing.

犌犗犖犌犡狌犲犙犻狀犵,bornin1974,associateprofessor.Hisresearchinterestsincludedatastreaming,datamining,RDFdatamanagement,computationaladvertising.

犅犪犮犽犵狉狅狌狀犱Thispapersurveystherecentresearchworkoncompu

tationaladvertisingwhichisestablishinganewscientificinterdisciplinary,involvinginformationretrieval,datamining,databases,statisticalanalysis,machinelearning,gametheory,marketing,distributedsystems,realtimesystemsandetc.Thegoalofcomputationaladvertisingistofindthebestmatchbetweenagivenuserinagivencontextandasuitableadvertisement,whichenhancestheutilitiesofpublishers,advertisers,usersandcreatingtremendouslargemarketvalues.

Theresearchofonlineadvertisingstartsfromthemid90’soflastcentury,andbecomesaveryhotfieldtoday.Yahoo!’sperformanceadvertisinggroupfirstlystartsacourseatStanfordUniversityin2009,named“introductiontocomputationaladvertising”andmanyothersfollowedby,includingEastChinaNormalUniversity.Theworkinthe

earlystagefocusedonbanneradvertisementtargetingbasedonusercookies,butnowithasbeendevelopedtoaquiteboarderrange,includinglargescaletextanalysis,userprofilegenerating,realtimebidding,advertisementretrieval,advertisementrankingandsoon.

Tothebestofourknowledge,thisisthefirstsurveyoncomputationaladvertising.Inthispaper,wegivethelandscapeofthepresentcomputationaladvertisingecosystemanditsevolution,includingtheparticipantsandtheirutilities,andthecategoriesofthecomputationaladvertisingintermsoftheadvertisementforms,andthealgorithmsforadvertisementretrieval,ranking,pricing.Wealsopredictthenewtrendsforcomputationaladvertising,includingmobilebasedadvertising,locationbasedadvertising,socialnetworkbasedadvertisingandsoon.

918110期 周傲英等:计算广告:以数据为核心的Web综合应用


Recommended