友荐云推荐

profiling-people

作为新时代互联网营销的关键部分,人群画像引起了诸多兴趣,近年颇为风靡。几乎所有的互联网广告供应商都不约而同的强调,他们有足够精确的人群画像数据,确保能够找到广告主真正的受众。但是事情果真如此吗?人群画像是否是一劳永逸的解决方案?本文尝试解答这些问题。

如果抛开所有灰色的因素,广告追求的唯一效果应该就是找到对的人。作为广告三要素(广告位置、创意、受众)中唯一不能事先确定的要素,人(即受众)变幻莫测,让无数广告人茶饭不香,彻夜难眠。

我们用尽一切手段找到对的人,例如,电视广告的露出非常讲究不同频道、节目和时点对于人群的覆盖;楼宇广告与楼盘和地理位置相关联,以便厘清不同人群的购买力;杂志上的广告则跟杂志对应的行业主题紧紧相连。这是不需要解释的逻辑。但是到了互联网上,这个逻辑面临挑战,因为互联网这个虚拟的世界与现实世界相比,实在是大大不同。

这个不同在于,与传统世界相比,互联网是一个更能够“监视”每一个人的地方。每一个人,他在互联网(无论是桌面还是移动端)上的很多痕迹都会被各种或明或暗的机构或个人记录存储,然后被用于各种其他的目的。这些痕迹是什么?后面会仔细介绍。

这些目的中最重要的之一是用于广告,既然我们能够监视个体,理论上我们就能知道他(或她)是谁,然后判断他是不是“对的人”,如果是,我们就会在他下一次出现在网络世界中的时候,让我们的广告出现在他眼前,或是直接“骚扰”他。这种方法的效果比传统广告投放的效果肯定会好太多。TV-audience

因此,互联网上的广告投放可以脱离于广告载体本身,而直接针对每一个具体的人。传统广告,是先考虑广告载体(电视频道或节目、杂志内容、地址或楼盘等)来反推受众大概是什么类型的人,然后放一个大家看到的都一模一样的广告(而且载体的物理条件也已经限制了,不可能让每个人看到的广告不一样);互联网广告则完全可以通过你在互联网上的多种痕迹知道你是什么样的人,广告的内容和创意可以根据你的具体情况来进行安排,而不需要根据网站上的内容(或在手机APP的类型)来放一个所有来这个网站的人都看到的一模一样的广告。

这个逻辑简单而诱人,而且已经几乎是彻底的改变了互联网广告的版图。如果你足够细心,你会发现现在互联网上很多广告跟你在网上的某些行为发生了关联,例如你浏览了某宝商品之后,会发现很多页面都有类似商品的广告出现了。几乎所有的传统互联网广告公司都将自己拥有准确的人群定向能力作为卖点,以强化人们对其效果的信心。基于互联网网民个人信息识别进行针对性广告投放的专门公司也突然激增,到2015年有近百家出现。专门“监视”并且描绘互联网每个个人的第三方公司也开始出现,2015年也超过十家,且增速迅猛。运营商、互联网巨头也开始对外界提供部分的他们自有的用户数据。而对互联网世界中不同人群进行类型识别和描绘的工作,也有了更简洁的说法——人群画像,或是用户画像。

data-apparel-vendors

人群画像突然成为互联网营销不可或缺的金字招牌。这个金字招牌的究竟是什么?与之相关的说法,哪些可靠,哪些不靠谱?我希望在一系列文章中把这些问题弄清楚。

人群画像的经典构成要素

人群画像从字面理解,是把人群的情况用数据的方式描绘出来。人群画像和个体画像并不完全相同。千万不要混为一谈。

给个体画像,指描述不同个人的过程。在广告行业中,描述个体所用的方法被称为“打标签”,和电子商务中给商品打标签很类似——商品上的标签包含商品唯一的身份识别SKU,以及名称、价格、产地、生产日期、保质期、原材料等信息。而给个人打标签,也是把这个人的信息以标准化的方式组织存储起来,并附着在这个人的唯一身份标识上。这里多说一句,互联网上对于人的唯一身份标记手段包括cookie(主要是PC端),或者是IMEI、IDFA等(主要是移动端)。如果一个人在互联网世界中没有一个唯一身份标识,那么对这个人的画像就无从谈起,因为谁知道谁是谁?所以,人群画像的最基本前提是对人的唯一身份的标记。

人群画像与个体画像有强关联,人群画像必须基于对个体的画像,但却高于个体的画像,体现为人群作为一个集群的整体特征。人群是个体的集合,对什么人群进行画像是根据广告营销的目标受众(target audience)或者细分目标受众(audience segmentation)为对象进行的。例如,iPod生产商的人群画像显然是针对听音乐感兴趣的人,NB运动鞋厂则想对运动时尚人群画像。

人群画像与个体画像相似之处在于,两者都是对人的描述。但人群的描述需要归纳人群所呈现出的共性,而非多样性特征。可是,就像没有任何两个人是一模一样的,对个体的画像也不可能一样,当每个不同的人集合成群体,就需要用一定的方法寻找他们的共性,并构建这些共性与营销策略上的逻辑相关性。

人群画像的经典构成要素,也就由此产生。它包括三个非常关键的组成部分:个体的标识,个体的画像(即打标签)以及对人群共性的抽象。第一个是一切的前提,第二个是基础,第三个是对前者的组合、抽象、分析和加以利用。

structure-of-profiling

下面及后续的文章我们将逐一详细看看这三个组成部分究竟有何玄机。

唯一身份标识

在互联网世界中匿名“旅行”是一个人的基本权利(至少部分是),这给追踪一个人的行动带来了麻烦。既然不能实名,那么我们至少要给他们起一个名字。

这个名字跟真实世界中的名字很不同。首先,这个名字是一串没有什么意义的随机字符,其次,这个名字的存在可能连当事人自己都不知道。

比如说,你去了一个网站,管你注册登录与否,这个网站都会给你安一个名字,当你下次来的时候,哪怕你继续不登录,这个网站也会知道你来了。这个东西太普遍了,以至于现在几乎所有的网站都使用这个东西,它的名字叫cookie。

即使是同一个人,每个网站也都给这个人不同的cookie命名,这很容易理解,因为每个网站有自己的命名规则。所以,唯一身份标识是相对的,对于同一个网站,不同的人,应该有唯一的识别,但这个人去了别的网站,理论上就是别人的事情了,这个人会被别的网站起上别的cookie命名,而且是其他网站根本无从知晓的。这就引起了一些问题,我们下面不久就会讲。

随着移动端的发展,唯一身份标识用cookie就不好用了,因为移动端上APP用量巨大,而cookie必须随着网站存在,APP没有这东西。不过,没有cookie没关系,移动端有别的东西来标识人。在移动端,唯一身份标识最常用的是手机的IMEI号码,或者IDFA(苹果手机对人的识别号),或者其他很多别的ID。各种ID中的一些类别,理论上具有与手机硬件捆绑的唯一性(手机不同,号码不同,而且手机不变,号码不变),比如前面的IMEI和IDFA(IMEI和IDFA实际上都可以被修改,但可以认为很接近与手机绑定),不会根据手机中装的APP或者上的网站的不同而发生变化,因此这类识别号比cookie看起来更好。

imei_meid

那么,现实世界中,这些唯一身份标识好用吗?

有人说,现实是个大坑,我很想反驳这个观点,但似乎真实世界真的在强化自己的“大坑”。所谓知易行难,我们知道这些东西好,但未必能用的好。我们继续往下看。

PC上的唯一身份标识

首先看看PC上的cookie。在PC中,每个网站只能建立自己的cookie,那么一个网友到了别的网站去,这个网站就看不到他了。对于网友而言,这个事情很好,他不会担心别人知道了他去了“苍老师”的网站。但是对于做广告的营销人而言,这个可是大大的不好。因为不同网站对人的标识不同,会造成无法追踪一个人浏览不同网站的行为,也就无法判断这个人的喜好是什么,画像的基础也就不存在了。为了解决这个问题,一些广告公司想了一个办法,让在不同的网站上访问的同一个人,享有同一个cookie,这个cookie不属于网站,而属于这个广告公司。简单讲,就是这个广告公司给这个人起了一个名字,然后让这个到哪个网站上,都仍然有这个名字,这时就能判断这个人看了哪些网站了。这种cookie叫做第三方cookie,而最初的那种cookie叫第一方cookie。第三方cookie是个好东西,能够跨越不同的网站识别同一个人。而只有实现了跨越不同的网站识别同一个人,才能给每个个人进行画像的前提。

看起来好像问题解决了,可是,忽然有一天,我们发现cookie这东西越来越不靠谱。原因在于“隐私保护”!人们不喜欢cookie,谁乐意被一个第三方在你不知情的情况下跟踪你的网络行为呢?这个问题,对于第三方cookie尤其如此。因为第一方cookie毕竟只能限制在一个网站内,而第三方cookie则有更大的工作范围。欧洲人抗议最凶,于是欧洲立法要求网站使用cookie时,都要在网站弹出窗口警示访问者,并且要征得用户同意才能保存这个人的cookie。中国虽然没有什么立法,但是老百姓也不知道cookie是干啥的,反正可能有害的那就一定有害,于是很多能够禁用或者清除cookie的浏览器出现了,拥趸众多。Cookie开始越来越不受待见,由于频繁的清除和禁止,标识同一个人的cookie的平均生命周期越来越短,现在只有30天左右,而第三方cookie则更加受到限制,很多连建立的机会都没有。

cookie-retention

有取代cookie的更好的方法吗?在PC端,替代方法有很多,但真正说能取代的,对不起,还真是木有。比如,有人说,用电脑的MAC(网卡硬件编号)来识别就是很好的办法啊!但是这个东西没这么简单,第一,你凭什么技术能识别这个?第二,识别这个是法律禁止的!还有人说,用Flash cookie(Adobe公司Flash的唯一用户识别信息),这个方法还不是照样被浏览器禁用,而且Flash越来越为人所诟病,支持它的网站也在减少。

还有人用另外一种技术方法,似乎可以一定程度上提升cookie的存活期。方法是这样:利用一种被称为“钩子算法”的计算机程序,能够关联同一个人的老cookie(cookie被清除前)和新cookie(老cookie被清除后又被赋予的新cookie,理论上这两个cookie已经完全不同了),从而延续一个cookie的生命周期。不过这个方法的致命性在于精确性,对于数以百万计的cookie而言,每做一次“钩子”勾连都是只有一定的准确性,误判难免发生。即使每一次钩子的准确性都有90%,那么做五次之后,准确率也就不到一半了。

这些方法都不能根本上解决cookie生命周期逐渐变短这个现实。如果只是对互联网用户进行短时间的标识,cookie还是可用的,但越是需要长时间的对于人的识别,cookie的准确性就越低。

所以,PC上的识别,很多人不得已想很多办法去追踪硬件号码,但这个方法是不合法的,而且追踪之后也不能直接用于广告投放上。人群画像,理论上不应该基于PC的硬件识别号。如果这方法不能用,那么只能接受不完美的cookie去进行短期的人群识别使用。

现在,你应该明白,如果有广告商跟你讲,我们持续数月甚至数年积累同一群人PC上的行为数据,本身就是一个不靠谱的忽悠。这方面,只有大的有账号体系的互联网媒体,才做得到。

前一回我们讲了互联网人群画像的构成要素的结构、PC端用户唯一身份识别的理想状况和真正的现实,在这一回中,我们开始讲Mobile端用户和跨终端(跨屏)的唯一身份识别问题,同样是理想和现实并存的故事。:)

Mobile端的唯一身份标识

Mobile上的唯一身份标识看起来比PC上要好,因为谁也不能轻易干掉自己手机的IMEI号码,也没有几个人知道怎么样在苹果手机中清除IDFA。所以在mobile端的唯一身份标识应该既简单又美好。

但其实不然。

Mobile环境的复杂度比PC有过之而无不及。首先,mobile上用户对网站和APP的使用大约各站半壁江山。光这一点就比PC痛苦万分了。但是,为了让你更能够了解mobile上到底发生了什么,我们先假设两种最简单的情况:mobile上只有网站的情况和mobile上支持APP的情况。

假如这个世界上所有的mobile都只支持网站,而不支持APP,那么我们可以基本上把mobile当做PC,用cookie来解决这个问题。不过,就算到了mobile上,cookie本身的短板还是一切照旧。不过,你会说,mobile上不是有IMEI或IDFA号码吗?难道不能弥补cookie的短板吗?可惜的是,mobile上的网站对人的唯一身份标识不能用这些跟手机捆绑的识别号码——无论对网站做何种技术改造,都不能让网站获得这些ID。所以,如果mobile只支持网站,那么你可以认为它就跟前面讲的PC的情况没太多差别。

假设这个世界上所有的mobile都支持APP呢?那会是另外一种景象。前面讲过,APP不能用cookie,但APP的追踪却可以用IMEI或者IDFA等。不过,它们会好用吗?

How-to-Verify-iPhone-IMEI-300x283

先看IMEI,IMEI一定准确吗?如果这个世界上不存在水货机、翻新机,而全部是经过工信部认证批准的通信设备的话,那么IMEI是最靠谱的。但我们在中国,水货泛滥,翻新机也很多,这些来路不明的手机的IMEI就有可能是人为修改的。所以很多手机共用一个IMEI号码,或IMEI号码都是0的情况就很多了。这种情况造成IMEI的唯一身份的识别率未必高于cookie。另外,IMEI是机器硬件的编码,这些硬件编码都涉及到硬件安全性和隐私问题,因此使用它们不能明目张胆。

替代IMEI的方案是一个被称为OpenUDID,这是被各广告平台广泛使用的开源方案,但随着AppStore开始拒绝接受使用UDID的应用,导致OpenUDID无法被不同应用共享相同的值,注定了上面提到的这些ID们不得不退出历史的舞台。

需要提醒的一点是,IMEI这种跟手机硬件绑定的识别符,只能在安卓手机上起效,苹果手机iOS系统通通把它们封锁了,作为唯一身份标识是没指望了,除非是越狱后的iPhone。

不过苹果没有把所有的路都堵绝,它关闭了所有的门,但是“良心发现”(事实上是不得已而为之)开了一个小窗,这个小窗就是IDFA。IDFA是苹果手机独有的用户唯一身份标识ID。这个东西能够实现对APP上用户的唯一标识。我们有救了吗?

IDFA-Evolution

好一点,但是只能用于识别自己开发的APP的唯一用户,别人开发的APP用户的IDFA,你就完全没法知道了。因为IDFA不像前面讲的第三方cookie,可以由一个广告公司所掌握,而IDFA是完全被苹果公司掌握的。进行人群画像的时候,对于用户唯一身份标识的服务商几乎都不是APP开发商,而几乎全部是第三方(广告公司或者第三方数据公司),因此只能通过跟众多APP开发商合作才能获得多个APP中同一个用户的IDFA,也才能给同一个用户进行画像。这基本上不是技术问题,而是纯商业问题了。商业问题的难度在于,跟一家两家合作容易,但是跟一百家两百家合作,而且还是“与虎谋皮”(拿别人这么机密的数据信息),难度太大了。毕竟你不是BAT这样在市场支配地位的厂商。

phone-security 所以,对用户进行画像,安卓手机要好于苹果手机,原因就在于苹果的封闭性,第三方的生存空间很窄小。

上面这些都还不是最麻烦的问题。

工程师们告诉我,移动端最大的麻烦是终端的极端多样性,硬件、操作系统、软件等等,全部是碎片化的,而利用了各种不同的人的标识手段,相互之间也没法互通互联,所以,移动端的唯一身份识真的很难。

可是,这还只是在我们假设的最简单的两种情况下!

现实世界中,mobile既支持网站,又支持APP,同一个人基本上都既会用mobile,又会用APP,我们能够实现跨mobile和APP的唯一用户识别,并在这个基础上做人群画像吗?

技术方法目前没办法。虽然有一些变通的方法,比如设置一个APP和网站通用的ID系统,或者需要同一个用户先用APP,然后又用网站才能实现一个功能什么的,但这些变通的方法只能在很小的局部范围内使用,完全不是通用解决方法。这离我们需要的人群画像的对所有网民的唯一身份标识还相距甚远。

所以,移动端同样不存在准确的唯一身份标识,这意味着我们并不拥有全局性的上帝视角,无法记录任一用户使用mobile上的全部网站和APP的相关信息,或者退一步,不说全部,想知道大部分网站和APP的相关信息都很难获得。甚至,即使是仅仅想知道这些网站的URL和APP的名字都不那么可能。

跨设备的唯一身份识别

终于讲到了跨设备的唯一身份识别,估计你已经等不及了。这个领域可是曾经被热炒过一阵,但用在人群画像中似乎并没有听闻什么案例,后来似乎有些“不了了之”。原因何在?

原来,既然在一个mobile设备内,想要实现一个人在同一个设备上跨APP和网站的识别都没有全局性的通用解决方案,那么一个人使用多个设备就更没有全局解决方案了。你早上用手机、中午用PC、晚上用iPad访问互联网,然后让一个广告商(或者一个第三方服务商)知道是同一个人在使用这些设备,难,真是太难了。

rohit-cross-devices-infographic

部分互联网服务提供商(过去它们常常是一些媒体)具有跨设备唯一身份识别能力,比如,它们拥有强账号体系。所谓强账号体系,是指无论你在PC上还是手机上使用它们的服务或内容的时候,都需要登录自己的账号。这意味着它们“先天”就能知道你是同一个人。

另外还有一些服务商,它们可以通过判断不同设备经常同时出现在某一个IP号段的现象来判断这些设备是不是属于同一个人。这个方法很可行,因为无论是APP还是网站,获取设备所处的IP的难度并不大,这样就可以在没有强账号体系的情况下,判断这些设备是否属于同一个人了。如果算法得到,数据也充分,这种方法的识别率随时间流逝,可以变得相当精准。当然,我指的相当精准是能够有超过30%的识别率,80%以上,利用这种方法基本上不太可能。

如果没有强账号,也没有技术方法,那么最后一种跨设备的唯一身份识别就是通过一些营销手段来实现。比如,要在手机上扫码(比如获得优惠券),然后在PC上实现某个功能什么的(比如完成购物)。这听起来够折腾的,但是确实比完全没辙强。当然,这种跨设备的唯一身份识别的范围那就是极小极小了,因此不具备人群画像所需要具备的普遍性。

device.hop_.illustration

但问题在于,如果你希望得到某个人(或者是某群人)的画像,你不太可能只依靠某一个互联网服务提供商就能完成。因为这个人(或者这群人)的互联网使用行为一定不会囿于这一个服务提供商的范围内,而是遍际于互联网的各处——他们一会儿用百度搜索点什么,一会儿用腾讯QQ聊聊天,一会儿用淘宝买点东西——没有任何第三方可以同时获得同一个用户在不同设备上使用各种互联网服务的数据。即使可能,难度也极端巨大。

所以,我们希望的用全网用户数据来给人群画像那根本不可能,所有的人群画像,都只能基于局部的数据。而实现跨设备识别唯一身份,除了少数服务商之外,基本上都只能停留在口头上。这跟数据处理能力,或者什么大数据毛线关系都没有,再牛逼的数据能力也没用,这就是现实世界的事实。

好了,下面我自己总结了一下PC和Mobile端各种用户身份识别方式的优缺点,并不定量,所以仅大家参考:

各种方式识别唯一身份的优点:

ID-pros

点击上图看大图

各种方式识别唯一身份的缺点:

ID-cons

点击上图看大图

在下一回中,我们将继续互联网营销人群画像的探索。下一步,将针对人群画像的第二个构成要素——“个体画像的标签”进行深入探讨。敬请期待!