您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

Target超市预测女孩怀孕:“大数据”智慧,还是愚蠢?

发布时间:2016-11-14

2012年2月16日,《纽约时报》刊登了Charles Duhigg撰写的一篇题为《这些公司是如何知道您的秘密的》(How Companies Learn Your Secrets)的报道。文中介绍了这样一个故事:

一天,一位男性顾客怒气冲冲地来到一家折扣连锁店Target(中文常译作“塔吉特”,为仅次于沃尔玛的全美第二大零售商),向经理投诉,因为该店竟然给他还在读高中的的女儿,邮寄婴儿服装和孕妇服装的优惠券。
但随后,这位父亲与女儿进一步沟通发现,自己女儿真的已经怀孕了。于是致电Target道歉,说他误解商店了,女儿的预产期是8月份。

一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?这里就需要用到“关联规则+预测推荐”技术。

事实上,每位顾客初次到Target刷卡消费时,都会自动获得一个唯一顾客识别编号(ID)。以后,顾客再次光临Target消费时,计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料,Target便能形成一个庞大数据库,运用于分析顾客的喜好与需求。

有了数据,特别是有了“大”容量的数据,后面的问题就简单了。Target的数据分析师,开发了很多预测模型,其中怀孕预测模型(pregnancy-prediction model)就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品,就预测到了这为女顾客可能怀孕了,而怀孕了,未来就有可能需要购置婴儿服装和孕妇服装,多么贴心的商店啊。但是需要我们注意的是:

1.这是“大”数据的傲慢,而非聪慧。

由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿,因此,这个故事往往被用来作为“数据比人更了解人”的证明,并在当下,被用来论证大数据的功力。国内有的新闻媒体,对大数据的理解似是而非,针对这个案例的报道标题就是《大数据的功力:比父亲更了解女儿冲击大卖场》【16】。大数据的无所不能的“傲慢”,跃然纸上。

或许“旁观者清”,信息领域外的上海金融与法律研究院研究员刘元举认为,这案例并不能说明,数据比人更“聪慧”,更了解人,恰好相反,这证明计算机是“愚蠢的”:还在读高中的女儿,显然想保护自己的隐私,并不想父亲知道,但“愚蠢的”计算机却自作主张,把孕妇优惠卷寄寄到了她家里,结果被爸爸逮个正着。

这正是(大)数据的另一种傲慢——好像有了(大)数据,就可以“君临天下”,对顾客的理解就可做到出神入化,对顾客的隐私就可以肆无忌惮。

2.这并非大数据的案例

进一步分析,我们可以发现,实际上这个例子并不属于大数据的案例,它不需要太强的计算能力,甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲,其实是不恰当的。

大数据一般要具备典型的4个V特征,Target收集的消费数据属于典型的结构化数据,即使数量再大,也仅仅满足4V特征之一——Volume(体积大)。但是,“数据大”不等于“大数据”。如果光拼体积“大”,那么早在20年前,天文、物理和生物信息学的数据,也够得上是“大数据”了。《纽约时报》的原文,非常“厚道”,通篇没有提及“big data(大数据)”字样。

3.更重要的是,这个神奇的数据预测故事被人为地灌入了很多“心灵鸡汤”。

数据挖掘界的数据分析师、咨询师们有时候同样也需要“心灵鸡汤”,励志自己,忽悠客户。对此,美国纽约大学统计学教授Kaiser Fung认为[3],很多人在看到这个故事时,都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人,都是孕妇。但这是不可能的!更为实际的情况是,孕妇之所以能收到这些购物券,是因为Target给非常多客户都邮寄了这种购物券。在众多客户中,碰巧有那么一位高中女生“不太可能但却又真地”怀孕了,碰巧那位父亲发现并投诉了,碰巧那位父亲发现自己错了并道歉了,这么多巧合,“无巧不成书”。因为极具有故事性,所以大家都爱听。

各位读者在相信Target这类读心术般的故事之前,首先应该先想想,这类商家的预测命中率到底有多高。这里并不说,数据分析一无是处,相反,数据分析极具商业价值,即使能够把“直邮(Direct Mail,DM)”的准确度提高一点点,哪怕是1%,对商家而言,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。

商家能够提供个性化服务,确实很贴心,但倘若在利益的趋势下,商家对顾客的个性化信息运用不当或越界,就会给顾客带来不能承受的隐私之痛。