吐槽大数据
2014-03-07
大数据这个概念现在可说是红得发紫,有谣传说连中央的大领导们都上了大数据的贼船,寻思着要从维克托•迈尔•舍恩伯格的《大数据时代》中学习如何治国理政。
笔者却对大数据充满了吐槽的欲望,部分是因为笔者曾经遇到过一位大数据的狂热鼓吹者,名言是“是不是科学就看有没有大数据,有大数据就是科学,没有大数据就不是科学,”以及“我觉得宇宙应该是什么什么样的,这样比较符合我的审美。”笔者觉得此人实在是个妄人,手里有把锤子就把一切都当成钉子……
笔者也读过维克托•迈尔•舍恩伯格的《大数据时代》,也并不认为大数据全都是胡扯——大数据肯定是有用的,不过有些鼓吹者恐怕吹得有点过了。而且,大数据还是个出现没两年的新领域,今天认为确凿无疑的东西明天也许就会被发现是错误的。
笔者也读过一些吐槽大数据的文章,比如纽约时报专栏作者大卫•布鲁克斯(David Brooks)的《大数据不能做什么?》大卫•布鲁克斯说,大数据不懂社交。数据分析擅长于分析社会关系的数量而非质量。社交网络的数据科学家可以分辨出6个你的同事,你一天中有76%的时间会见他们。而却很难发现你一个一年只见两次面的童年伙伴。更别说发现像但丁对贝特丽丝的爱情那样,只见过两次面就深爱上对方的情况了。这说明并非所有的信息都能被大数据所利用。大数据会忽略很多信息,有时还是十分重要的信息。
与之类似的是,大数据不懂得背景。我们说一句话究竟是认真的还是开玩笑,是为了表达愤怒还是善意,这些都要放在复杂的背景中来理解,数据分析很难搞清楚这些。
第三,大数据会带来大量毫无意义的伪相关。有人说,现有的数据,多的可以让你想要分析出什么结果,就能分析出什么结果。想像一下,如果领导们发现冰激凌的销量和群体性事件的数量呈正相关会怎么样?随着数据的增长,这种伪相关将呈指数级增长。
第四,大数据不能处理真正的大问题。大卫•布鲁克斯说,如果你想看一下哪些邮件对推广活动最有效,你可以进行随机抽取对比组样本。进行比较。可是,如果我们想模拟一个衰退期的经济体。我们没办法去找这样的一个对比组。我们经常会看到人们争论什么是最好的经济刺激政策。而我从来没有看到争论的双方能够用数据分析说服另外一方的。而治理国家所面对的恰恰是这些大问题。另一方面,大数据也不擅长预测小概率事件,像预测什么时候会发生地震,什么时候会发生恐怖袭击,什么时候会发生革命这种事,数据分析是无能为力的。
第五,数据偏爱潮流,忽视创新——这对领导们来说倒是无所谓的,因为领导们本来就不想要创新。创新对官僚体制来说是件很糟糕的事,有创造力的官僚体制往往会把自己搞垮掉。
最后,原始数据其实并不原始,原始数据往往会被扭曲。对领导们来说,他们所面对的一大问题就是:他们不可能一边封网一边还能收集到真实客观的原始数据。封网和收集真实数据是彼此矛盾的。封网本来是想欺骗别人,最后却可能只是骗了自己。
上面是大卫•布鲁克斯的吐槽和笔者的评论。笔者也有自己的话要说,主要是关于大数据中不管因果只看相关的数据分析方法。
《大数据时代》说,我们知道什么药能治什么病就足够了,不必知道为什么。从这句话中,我们可以看出该书的作者对因果关系的理解有误:统计学上说知道因果关系是指我们高度确定(>95%)某一件事导致了另一件事的发生,而不是说我们知道这种关系背后的原理。换句话说,我们说某药能治某病,这本身就是一种因果关系,无论我们是否知道治病的原理。如果二者之间只有相关关系,我们恐怕就只能说些类似“某种药物的摄入量与某种疾病的发病率之间存在负相关”的话。
因果关系还是相关关系,对我们来说有什么区别吗?区别就在于如果我们只知道两组数据(例如冰激凌销量和群体性事件数量)之间存在相关,那么我们或许可以利用这种相关(例如一旦发生群体性事件就赶紧推车上街卖冰激凌),但是如果想要改变现状,恐怕还是需要知道因果关系才行(禁止冰激凌就能够把群体性事件消灭在萌芽状态吗?谁知道?!只知道相关关系并不能保证这一点)。企业一般只需做到前者就能赚到钱,可是想要管理社会的话,只知道相关大概是不够的。
说到底,大数据是一座矿山,我们能够从中挖到些什么东西是不确定的。对企业来说,只要挖到了东西,赚到了钱,它们也就满意了;如果什么都挖不到,它们也只能怪自己运气不好。但是如果政府想要大数据给它提供“不发生任何意外事件”的安全保证,那么这种保证恐怕是大数据无法提供的。另一方面,大数据也解决不了官僚体制内部沟通不畅、派系斗争和动机缺乏等等问题。
最根本的问题恐怕还在于政府的脆弱性:政府想要稳定,因为变化几乎肯定会对它有害;而市场拥抱变化,因为它总是能够从变化中获益。这两种不同的心态或许决定了数据所能给它们带来的意义。