如果你还没有看过这本书,并且对“大数据”带着强烈的兴趣和先天的敏感,那我觉得我有必要给你提个醒,这是一本绝对需要带着批判性眼光来看的书。
作者维克托迈尔在《大数据时代:生活、工作、思维的大变革》讲了大数据时代的三个特征:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这三个方面都需要仔细商榷。
讲大数据时代,那就不得不提到与之对应的“小数据时代”,或者称之为“经典统计时代”。传统统计讲究的是随机性(随机取样)、精确性(对应于0.05的P值分界线)和对因果关系的探究。这样看来,书中所讲的大数据时代是与传统的统计学格格不入的。
如果我们盲目地拥抱了这样一种全体代替样本、混杂代替精确和抛弃追求因果关系的大数据时代,那我们岂不是相当于动摇了以传统统计学为根基的抽样检验、分析、试验以及六西格玛工作方法!乃至动摇了以统计学为基础的现代制造业!
我认为,全体样本性、混杂性和追求相关性是大数据本身的特性,但不应该是也不应该成为身处或者面对大数据时代时我们的态度。以下针对这三个对立面分析。
全体样本VS随机样本
大数据,字面意思,必然是将所有的数据都采集进来,理想情况是其样本就是全体。从本质来讲,就是不用抽样分析法这样的捷径,而是采用所有数据的方法来分析和预测。但是样本就是全体这种理想化情况并不存在,即使拥有海量数据的Google和Twitter,仍旧称不上样本等于全体,因为平台的存在和持续使用,还不断地有数据的收集,这种数据收集本身就是产品功能的一部分,因而相当容易实现,除了云储存外,基本不消耗资源。正因为这种数据采集非常容易,而且是瞬时完成的,才具有了全体样本性。
IT公司的大数据化非常容易,也很有必要,本身即是产品功能的一部分,每个数据的产生都能够收集到平台上。以现在手机APP为例,大量的用户在使用过程中会爆出所有可能存在的问题,就可以很方便地给开发人员反馈bug,这就是一种大数据的胜利。对于传统行业,大数据化是一项耗时耗资的活动,抽样是一种必然,即使某个标准曲线的绘制,都要以多点代替直线的方式。比如采购来了10吨的耐火填料,不可能每一袋都取样检验吧。
混杂性VS精确性
用一句通俗的话来说,大数据是“海纳百川”,小数据是 “精挑细选”。这其实都是各自的特性所决定的。汪洋大海,不会因为容纳了一条臭水沟而浊气熏天,故而更彰显其兼容并包的气度;半亩池塘,如果藏污纳垢,俨然会是另一番情形。
大数据,因为要收集所有可能的情况,所以一些异常点或者误差点会混入到数据中,也就是说,大数据要将所有的小概率下发生的情况也计入;传统统计学则不同了,一组数据中,要根据平均数等指标计算是否存在异常点,如果存在,则要剔除到数据库之外。其实二者的界限并非如此明显,抽样未必就是那样准确的。
因果关系VS相关关系
大数据时代重视相关关系而不是因果关系,我认为这是大数据应用的特点之一,而不是我们的终极目标。大数据的核心是从海量的数据中,通过套用最合适的模型来进行预测。极端一点的例子就是,预测南美洲一只蝴蝶煽动翅膀,会不会导致在西太平洋海岸发生暴风雨台风或者旱灾。但是二者之间存在什么因果,或者是A影响B还是B影响A,大数据说不清楚。有点像知其然不知其所以然。这是要竭力避免的。
但是,利用和大数据特征相悖的经典统计学指导下的实验,我们却可以探究事物间复杂的因果关系,包括相关关系。不是和预测风暴的大数据一样神奇吗?试着想象一下统计学家和大数据专家相遇场景。
本书译者在其序言中引用了Clifford Geertz的话:“努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。”恰如其分,这就是我对“大数据”的态度。序中Susan Langer的那段话同样是对那些盲目唱和者的一个温柔提醒:“每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把几乎所有的东西都挤到了一边。”
在拥抱大数据之前,在这种宏大概念流行之前,先搞好自己的“经典统计小数据”吧。做好数据量化和储备收集,提高数据的可循环利用性,这比你我皆言大数据的蛙声一片要深刻得多。