大数据是近些年炒的比较火的一个概念,跟云计算这样的概念一起,被看作是下一场信息变革的中坚力量。维克托•迈尔•舍恩伯格的这本《大数据时代》是比较推荐的理解大数据的著作,读了下来,确实也感觉受益良深。维克托把大数据的影响分作了三个不同的层面来谈,分别是思维变革、商业变革和管理变革。总体上来说,基本同意作者对大数据带来的对商业和管理上面的变革的看法,但对于思维变革,有些不同的见解。
作者认为,大数据带来的思维变革有三个方面,一是大量数据的获得使得我们在很多问题上能够做到“样本=总体”,也就是我们能够得到所有的相关数据;一是说大数据允许不精确;最后是说大数据使得人们探索世界的方式从因果关系转为相关关系。
先说“样本=总体”。如果是谈一个确定的总体,数据获取的多了当然是有可能得到所有的个体的信息。比如要统计全英国2012年Boxing day的购物情况,如果想象能够把所有的每笔交易都记录下来,那这个大数据集确实是可以包含总体的全部信息。然而问题是,我们谈论大数据的用处,讲的应该是它的预测能力,感兴趣的问题会是预测2013年的购物情况,而不是已经过去的2012年。那么,要进行预测,我们所面对的实际上是一个随机过程(假设2013年的购物预测是基于以前的购物情况来的),而不是一个简单的确定性的统计。即便我们拥有所有的2013年以前的Boxing day购物情况的大数据集,从统计学来来讲,这也不过是我们考虑的这个随机过程的一个特定实现,远远谈不上总体--事实上,当我们谈论预测的时候,在数学的意义上谈论“样本=总体”是毫无意义的。
至于说大数据的简单算法比小数据的复杂算法更有效,这在统计上并无新意--只要是大数据比小数据多出的那些还是主要的反应了所考查的问题的特性而不是噪声。大数据所面对的问题,往往是复杂的、很难分清主次影响因素的问题;小量的样本可能确实无力反映总体的特性,所以大数据自然有用--即便这些数据中也不可避免的混有噪声(当然,我们要确保数据的主体是有用的)。
因果关系和相关关系之争,可能更是很多读者难以认同的地方--本书的译者周涛教授也是如此。作者讲,从大数据可以得出很多的相关关系,这些相关关系对于预测就已经足够,我们无需再去太关心习以为常的因果关系了。比如说,统计数据说在纸尿裤旁边摆上啤酒会促进啤酒的销量,那么就照着这个相关关系去做好了,不需要关心这里面有什么特别的因果关系。如果作者不把这一点说的太过绝对,那还是相当有见地的--至少在很多的商业领域,统计数据得来的相关性分析已经足够用来做商业决策了。但是凡事都不能太过绝对,在很多的领域里,因果关系而不是相关关系更是我们关注的重点。比如在几乎所有的工程设计领域,我们显然的是需要很精确的知道每一个部件对最终的系统性能有怎样的影响才能更好的进行设计。生物学的发展也印证了这一点。在数据获取和分析比较困难的时候,只有传统的生物学家在做生物学的研究,他们一辈子关注的可能只是某一个很具体的生物体。随着生物技术和计算技术的发展,大量的生物数据的获取吸引了统计学家的加入。他们未必懂得具体的生物问题,但却可以通过对生物数据进行相关性分析得到很多建设性的新见解。这促成了一个新的“生物信息学”学科的诞生。但生物信息学的研究,本质上只能得到比如“癌症跟哪个基因有关‘这样的相关性结论,但这样的相关性结论并不能去回答这样的问题:1.这个基因确实影响癌症的发生吗?2.是因为这个基因的变化影响了癌症的变化还是癌症的变化影响了这个基因的变化?然而后面的这些问题更有着本质的重要性。为了解决这些问题,我们才必须要追求因果性的理论研究,也就是”系统生物学“的必要性。进而,也只有理解了生物系统里面的因果性,才能进一步的考虑设计人工生物体,即合成生物学,而这个只靠“癌症与哪个基因相关”这样的相关性知识是不可能实现的。
虽说作者在谈到大数据带来的思维变革的时候有些极端,但我想作者本意里可能倒并不如此,只不过是有些为了写书的噱头需要,总是要提一些惊世骇俗的观点才能更吸引人的注意力。比如在后面谈到大数据的管理变革的时候,作者实际上更为平和的谈到了大数据的相关关系,也还是有弊端不能包揽一切的。
本书更有价值的部分应该是在大数据的商业变革方面。作者提出大数据的商业运用包含了三个方面:数据的获取和存储、数据的技术处理手段和创新运用数据的新思维。大致来说,数据获取和存储是政府和大公司等的特权;数据的技术处理是普通码农的谋生手段;创新运用数据是大数据带来的利润点所在。这里面,如何创新的利用数据是大多数人关注的重点,我们也已经从中受益良多。有很多我们以前可能从未想过的互联网应用都是拜大数据的应用所赐。所以,也难怪,大大小小的互联网公司都极力去争取多得到些用户数据。像google这样原先专注搜索和软件的公司也开始在硬件上发力,既有智能手机、平板还有基于Chrome OS的chromebook(本文写作于chromebook,汗一个),其最大的用意恐怕也并不是为了卖硬件赚钱,而是希望掐住用户登入互联网的入口。它可以极廉价的提供给你硬件,然后让你在心满意足的时候使用它的软件服务让渡你自己的用户数据,它再用这些数据或者进行针对性的广告展示,或者用来改进自己的各种软件算法,或者出售这些数据给其他人商用开发,或者自己从这些数据中深度分析并出卖咨询意见,可以赚钱的法子这么多,而对于普通用户来讲,你用了它的mail,maps, docs, youtube, google+...而无需付一分钱。这个聪明至极的商业模式实在让人拍案叫绝。
不过,既然我们知道有了大量的数据后能做些什么(或者,还不能够预料还会有什么样的潜力),那么,题外话就是,咱们政府跟facebook、twitter、google等合不来很可以理解--因为,如果允许他们存在的话,那么facebook就会知道中国人的社交模式,twitter就会知道中国人的情感模式,而google--就会知道中国人的一切---这不乱了套了么。