魏小河
对
Big Data
的书评
发表时间:2013-07-14 22:07:57
2008年,谷歌推出了一个用于预警流感的即时网络服务“谷歌流感趋势”,该系统几乎可以准确的预测超过25个国家的流感趋势。
这听起来不可思议,但已经确实发生。谷歌并不知道为什么某地会发生流感,但通过对比特定检索词条(比如“咳嗽该注意什么”、“发烧用什么药”等)的使用频率和流感在时间和空间上的数据,可以判断这些人是否患上了流感,并对流感趋势进行预测。
因为不用进行相关的线下数据搜集,谷歌有着更强的“时效性”,在2009年H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效更及时的指示标。
谷歌的流感趋势服务即是一种典型的大数据应用,舍恩伯格在《大数据时代》首先介绍了这个事例,以此展开大数据带来的一系列改变。
大数据的“大”是大数据应用的基础,只有掌握近乎于全的数据,大数据应用才成为可能。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源才足以支撑和帮助它完成这项工作。
而谷歌能够拥有保存和分析如此庞大的数据,在以前也是不能想象的,舍恩伯格在《删除》中追溯了这种改变得以发生的原因:
1、广泛的信息数字化,越来越多的信息被转化为一种常见的二进制代码,复制和传播变得轻易而无成本;2、廉价的存储技术,保存数字信息已经变得可以负担;3、简洁的提取工具,使得我们能够史无前例的利用我们巨大的数字信息资源;4、全球性的网络覆盖。
正是有了廉价的存储技术,谷歌的庞大数据才可以保存;正是因为谷歌的全球覆盖性,才使得它可以预测超过25个国家的流感趋势;正是因为处理信息能力的提升,才使得谷歌能够在浩瀚如海的数据中挖掘出有价值的信息。
随着这些技术的进步,大数据时代正式来临。
舍恩伯格认为,大数据应用有三个显著的特征:
一.不是随机样本而是全体数据
在过去,人们没有办法获取近乎于全的数据,只有通过随机采样来进行统计分析,在实践中,人们发现随机性越高,就越能得到准确的结果。但是,虽然随机采样给现代社会带来了巨大的好处,它本身却也存在一些固有的缺陷,比如随机的控制性差,耗时耗力等。而在信息大量数字化的今天,获得足够大的数据样本成为了可能,谷歌就是一个极好的证明。
二.不是精确而是混杂
在小数据时代,随机抽样是统计数据分析的最佳方法,正是由于这种方法的限制,对于精确性的要求就相当高,因为样本可能代表比它大上十倍百倍千倍万倍的整体,即使细小的偏差,也会对结果造成很大影响。
而在如今,图书馆分类法已经有点不能适应如此庞杂的数据,互联网上兴起的标签带来了一种前所未有的混乱和随意的分类法,在这种方法面前,精确已经不那么重要,因为大量的数据弥补了其中的不足。就像随机在采样中的重要性一样,在大数据中,混乱也是一个不应该避免的途径。
三.不是因果关系而是相关关系。
在传统的观念中,找到事物背后的原因是十分重要的,世界万物,都维系在因果之间,但大数据时代却不再看重因果关系,而着重捕捉相关关系。
亚马逊的推荐算法能够通过消费者的历史记录来推荐相应的商品,而往往,这些商品确实是你所感兴趣的。亚马逊并不知道你为什么会感兴趣,仅仅是在概率上,你所看过或买过的商品与它推荐的商品存在着很高的相关性,买了这件商品的人百分之多少也买了那件,掌握了这种关系,即使不知道你为什么喜欢,也能增加它的销售量,获得利益。
没错,追求相关性而放弃因果关系,多少是以商业利益至上的思考方向,因为利益驱动,能够获得结果就行,不必要对过程做全面的了解,这某种程度上有点像动物的条件反射,一只狗并不知道一响铃就有饭吃是为什么,但只要掌握了这种相关性,它就可以掌握它的食物了,对它来说这就够了。
对于这种侧重点的转移,本书的翻译周涛先生并不支持,他甚至认为,“放弃因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落”。
无论如何,大数据带来的思维方式的转变,给整个世界都带来了新的机会,而这些机会首先体现在商业上。这本书,重点除了阐明什么是大数据之外,在商业上如何应用也是另一个重点。
当然,不仅仅是商业上带来的改变,大数据的来临,同时也带来种种威胁,隐私的无法保障,数据独裁,过分的仰仗数据而忽视人的主观能动性。
无数的可能性正在前面,无论是危机还是惊喜,都等着我们。