2010 年 11 月至 2013 年 2 月,有关“大数据”的搜索量猛增 29 倍。假设大数据是一个国家,其面积随着谷歌搜索量递增而扩大,那么 2010 年它是英国,3 年后,就赶上澳大利亚了。 “大数据”是个热门话题,但是,它到底意味着什么呢?这个问题的答案取决于营销者是谁,营销目的是什么,结果可能会千差万别。几年前,这个短语指的是一个巨大的数据集,而数据所有者或许无法从中得出任何有意义的结论。当时的所谓“大数据” ,只不过是一个委婉表述,实则是一堆松散而不具操作性的信息碎片,它们存在于服务器中,或者可能是写在纸上的密密麻麻的一团,这更糟糕。这一巨大表象,使得数据表里的信息几乎没有任何价值。而如今,随便去一个 IT会议现场看看,就会发现大量商户看中你的数据,急于开展合作,迫不及待地把闪存盘塞进你的口袋。现在,大企业和政府都需要源源不断的大数据。 2012 年 2 月 16 日,查尔斯•杜希格在《纽约时报》上发表了一篇文章。自此, “大数据”迎来了重大变革。文章主要讲述了零售连锁店塔吉特(Target)利用上百万的交易记录(及其婴儿产品用户注册信息)推论,那些购买无香型婴儿沐浴露之类产品的消费者可能多数处于怀孕状态。公司根据历史交易数据,给预计正怀孕的消费者发放婴儿用品优惠券。其中一位消费者的父亲看到了大吃一惊,要求公司给个解释,后来却发现,这家掌握着用户购买数据的公司居然发觉了自己女儿的秘密,而她至今还没找到合适机会向父亲说明。这个故事还出现在《科尔伯特报告》 《每日秀》 、大量博客和新闻当中。大数据渐渐地从乏味的商业概念转变为危险的邪恶力量。这是一个由数据建立起来的具有预见性的神秘力量,诸多机构和组织都依靠这一工具对付其他人。2013 年,英国《卫报》揭露美国国家安全局(NSA)具备在很大范围内对公民进行监视的能力,更佐证了上述观点。瞬间,仿佛我们已经处于这样一个时代:我们的设备可以用我们听不到的语言向我们看不见的人报告我们自身的情况。大数据是他们的利器,而不是我们的。我们只是受害者。 有关大数据的这一观点并不完全是“无稽之谈” 。在本书中你将看到,正因为公司具备了新的能力,便更大胆、更迫切地运用它们积累的数据集,从当前客户和未来客户身上榨取更多的经济利益。政府也不例外,用大数据增强自身实力;当然,假如你赞成政府做出的每项决策,这一切也就无所谓了。 还有一种观点认为,大数据只可能是大型机构所掌握的黑暗力量。该观点的可信度不高,因为大数据将得到“提炼” ,甚至浓缩为每个人的手机推送信息。我们对大数据的了解还停留在过去,认为它是强者欺凌弱者的工具。然而,未来的大数据将在你意想不到的程度上,向消费者、激进分子和其他普通人开放。事实上,大数据仅仅是大潮流中的一个小波浪,在这个星球上,人类的生活将从此改变,未来正朝我们走来。 毫不夸张地说,就目前看来,大数据也已经落伍了。基于遥感勘测技术的发展,我们已经跨入了遥感勘测的时代。何谓遥感勘测?“就是将某地测量数据远距离传输后,用于记录或播放的过程或操作。简言之,即通过设备产生并传输测量数据。 ”遥感勘测是实时数据的收集和传输,仿佛感应信息一般。如果你到医院做过心电图或体验过其他连接人体的监控设备,如果你看过自己的心脏搏动,并且知道数据流会传输给大厅里的护士甚至你的主治医生的智能手机上,那么,这就是遥测技术的例证。在可预测性较低的世界中,我们的人性得以进化;而遥测技术的力量和控制面将引领我们走向可预测性更高的世界。在那里,人性将得到成长,同时也接受测试。遥测技术就是现在和赤裸裸的未来的分水岭。 作为某种传感器,相机、话筒体现了电脑程序收集它们自身和我们周围环境信息的一种方式,而且,这些系统的感知能力已经远超我们。我们正在做什么,住在哪里,怎样与各种机构、组织彼此互动,很多活动都是在网上进行的,可以通过遥测技术读取留下的大量线索,查出我们去过哪里、将要去哪里。当你安排了约会并保存在 iPhone 日历上;当你离开家,设置好家用报警器,直接接通市警局;当你激活手机 GPS,刷公交卡进地铁,打卡进办公室,你的踪迹就已然透明化,任何人(任何设备)只要能连接储存数据的服务器和硬盘,就能掌握你的动向。那么,这个行踪档案到底有多大呢?通过使用手机,打开 GPS,发邮件,发推特和脸谱网状态帖,尤其上传或下载电影和音乐,你每年将建立约 180 万兆字节数据,相当于每天塞满 9 个只读光盘。在高度发达的世界中,现代人们的生活普遍用某种设备存储数据,这就是为什么过去 3 年时间内,90% 的数据都会被创建出来。它们大部分都可称为“元数据” 。这些信息是你自己(或你的设备)通过数据往来一点一滴建立的。虽然只有大约 10% 数据会被永久保存,而且对你没有什么直接影响,但是所有数据都会透露有关你的某些信息。而且,数据量正在急剧蹿升。根据科研机构互联网数据中心 (IDC) 的统计,到 2020 年,数据总量将达到 2009 年(8 泽字节)的 44 倍(35 泽字节) 。 安排约会、刷公交卡进地铁、上班打卡——我们以为这些独立的行为只是作为大数据的一部分,不会产生什么实际影响。但试想一下,这些都是传感数据,就像我们感受到针刺或听到某些音符,虽然不是完整的乐曲,但是,这些小小的动作、交易和日常交流也是相互作用的、有节奏的。和大多数人一样,你的生活也会具有惯性;每天同一时间上班,午饭时候逛同样几家店,一成不变的路线回家。如果不断重复,乐曲的旋律也会变得容易预测。随着传感器、地理信息系统、地理定位 APP 的发展,此类旋律将越来多地出现。 或许到目前为止,你还没有听过这样的乐曲。在大数据的当今,某些公司、市场和政府收集了我们元数据的声音。但是,这本书不是写当下场景,而是想表达,在赤裸裸的未来,这首歌会被所有人听到。大量设备和数据服务将进入我们的生活,于是,我们会越来越注意到,自身确实是可预测的。 未来世界中,我们的预测将更准确,涉及更多个人信息,因此,个人生活和公共环境都会发生重大变化。未来众多领域的信息会置于阳光下,确实堪称“赤裸裸的未来” 。