在创造中预测未来——评《大数据时代》_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 科技 > Big Data > 在创造中预测未来——评《大数据时代》
天人合一 Big Data 的书评 发表时间:2015-04-03 21:04:57

在创造中预测未来——评《大数据时代》


尼古拉斯·凯奇主演过一部名叫《预见未来》(Next)的影片,片中男主角能够预测未来2分钟内的人和事,从而根据预测做出最优决策。初看这部影片时,我曾着迷于这种超能力,幻想自己也能拥有这种神奇;可我知道,对绝大多数普通人而言,这不可能。直到最近阅读了一本书,它竟使我重拾这份希冀,它就是《大数据时代》(Big Data)。

该书作者维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberer)被称为大数据领域“最受人尊敬的权威发言人之一”、“最早洞见大数据时代发展趋势的数据科学家之一”。还有人称他为“大数据时代的预言家”——让我不由联想到尼古拉斯·凯奇饰演的电影人物。层层光环似乎都在诱惑读者买下这本书、翻开它、阅读它,但当我跟着作者的娓娓叙述,在大数据蓝色海洋中徜徉一番后,真正熠熠生辉的不再是作者的种种头衔和经历,而是作者说:我们真的可以预见未来!

听起来仿佛科幻,但它不是一本科幻小说,而是一本导论性的科普著作,有科学定义,有详细论述,有生动案例,它很认真地告诉我们:这是真的,而且我们每个人都可能办到。

总的来说,这是一本非常值得读的书,富有启发性,特别适合作为入门“大数据”的第一本书。全书结构严谨,环环相扣,阐述了“大数据”带来的三大变革:思维变革、商业变革、管理变革,比如在思维变革部分,作者向读者释疑究竟何为大数据,并响当当地抛出三条见解:“大数据”使用全体数据而非随机样本、“大数据”容忍数据混杂性而非严格精确、“大数据”重在寻找相关关系而非探究因果关系,并辅以大量真实例子来支持其观点,有理有据,清晰明了,掷地有声。作者不但基于丰富的从业经验和前瞻的洞见能力给出了“大数据”全局观和趋势观,还坦率地表达了“大数据”隐忧,比如“大数据”可能带来的风险、隐私保护、数据独裁危害、责任界定、数据垄断等问题,并给出思考和建议。

本书的译者周涛教授认为,本书有三个优点:一是观点响亮,容易记住;二是观念高屋建瓴,有普适性;三是例子丰富翔实,真实生动。对此我是赞同的。同时,这本书很可亲,作者用一种平易近人的写作风格,把原本深奥的“大数据”课题变得通俗易懂,即使没有计算机或数学等相关专业背景的读者,也能比较轻松地通读,适合各行各业人士阅读。

有些读者觉得此书有瑕疵,围绕作者的观点引起颇多争议。比如:全量数据究竟是指“我们需要的所有数据”还是“我们能收集到的所有数据”?接受数据混杂性是大数据带来的变革吗?因果关系分析真的不重要吗?对此,我认为:观点可以探讨,但瑕不掩瑜。

首先,“大数据”三个字并不等于狭义上的大量数据,它是一个新概念,是一门新学科,是一个涵盖数据、技术和思路的全集。如果用一棵倒立的树来比拟:“大数据”下面涵盖数据、技术、思路三大支,每一支都可以发散出许多分支,由数据可以想到数据来源、数据类型、数据特点等,由技术可以想到数据收集、数据存储、数据处理、数据挖掘分析、结果展示等,由思路可以想到适用行业、应用场景、实现方式等。明白这点,才能站得高、看得远、行得久。

当作者提出大数据时代的第一个转变——从随机抽样到全量数据,他认为“我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样”。很明显,“需要的”和“能收集到的”并不矛盾。事实上,人们很早就都明白,基于数据全量的分析更准确,但统计抽样之所以诞生并被长期广泛使用,是因为数据收集能力、数据处理能力、数据收集与处理成本等因素的限制。如上所述,“大数据”本身并不等于全量数据,但它能使我们更接近全量数据,有时甚至可以达到全量数据。如今,传感器技术能使汽车厂商获得每个驾驶员坐座椅的力度、重量、重心等数据;分布式技术能实现海量数据的迅速处理;这些技术都是“大数据”的组成部分,它们使我们“能收集到的”数据越来越多,从而更好地满足我们做研究时的“需要”。此外,随着“大数据”思路的拓展,我们研究一个问题所“需要的”数据也一定随之拓展,所以全量数据其实是一个无量延展的概念,但无论如何,“大数据”会带我们不断趋近。

其次,接受数据混杂性的确是“大数据”带来的变革,“大数据”对错误数据有较大容错度。对此持否定意见的人们大概是混淆了“错误”和“抽样误差”,以致认为容忍“抽样误差”就是容忍错误数据。实际上,假定有50个顾客,满意的占比30%,如果从中抽取若干随机样本,则样本中满意占比不一定等于30%,这是“抽样误差”,不是错误;但如果有个别顾客不对调查做出回答,这是“未响应误差”;如果个别顾客回答时没说真话,这是“响应误差”;如果统计员在收集顾客反馈时,把满意记录成不满意,这是操作失误。跟“抽样误差”不同,后三种情况都会影响抽样统计对真实情况的反映,是统计人员一直想方设法要避免的;而“大数据”容忍这些错误。此外,数据混杂性还指数据格式的多样性。非关系型数据库允许处理五花八门的数据类型,模式识别技术可以免去清洗数据的麻烦,这些“大数据”技术拥抱了数据混杂性,使我们能够专注于数据背后的真相。

再者,本书并没说因果关系不再重要,而是提醒人们相关关系的重要性。作者认为事物之间的相关关系会给人们提供有价值的观点,在进一步探究因果关系之前,那些观点就已经产生了巨大帮助和价值,以致是否要进一步探究因果或者能否进一步探究出因果已经变得微不足道。实际上,正如作者在“2014浦江创新论坛”上所说的,数据揭示的相关关系是我们观察世界的出发点。不论想不想知道“为什么”(因果),你总得从“是什么”出发。

如果本书真的存在瑕疵,我认为不在上述,而是行文的字里行间也许可以更加言简意赅些。

最后要特别称道的是,在“大数据”热度蒸蒸日上之际,作者中肯地提醒读者要重视“人”的主观能动性,不要过度迷信“大数据”,因为“它告知信息但不解释信息,它指导人们去理解,但有时也会引起误解”。这就像电影《预见未来》里的那句话:“未来有个重要特征,每次当你看着它,它会因你的介入而发生改变,然后其它事情也跟着变了”。毕竟,关键还是在于人、在于人是否正确使用“大数据”。大数据时代,应当铭记“预测未来最好的办法就是创造未来”,只要我们愿意,“我们可以判断出迎接未来的最佳方式,摇身变作未来的主人”。

展开全文
有用 1 无用 0

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“在创造中预测未来——评《大数据时代》”的回应

yang来了 2015-04-04 10:05:09

写的真好,加油