有关大数据的一些想法_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 科技 > Big Data > 有关大数据的一些想法
锅巴肉片 Big Data 的书评 发表时间:2014-06-16 22:06:12

有关大数据的一些想法

先有“信息时代”,再到如今的“大数据时代”,技术的更新迭代之快,让我们完全晃不过这个“时代变迁”的神来。

记得读过一部经典的科幻小说《基地》(作者是阿西莫夫),里面就是一个社会科学家,用数学预测了人类的发展,这种预测后来由于一个变异人的出现,出现了偏差等等。我想这个故事就是对大数据时代的一种最好的预言,基于数学的预测需要庞大的数据来支撑(亿万的人类),而不能预测小数据(那一个变种人)。

那么如此红火的“大数据”到底是什么?作者在书中给出了明确的解释:大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。就是说,以前我们使用数据时,由于各种原因(数据来源有限,计算能力有限,方法落后等),我们仅仅是取这些数据的一部分(抽样)来使用,而如今,我们可以抛弃抽样,而直接使用所有的数据。

这样做好么?我想这是显而易见的。数据量越少,对随机性的要求就越高,而某种偏差(或是噪声等)会在小数据中被放大。另外,小数据中如果我们再去考虑子类,那么子类的数据将会更加少,准确率更低。

这样做可行么?理论上可行,实际上不一定,甚至是不那么有意义。这里我与书中的一些看法不同,首先,很多计算依然是庞大的,即便如今的高性能计算机,各种技术的辅助,对于很多复杂的计算依然是望尘莫及。另外,我们也许用一亿比数据就能预测出很好的结果,又何必去拿十亿比数据去计算,又浪费时间(等于浪费金钱),可行性差,而准确率的提高又不会很显著。

另外一点,作者指出在大数据时代,知道“是什么”就够了,没必要知道“为什么”。比如产品A卖的好,同时产品B的销量也会上升,那我们就把A和B放在一起卖,自然两者销量水涨船高,根本不需要知道是什么原因导致的A和B的销量上升。乍看起来确实很美好,因为因果关系本就难以分析与确定,我们通过结果来进行变化,只考虑关联性,这确确实实是个省力且讨好的做法。这里我又要引述另一个故事(这篇故事来自《这是个什么样的世界》王文方著),说有这么一个火星人阿布来到地球,它发现站在门前不用有手推门就会打开,它想到了类似的阿里巴巴的故事,于是它到每一扇就喊“阿里巴巴”,门就会应声而开。后来,阿布回到火星,写下如此的报告:根据我多次试验的结果,我确定,我每一次喊出“芝麻开门”是门打开的一个原因。其实,那仅仅是因为门是感应开关的。不要觉得阿布愚蠢,我们实际上经常在犯这样的错误。也许你会说,阿布的实验数量还不够,如果是“大数据”就不会发生这样的事情。也许你是对的(也许未来所有的门都是感应的),但这并不是我想说的,我想说,这种看似因果或是关联的关系,实际上都经不起推敲,要不了多久,问题就会出现,而我们却往往不能发掘错误出现的原因(试想,连因果关系我们都不清楚,错误的出现就更难说了)。

数据的价值发生了根本的改变,从基本用途转变为二级用途,或者叫“潜在用途”,而随着技术的发展,分析技术的门槛越来越低,拥有数据的公司地位将越来越高。时代的变化也带来了巨大的隐患,例如隐私,例如数据公司的垄断,例如通过数据对人的行为作出预测并做出相应的回应(预测犯罪)等等。

对于这样一个变化迅速的时代,任谁也无法预测未来(否则那就不是未来了),即便使用大数据也是如此。种种好处随之而来,种种隐患也已种下,对于“大数据”时代的优与劣的评价还为时尚早,如何让“大数据”健康的发展,我想这终归是任重而道远的。

展开全文


推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读