有了数据,也别忘了理论_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > > Big Data > 有了数据,也别忘了理论
聚丙烯基大冬瓜 Big Data 的书评 发表时间:2013-05-04 15:05:30

有了数据,也别忘了理论

       读这本书前,自己第一次感觉到和“大数据”沾边的东西,是淘宝和支付宝的年终统计,在整体的统计中支付宝连“多少岁的女性喜欢穿什么颜色的内衣”这种看似很隐私的数据都能给出,顿时给人一种在互联网时代光天化日无所遁形的感觉。这就像一张铺天大网,我们每个人作为网的一个末梢源源不断的向中间传递我们方方面面的信息,无数的我们汇总起来就成了大数据。好比在很多不同网站登录网站都会通过cookie里面存储的淘宝浏览数据来为我定向推荐广告。
       书中所涉及的概念很简单,贵在例子详实,诸如谷歌对流感疫情的预测,航海图的绘制,沃尔玛的商品摆放位置等,让我们能实实在在的感受到大数据的威力。
       核心的观点则是以下几个:
       样本趋于整体:
       这个是毋庸置疑的,互联网时代的到来使得各种数据的收集变得轻而易举,计算机技术的发展又让我们能够直接处理这庞大的数据量而不必抽取样本,直接作用于整体的分析显然更为准确。
       大数据对一些行业的挑战:
       诸如亚马逊的书评,还有谷歌和微软的拼写检查技术的对比我们很容易发现,我们没必要掌握高深的专业知识,只要数据量足够大,我们就可以做得足够好。在后面的住房改建的案例中更是如此,连在常人眼中和“数据”最沾边的专家——统计学家,都变得不必要了,因为大数据可以取代统计学家的高深的模型。
       相关性取代因果律:
       用作者的话来说,我们只需要知道“是什么”,而不必去想“为什么”,譬如谷歌对流感疫情的高效预测只是通过相关性分析得到,而没有去研究其中的因果关系。
       诚然在日常生活中,大部分情况下相关性比因果律要更适合运作,因为因果律往往由于人为原因存在偏差,看似合理的解释也往往有我们照顾不到的方面而存在“隐情”。好比我们没必要知道为什么买了纸尿裤的人有很高概率也去买啤酒,知道这个事实并在超市里把这俩摆在一起就是了。
       但作者对相关性的作用看得过高了,而且作者也有些贬低“理论”,因为理论恰恰是因果律的最常见表现形式。大数据可以使得社会得以更高效的运作无可厚非,但我们应该关注社会发展的一个关键层面——创新。
       “致知穷理”是推动人类社会发展和技术创新的关键,对因果律的探寻是人类与生俱来的好奇心。在那些“不那么信息化”的行业,譬如自然科学研究,我们的进步似乎都是“基于已有成熟理论的灵光乍现”而不是“基于庞大样本的分析预测”。举个例子,”巨磁阻“效应的发现使得传统芯片的数据存储密度大幅升级,显然是由于物理学家理论和实验方面的研究所致,没有“理论”所带来的这次升级,我们现在的存储能力会大大降低,“大数据时代”会晚来很多年也说不定。
       最近“反常量子霍尔效应”的发现也是如此,或许又会引发一场信息技术升级,但这种突破则是由于物理学家基于已有理论的预测和实验。
       所以个人认为,大数据带来的对相关性的重视可以使社会更高效的运行,对很多问题提出简单易行的解决方法。但我们也不能因此丧失对因果律的兴趣,因为“创新与发现”这个推动文明前进的原动力还要靠它。

展开全文
有用 0 无用 0

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读