今天看完了舍恩伯格的《大数据时代》。如果抛开对译者的推崇,我会说,这本定价半百的介绍互联网前沿趋势的书籍其含金量并不怎么高,里面的有些例子在我看来也不能完全归于大数据领域。
舍恩伯格提到的三个趋势中的前两个我倒是非常赞同:
1.样本渐趋于总体;
2.精确让位于模糊;
至于第三点「相关性重于因果」,与周涛教授的看法一致,我也不太认同。作为一个理工科学生,我相信一切事物背后都有原理,人类终究是要找到并且搞明白世界之所以如此运行的原因的。否则,科技发展到后来,岂非变成了巫术一般的存在?
当然作者在文中提到了人类有急于寻找因果性的冲动,而有时候找到的所谓「因果」也并非真正的因果。表面理性的人常常被非理性所迷惑,满足于想当然的解释。在这种情况下,片面甚至错误的因果性还真的没有相关性靠谱。但我们也不可忘了,相关性始终只是暂时的途径,我们的终极目标还是因果性,否则,人之为人的一项根本属性就不存在了。
这本书的另一个值得称赞的地方就在于作者作为大数据的倡导者,并没有一味大加褒扬,而是深刻洞察到了新的技术趋势会带来哪些问题。诸如个人隐私和数据独裁等在数据主导时代可能发生的严重后果,作者都给予了足够的考虑。并且难能可贵的是,针对未来可能出现的危机,舍恩伯格还给出了具有建设性的应对之道——看了他的个人履历后,你不得不佩服这样一位在技术和公共政策都具有独到见地的跨领域专家。
最后,不得不抱怨一下,书是好书,可是出版者太不敬业了——结尾五十页中,居然屡屡出现空白页,这种比盗版书还糟糕的印刷质量委实令人失望;湛庐文化宣传的十年一剑的出版品质怎么看都像是一种反讽。
我不觉得人类退步了,只会进步,以前解决不了的现在可以解决,以前没精力去解决的,现在有时间去研究了
李银河应该重读王小波《摆脱童稚状态》在这里
http://blog.sina.com
我的观点和elicse同学类似,楼主误会了相关性和因果性的本质了,不需要想的那么高深复杂,作者是从宏观的角度去说整个大环境的发展趋势中起主导作用的因素,楼主是从微观角度去分析具体的问题,当然可以列举出很多相反的个案。但这就不是作者的真正意图了。
其实用一些生活中很简单的例子就可以佐证作者的观点了:候鸟南飞,说明冬天要来临了;公鸡打鸣,说明天快亮了;我们在豆瓣上浏览的某类类书籍较多时,豆瓣也会推荐同类书籍给你。。。这些都是相关性的结果,而不是因果性,大部分时候我们只需要理清相关性。这也是这个科技飞速发展的时代未来发展的趋势,定制化的服务、个性化的选择,都是依托相关性数据,它不用去分析这背后的因果关系。这一点,从历史的滚滚浪潮中,也可以瞥见:所有的自然规律和历史经验最终起主导作用的还是相关性。
另外,科技是来源于巫术。巫术与科学在认识世界的概念上,两者是相近的。二者都认定事件的演替是完全有规律的和肯定的。并且由于这些演变是由不变的规律所决定的,所以它们是可以准确地预见到和推算出来的。一切不定的、偶然的和意外的因素均被排除在自然进程之外。
我坚持认为艺术比科学重要,人文比技术重要,感性比理性重要。
关于相关性与因果性的在科学中的关系,这里有一篇不错的文章:
《摆脱童稚状态》:http://www.guokr.com
(王小波的同名文章也写得很精辟)
此外,作者的另一篇文章也表明了,单纯从相关性得出来的结论,有时候并非是靠谱的(医学领域的案例):http://www.guokr.com
感谢与非同学的回复。
为什么我觉得自然科学中的量子力学,和互联网上的大数据分析有相同之处呢?
因为这两者都是一种在宏观的尺度上看待微观事物的新思路,旧有的因果逻辑分析不能够解决此类问题。
以自然科学来说,当观察的尺度在时间和空间上缩小了亿亿倍之后,微观粒子的组成和行为方式,可能尚在我们能够理解的宏观模型之外。我们在宏观世界习惯的观测手段,与相应因果判断都不起作用。微观世界的粒子也许和“场”的概念类似,没有固定的结构,无法触摸定位,只能用一些其他手段验证它的存在。这时候,统计和概率更有助于新模型的建立。
以大数据处理而言,当数据范围急剧扩大,而观察对象又聚焦到任意一个具体的数据时,影响这个数据的因素可能非常之多,原先针对样本数据进行的因果逻辑分析也会变得力不从心。这时候使用相关性分析先看到趋势,如果是预测直接使用即可,如果是调研可能还要进一步分析总结出新的因果关系。
关于您举的那个变电站附近儿童患癌的例子。我是觉得,如果仅仅是用于预测,如医生的诊断,或者卫生部门预防性的抽检,那么重视相关性就足够了,何况低收入和患癌的相关性也会列入计算。如果是变电站附近要建一所幼儿园,需要更深层次的因果关系论证,那么您的分析无疑是更准确的。
非常感谢elicse同学的热情讨论。
我本人是搞信号处理的,业余对量子力学的发展历程略知一二,你说的没错,整个量子力学的演进的确充斥着对因果律的不断诘问。
也正因此,哥本哈根体系才会引起那么多物理学家的不安。
其实近几十年来许多新的量子论解释也在努力规避那使薛定谔的猫变得不死不活的诡异图景。
八十年来,量子力学还没有一个定论,而新的解释正在不断涌出,所以,爱因斯坦的那句「上帝不会扔骰子」至今依然有意义(当然可能不是当初的他老人所想的了)。
抛开这一切,我认为这跟互联网领域的数据处理还是没有太大可比性的,在我看来,这是两个问题,一个是关于大自然本身属性的探寻;一个则是从实用主义出发(这里没有任何贬义)开发高效利用有限信息的工具。
过于依赖相关性,可能会带来偏见,举个例子,网上流传的变电站附近癌症儿童比例升高,是否就说明城市中的变压器会对人体造成危害呢?如果只看数据的相关性,则很有可能会得出这类结论,但是如果了解低频电磁场并不会对人体造成伤害(很极端的情况例外)这个原理,就不会匆匆得出一个不严谨、甚至错误的结论了。癌症儿童的增多可能与变电站附近的普遍贫困居住环境有关,等等。
所以,对于这样一本互联网领域的书籍,从现实性考虑,他重视相关性过于因果的倾向可以理解,但是对于自然科学来说,在抛弃因果性之前,一定要慎之又慎。
可是说一个大概率或一个趋势表示相关性强并不错吧?虽然也存在随机情况。
与非同学如果了解量子力学的发展史,一定知道爱因斯坦的那句名言“上帝不会掷骰子”。爱因斯坦可以算一个完全的因果律信仰者,但物理学始终是重视实践的,所以最终物理学界接受了骰子一样的概率。这和大数据时代的作者在哲学上是类似的。
大数据时代的作者也认为因果关系是有用的,但不能作为来源基础了。容我引用书中的话“在大多数情况下,一旦我们完成了对大数据的相关性分析,而又不再仅仅满足于“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的为什么。”这不就是量子力学的建立过程吗?
事物间的因果如果上升到追求真理这个目标上,当然伟大,但未必符合实际。既然楼主是理工科背景的人,我也举一个物理学中的“相关性重于因果”的例子:量子力学。
没有人能准确的知道围绕原子核运转的电子某时某刻出现在什么地方,我们只能按照概率统计提出电子云的模型;也没有人能说清楚光的本质是什么,我们只能从大量的实验和经验总结出它具有波粒二象性。这或许是目前的技术手段和理论所不及,但如果我们非要用因果论思考客观现实,我们的研究就会僵化停滞,基于观测的大数据统计,可能比我们旧有的因果假设模型更接近于现实。作为实用性的工具,我们总不能等到那些因果模型完全搞清楚再去分析社会和自然吧。
书我没有看完,最近忙考试没时间了。。。
我想就lz说的第三点说下自己的看法。我不反对lz的想法,但我支持作者。不知道lz学的是什么呢?探究的思想是前进发展的动力不假,但用纯粹lz所说的追求因果关系来处理数据是绕道而行。lz可能把事物混淆了,以为所有东西都要有个因果。其实没错,因果循环我同意。但数据挖掘仅仅是让数据来说话。数据怎样说话呢?我们在海量数据中标记目标,挑选属性,训练数据,最终都是为了预测。我想bayes network可以是个很好的例子。correlation不等于causality,bayes追求的就是关系而非原因。association rules更是典型的关系例子。如果再往更大更高纬的数据说,比如支持向量机器,它连数据间的数据关系都不考虑了,只考虑空间位置。
举了很多例子是想说,lz可能对数据挖掘不是很了解,所以才不认为作者说的“相关性重于因果”。这里只是说数据。
另外,我对作者一点不了解。我觉得这本书好的地方在于,作者把一个新的专业的概念用生活中的例子平浅的介绍给大众。是一本休闲的书,所以我也没期望它能给什么营养。当顿饭就好了。