谢鑫
对
Big Data
的书评
发表时间:2016-08-03 20:08:01
1.更多-不是随机样本,而是全体数据
三个思维转变:
首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
其次,我们乐于接受数据的纷繁复杂,而不再是追求精确性。
最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
我们把数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。
统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。
当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。采样忽略了细节考察。
在某些特定的情况下,我么依然可以使用样本分析法,但这不再是我们分析数据的主要方式。
2.更杂-不是精确性,而是混杂性
当我们试图扩大数据规模的时候,要学会拥抱混乱。
在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的准确性,才不会导致分析结果的偏差。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
3.更好-不是因果关系,而是相关关系
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
我们理解世界不需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。
大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
建立在相关分析法基础上的预测是大数据的核心。
在社会环境下寻找关联物,找出新种类数据之间的相互关联来解决日常需要。
通过找出一个关联物并监控它,我们就能够预测未来。
收集和分析数据的花费比出现停产的损失小得多。
这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。
两种思维模式:一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费的慢性思维,对于待定的问题,就是需要考虑到位。
当我们说人类是通过了因果关系了解了世界时,我们指的是我么在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变着两种基本方法在我们认识世界时所扮演的角色。
在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。
只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。
数据爆炸使得科学的研究方法都落伍了。大量的数据在某种程度上意味着“理论的终结”。用一系列因果关系来验证各种猜想的传统研究范式已经不适用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。
“理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。