1. 大数据的大是相对意义而不是绝对意义。
2. 大数据分析指的是在样本空间总体而不随机采样数据上进行的数据分析。
3. 因为样本空间的扩大,数据的准确度可能会降低,需要用大量的数据来修正。
4. 通过扩大样本空间,能够获取到随机采样时可能被忽略的信息。
所谓的大数据时代,其实是随着计算技术以及计算代价的降低,人们对数据分析不断提高要求的时代。这是一个很自然的过程。计算代价大时,只能接收随机采样。代价降下来了,自然就想在总体上分析,试图得到一些更丰富更准确的信息。
整本书其实都是在讲案例。***个人/公司通过尽量完整的收集大量的数据(不使用随机采样方法)然后在整个数据集上进行分析得出了之前得不到的信息或者是比之前更具体、更丰富、更准确的信息。基本一个套路搞完整本书。
这本书的适用人群:在我以为,这本书目前其实没多少适用人群。毕竟大数据炒作已经火了很久了,基本能做的事儿圈子里人人都知道。或许这本书更适用于大一、大二的学生做科普故事书看。或者就是圈外人做科普(由于书中顺带介绍了一些数据分析工具,像hadoop啊什么的,纯圈外人科普看又稍微有点讲太多。。。
总结:这本书一两年前看确实是一本很不错的书,现在再来看就显得内容挺没意思的,没什么必要看。