这本书作者原本想从思维的高度以及商业的角度概括大数据的本质,重点以及对生活的影响,虽然提出了一些新颖的观点和生动的案例,但总体感觉作者对此驾驭不够,整本书稍显啰嗦和夸大一些观点甚至在一些细节上有点前后矛盾。不过冲书中的一些观点还是给3分吧,以下是书中一些精华加上笔者和一些技术的联系,正确与否各位自己判断。
1.什么是大数据
- 大数据就是基于海量数据分析从而产生巨大价值的产品和服务
- 之所以会产生主要是信息的爆发性增长和获取的廉价化再加上计算能力和存储能力的增强
- 量变引起质变(就像我们到了纳米尺度就能有很多奇妙的变化,这里个人推测主要是量的爆发增长从统计学上能产生一些质的变化),从而使得以前静态的数据变成动态的商业资本
2. 大数据的三个核心特性
- 关心全部样本而不再是抽样数据
注:为了更好的分析海量数据才有了Map reduce这样的技术产生
- 不再关心数据的精度,接受混乱的数据已变成一种事实和标准
注: 由于数据不再精确,才有了NoSQL的出现和发展
- 不再关心因果关系而是相关关系
注:吴军的数学之美前几章有同样的观点,在机器智能上人们一直试图让计算机知道为什么却没有什么大的进展,后来另辟蹊径基于统计学只要让计算机知道是什么反而大获成功。
3. 一些好的商业案例
- Decide.com
- Google 图书馆
- 图书模糊单词扫描方案 Recaptcha