大数据时代的新思维和新趋势_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 科技 > Big Data > 大数据时代的新思维和新趋势
stone Big Data 的书评 发表时间:2013-01-14 14:01:15

大数据时代的新思维和新趋势

书中提出了大数据带来的三个新思维
一,使用全部数据而不是像传统统计方法那样先随机采样。既然有足够的存储和计算能力为什么不使用全部数据呢?使用全部数据能避免采样引入的bias,得到的结论更可信。不带bias的采样算法是很难设计的,研究者往往在无意之间就引入了采样的bias。这一新思维显然是计算机科学快速发展带来的存储和计算成本大幅降低的直接结果。
二,不追求数据的精确性与完整性。这一点与其说是大数据引发的新思维,不如说是大数据带来的人们不得不接受的结果。要保证数据的精确性,势必要付出人力成本或者其他成本。在大数据的情况下,这些成本过于巨大,除非减小数据规模,但是大数据变成小数据带来的是信息的损失。书中提出一个证据是,大数据的简单算法比小数据的复杂算法更样有效。这应该是数据的数量弥补了不精确带来的噪声。这也应该是互联网巨头Google耗费巨大的资源和人力在鱼龙混杂的整个互联网上去粗取精而不是仅仅关注一些高质量网站的原因之一。大数据的不完整性也催生了传统数据库的革命,Google发明了bigtable来存储非结构化和不完整的大数据。
三,不再追求因果关系,转而追求相关关系。对于商业领域里的公司来说,利用大数据发现的相关性来更好的服务用户提高销售额等就够了,没有必要去研究相关性背后的因果关系。从技术角度举例来说,假设从一份大数据里挖掘出成千上万条association rules来,公司和个人是不可能有资源去探求它们背后的因果关系的。

作者还预测了未来的一些趋势。
一切事物数据化的时代。物联网是一个极端的例子。量化一切的部分原因是,一份大数据的价值往往需要人们从不同角度不同目的出发进行挖掘来体现,在采集数据之前往往并不能预见所有的价值甚至不能预见任何价值,那么最好的办法就是在资源允许的情况下先全部记录下来存下来再说。
大数据时代的早期,思维和技术是最有价值的。之后,拥有大数据的公司会拥有优势。以后,数据将会像其他商品一样频繁买卖。
大数据程序员的崛起。书中所说的其实是像内部会计人员和外部审计人员一样的职业角色。他们对大数据的使用,利用大数据进行预测的系统和算法进行监督“审计”,保证他们的公平公正。这一角色将会是计算机科学,数学和统计学的复合型人才。一些公司已经有了data scientist这样的职位,不过跟书中说的大数据程序员不是一个概念。我觉得以后基本的数据挖掘和机器学习技术将会成为程序员的基本技能,就像C/C++一样。

作者还表达了对大数据的一些担忧,主要是隐私保护。在大数据的前提下,匿名化就失去作用了。比如,人们仍然能从一份海量的匿名化的google搜索检索词来推断匿名化之前的真实用户。




展开全文
有用 0 无用 0

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读