感觉平平,不是太吸引人_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 科技 > Big Data > 感觉平平,不是太吸引人
嘿嘿云 Big Data 的书评 发表时间:2016-11-21 16:11:54

感觉平平,不是太吸引人

花了两天时间看完了大数据时代,该书是2013年1月初次出版的,我读的印次已经是2014年10月第14次印刷了。短短22个月时间,加印了13次,可以想见本书的受欢迎程度。

但是我读完之后感觉平平,并没有像读《人类简史》那样被震撼,被深深吸引。

可能是因为之前我就思考过关于太多大数据的问题了或者是说对本书了解还不够深入吧。

不过书中有几处还是很引人深思!

一、样本和全体

68页大数据洞察中提到,“只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在。就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了”。

在小数据时代,我们采用随机采样的样本分析法,统计学家们证明,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

上面这两段话可以这样理解:在小数据时代,我们自身是人类社会这幅画的一个很小很小的点。

我们想要通过各种各样的方式来了解这个世界,比如我们想知道某个国家在某个时段的确切人口数;某个城市在某个时刻交通拥堵情况;大选时选民到底偏向于哪个党派;但由于我们自身的局限,采集数据、分析数据成本非常的高。比如美国的人口普查局,1880年进行第一次人口普查时就耗时8年才完成了数据汇总。

所以我们发明了随机采样的统计学方法,在这幅宏大的画中,尽可能随机的圈定几个区域,通过对这几个区域的调查分析来窥一斑而见全豹。

这取得了很大的成功,成为了现代社会的主心骨。

可是因为样本不可能完全随机,而且在调查中,被调查者很可能会掩盖自己的真实意思而使样本被污染。

就像一幅人脸肖像画,也许我们通过很随机的80个点散布,然后调查该点周围3-5个像素的颜色,亮度等等,可以基本画出这张脸孔。

但是,万一有一个点被扔到了一个黑色的痣上?那这个人脸上就被人为的抹黑了一片。

而在大数据时代,一切都不一样。大数据不再随机采样,而是用“全体=样本”办法。

这就等于,原来我们只是这幅平面画上的一个点,一个像素。但是大数据可以把我们托起来,在空中凝视这幅画,窥全豹而见全豹。这样对事物的了解更全面,也更准确;对某些事件的处理也会更合理,更公正。

二、数字化与数据化

104页说明了数字化与数据化的区别(在此之前我一直把这两者混为一谈)。

数字化是把模拟数据转化为用0和1表示的二进制码;

而数据化是把一种现象转变为可制表分析的量化形式的过程。“数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多以前我们认为和信息根本搭不上边的事情。”比方说,一个人所在的位置,引擎的振动,桥梁的承重等。

世界上第一个致力于数据化的人是一位美国海军军官,莫里。1839年,他在美国海军办公室工作时,把该办公室上百年的航海日志整理出来成了表格,并依据这些表格绘制了更安全更经济的航海路线。想想看这可是在19世纪!

而谷歌在2004年发布了野心勃勃的谷歌图书馆计划,2010年就有2000万册图书被扫描成了数字图书,相当于人类发明印刷机以来所有书写文明的15%(前几个月我看到一个视频称谷歌数字图书馆藏书已经达到1亿册,就是说全世界78%的书都已经被数据化)。那么,“通过检索和查询,我们可以对人类文明进行无穷无尽的文本分析,也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹”。想想看这是多么惊人的成就!

如此一来,很多文字职业者可能都面临失业!

比如通过分析近三年的流行词汇和热点新闻,以及各个年龄层次的读者爱看的书籍,谷歌图书馆就可以编出年轻读者爱看的网络小说,年长一点的读者爱看的理财读物以及父母们最关心的教育书籍。而且可以想像,一定能热卖。

虽然基本是原有书籍的摘抄,但是太阳底下无新事!而且可别忘了,谷歌拥有世界上最大的数据库,他也记录了你诸多的爱好,能够精准的向你推荐你确实感兴趣的东西!

另外,翻译也将失业。因为根据112页的说法“系统就可以把翻译看成是一个简单的数学问题,只需要用电脑找出两种语文之间最恰当的对等词和词组。”

三、大数据的负面影响

在大数据时代如何保护个人隐私?

P220提出,从个人许可到让数据使用者承担责任。但是这也存在不足,当个人的数据被故意或者非故意公开的时候,伤害已经造成,并且很难弥补。本书并没有就这一点展开论述。

大数据时代如何保证我们不因“思想犯”而被捕?

P224页也有论述,主要基于三项原则,公开,公正,可反驳原则。

在电子设备上,数据的保存时间是有限制的。硬盘和光盘的寿命都很有限。

P143阐述了数据的折旧,含糊其词的提到可建立复杂的模型来分离有用和无用的数据。如何判定一个数据是不是有用,该不该继续保存?如果继续保存,那又得保存多久呢?本书并没有作答。

最后,大数据算法师MS是个不错的工作,有兴趣的同学可以试着了解一下,嘿嘿。

展开全文


推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读