作为入门书籍可以一读_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > > Big Data > 作为入门书籍可以一读
kaka4581 Big Data 的书评 发表时间:2014-10-03 18:10:25

作为入门书籍可以一读

大数据时代 读书笔记

1.本书的主要内容。简要概括作者的思路和令人印象深刻的论点。
本书主要分为三个部分,大数据带来的思维变革、技术变革和管理变革。我认为最好看的是前两个部分,内容详实,有理有据,第三个部分觉得不太好看也可能是因为我没有看懂……毕竟对互联网公司的管理方式不太了解,如内部算法师和外部算法师之类的。其中,最精彩的又数第一部分的内容。
在第一部分中,作者针对当前大数据发展的现实,提出了三种思维上的变化:一用全部数据取代随机样本。这是大数据时代最显著的特征。谷歌可以根据人们的搜索行为和关键词,发现背后关联的现象,以先于政府部门的速度准确的预测流行病(甲型H1N1)的发生。之所以能做到这一点,是因为像谷歌这样的互联网公司对用户行为进行深度分析的结果,技术的发展让我们能够通过各种手段收集用户的各项数据——各类传感器、手机应用、广泛而深刻的互联网行为。我认为,可以将这一点视为对传统数据收集的突破。传统的数据收集也希望能够获得尽可能全面的数据,但是由于各方面条件限制,只能采取随机样本的方式获得结果。这样做只能够对特定的问题,而非细节进行分析,而且无法对数据进行二次利用。而技术的先进突破了这一限制,将数据收集的成本大大降低。
二是不那么关注精确性。这一点和传统的数据可以说是背道而驰的。传统的数据收集由于数量的限制,必须从精确性上进行严格把控。但是数据规模的扩大使单个数据的精确性不再那么重要,因为不那么精确的数据到达一定量级的时候,也能够显而易见的发现其中的趋势。这种变化,使得人们将更多的关注点放在数据的获取而非数据的准确性上。根据实例可以证明,大数据的简单算法比小数据的复杂算法更为精确。在文章中,作者的例子是谷歌的翻译系统。谷歌通过其搜索引擎系统衍生出的翻译系统能够获取各种语言信息,这种获取主要是量的堆积,但这种量的堆积却引发了质的变化。尽管网络上的数据总是错漏百出,却依然能够有效地进行多语言的翻译。
三是不是相关关系,而是因果关系。沃尔玛商场通过对数据的分析,发现在飓风的天气,蛋挞的销售会相应增加。美国的零售商塔吉特(Target)甚至能够从某个人的购物习惯等方面的改变判断出这个人是否怀孕。这种关联性看上去似是而非,很难解释的清楚,但是大数据告诉我们它又切实存在。公司研究出不同的关联物,并且给予相应评分,最终汇总出结果,而这个结果经过验证准确性很高。即使塔吉特公司与怀孕者本身没有任何接触。“一个东西要出故障,不会是瞬间的,通过手机所有的数据,我们可以预先捕捉出事务要出故障的信号。从而预测未来。”
第二个部分是大数据带来的商业变革。这一部分的内容是“数据化”的内涵:数据化可以使哪些信息成为可以量化的数据(位置信息——街景、文字信息——谷歌的图书馆工程、社交信息——fb上的个人喜好和圈子信息),在这些数据的基础上如何进行创造性的利用,以及三种利用的思路和方式(掌握数据、技术创新和思维创新)。
最让我印象深刻的是是日本人对汽车中人座椅信息的收集。这种可能不能称之为信息的东西也可以成为重要的工具。如可以对人的坐姿习惯进行识别,防止车辆盗窃的行为,还能够对发生事故前的数据进行分析,以便预测可能发生的意外并进行提醒。
第三部分内容也非常重要,提及了大数据带来的隐患和对管理方式的变革。很明显,大数据带来便利的同时,也带来的对隐私的侵犯。因为可以对数据进行二次利用,所以作为当事人并不了解自己的信息可以被利用到何种程度。而交叉比对的高度匹配性又让匿名成为了无效。作者提出了可以给利用数据的公司提出利用的程度(模糊数据)以及时间限制的方式。不知道是否有效。其他部分的内容就真的不太明白了。



2.你认为作者所作出的最大贡献是什么?有何创新之处?你如何评价?
我认为作者将目前大数据的发展趋势概括了出来,并且总结出了大数据时代的特征和与传统数据时代的差别,给大数据的进一步发展,以及相关的法律法规的出台提供了参考。我觉得这种尝试是有益的,能够帮助我们更好的认清当前的趋势,也有利于我们了解到其弊端,弄清楚自己的数据究竟会被如何整合和利用。本书的案例非常多,给我这个门外汉提供了很多见识,真没想到如今大数据的预测如此精准。如UPS设计的行车路线、预测早产儿病情、纽约沙井盖爆炸预测、谷歌的数字图书馆、亚马逊的书籍推荐、

3.是否存在什么疑惑?作者有何不足?
但是我认为,作者同时又夸大了大数据的现实。作者认为,在未来,数据分析师会想取代亚马逊的书评师那样取代更多的专家,我不太赞同。因为数据毕竟是数据,如果没有浸淫某行业多年额从业者对纷繁复杂的相关关系进行提取的话,数据不能发挥更大的作用。所以,我更倾向于认为,未来的数据将会在专家和算法是手中共同发挥作用,而非取代人力。
而且,我对隐私性这个问题还是看的比较重。我觉得,大数据再往前发展,如果有任何可能会进一步侵犯个人生活的更加细节的方面,我会比较警惕和抗拒。
同样的,我认为因果关系依然是最为重要的关系之一。如果说我们因为各种原因限制无法去探究因果关系,或者很可能对因果关系做出比较粗略甚至截然相反的分析,那只是代表现在的认识水平还不够,并不代表因果关系的重要性降低了。在探究事物的本质上,如果只停留在相关关系,那么很显然是太过于肤浅了。因果性的背后,也是人性的体现,因为计算机无法去探究背后的真正原因。

注:从作者个人的建立看来,好像不是做过算法的工程师啊……只是做分析和咨询多一点的样子

展开全文
有用 0 无用 1

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“作为入门书籍可以一读”的回应

弄花雨 2014-10-15 21:25:55

三是不是相关关系,而是因果关系!!!
这就是你看完这本书的读书体会?