上帝说要有大数据,于是魔鬼掏出了苹果
2015-01-26
凭着自己仅有的编程知识,记得一点指针、域什么的,读完这本书后才松了一口气,还好并不需要太多计算机知识。毕竟大数据只是工具,最终是要为普通人所用的,虽然作者描绘的未来场景也不乏阴影遮蔽之处——一如人类发明的所有工具。
全书前半部分比较啰嗦,其实序言就概括得差不多——也很好理解,毕竟我们已经感受到大数据带来的改变了——数据的规模化;大数据的混杂性;大数据赋予人类预测的能力。这部分除了对大数据的描述,也还有对“原始”方法的对比。比如以抽样为代表的统计学完全是在人类工具有限,认知有限的情况下才去的折中之举。
倒是后面对于大数据将给人类社会带来的阴影论证详细。
首先是对个人隐私的威胁。在这个你吐槽下陈赫离婚都能被人肉出来的社会,个人隐私已经仅仅是一块心理安慰的破布,但是却关系到人类面对机器的尊严——即便可笑,也依然是人之为人的根本,你们机器是不懂的。然而数据发布者就算是采用了模糊匿名处理,但是通过其他数据的交叉对比,依然能破解隐私。
更让人担心的是,大数据所赋予人类的预测未来的能力将有可能给人类自己的自由意志带来深重灾难。如果预测到某人“将会”犯罪,那是否应该根据“预测”来惩罚此人,让他因为自己未犯之罪而收到处罚。这是赤裸裸地践踏人类尊严。
一如所有人类发明过的工具,大数据也可以被“潘多拉的魔盒”来形容,但是也一如人类发明过的工具,毕竟还是被掌握在人类自己手里,如何使用,还是看人类自己吧。
全书案例丰富,对于理解要点帮助很大。翻译质量也不错,而且还有翻译本人对于原作者观点的各种吐槽,比如不认为相关性就是一切,是可以完全替代因果关系的(其实作者也在书里承认,相关性可以为因果关系提供参考),以及发出“理论已死”的哂笑。
人类终究不会允许机器的能力践踏自己的尊严,就算是放弃其所带来的便利,人类的本质——包括创新、冒险、顽固等等机器所无法模拟的内容,正是使得人类之所以为人的原因。人类愿意以一切来保卫自己。而这,可能会成为未来世界超越种族、历史、宗教等一切现在看来不可调和矛盾的更为激烈的斗争之源。
如果“所有过去,都是序曲”,那么也许正菜就是人类的灭亡吧,在各种各样的工具之下。
God bless the human race.
------------------------
1、亚马逊发明的“协同过滤”简直是神作。
2、“我们能收集和处理的数据只是世界上极其微小的一部分,这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了。”柏拉图的理型论,在这里真是贴切,也是对人类最好的安慰。说起来,人类还真是和原始人类一样,躲在洞穴里,看着洞外映射在石壁上的影子。
3、“大数据让我们试验的速度更快,发现的线索更多。这理应能够产生更多的创新成果,但发明的火花却往往存在于数据未显示出的信息之中,因为它并非真实存在,是多大量的数据都永远无法确定活证实的。”同上。
4、“如果真变成这样,为人类开辟出一块领地,为直觉、常识和意外运气腾出空间就十分必要,以确保它们不被数据和机器回答挤兑出去。”多么悲哀,感觉就是一个动物园,被机器围观。
5、“未来的可与执行似乎缩小了塑造命运的空间。潜在的可能性在概率的圣坛上被解剖。”
6、“伴随着从核技术到生物工程学其他领域的发展,人类忠实先创造出可能危害自身的工具,然后才着手简历保护自己、防范危险的安全机制。”
7、“社会关于个人责任的基本心跳是,人为其选择的行为承担责任。”
8、”大数据的价值不在单纯来源于它的基本用途,而更多源于它的二次利用。“
9、“我们也将分析它是如何加深对我们隐私的威胁的,同时还将面对一个新的挑战,即运用大数据预测来判断和惩罚人类的潜在行为。这是对公平公正以及自由意志的一种亵渎,同时也轻视了决策过程中深思熟虑的重要性。”
10、“2007年,英国一家报社曾讽刺地报道,在乔治·奥威尔创作《一九八四》的地方,也就是他的伦敦公寓外60米范围内,起码有30多架摄像机在监视着他的一举一动。”
11、就像互联网和计算机技术一样,随着世界上的其他国家和地区都开始采用这些技术,西方世界在大数据上的领先地位将慢慢消失。“如果让非洲落后国家拥有大数据分析技术,但是却没有使用和收集数据的人和技术、设备,那又有什么用?
12、”如果成本够低,而消费者又足够信任这样的中间商,那么个人数据市场就很可能诞生,这样个人就成功地成为了数据拥有者。“比如联通移动什么的,还有QQ不也一直在扫描么,然后卖哪去了谁知道。
13、”计量和记录能够再现人类的活动。“举例中的建筑图纸和建筑的关系很好理解。
14、”在小数据时代,我们会假象世界是怎么运作的,然后通过收集和分析数据来验证这种假象。在不久的将来,我们会在大数据的指导下探索世界,不在受限于各种假象。“但是各种算法不也是需要理论和人类创新才能创造出来,以指导大数据分析么?
15、”对‘小数据’而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息比较少,所以我们必须确保记录下来的数据尽量精确。“
16、”我们不能满足于正态分布一般中庸平凡的镜像。“
17、”在1986年的时候,世界上约40%的计算能力都被运用在袖珍计算器上,那时候,所有个人电脑的处理能力之和还没有所有袖珍计算器处理能力之和高。“
18、”认为相关重于因果,是某些有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,作者试图避免的“数据的独裁”和“错误的前提导致错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始。