读 Big Data
2014-11-02
终于看完了传说中的“大数据”。
回想下来,整本书就是讲了什么是大数据,大数据可以做什么,以及大数据的隐患,用了大量的事例和“数据”,浅显易懂却也印象深刻。
总体来说,还算比较科普的书籍。除了科普以外,也有给我新的思考。
其一,是不精确性那部分。谈到精确性的弊端时,举了分类法的例子,比如在图书馆找书的痛苦。但是越来越数据时代,于是开始渐渐包容不精确性,或者说趋于更多的不精确性,即混杂性,于是有了“标签”这种东西存在。这个在图书管理领域还未普及开来,但是在互联网世界已经是完全霸占了。任何网站,无不使用标签法,比如微信现在也有对自己的好友贴标签的功能,就是便于查找,灵活,虽然混乱。
但是,个人觉得,这个方法在图书管理是不太适合的,行业特殊性,太宽泛,如果标签化,那将是多么可怕的混杂世界。为什么互联网可以呢,因为往往使用标签的都是某个具体的软件或者app,而几乎每个软件或者app都是主题性质的,它们本来就是分类化之后的一类,所以即使标签化,范围也不会太跨越。但是图书管理不一样,整个人类文明与历史,太宏大了。
当然,传统的方法固然也不好,个人比较看好叙词法。也恰好满足我这种强迫症的癖好。
其二,是讲大数据的弊端时,谈到隐私,谈到不合适利用那部分。说大数据本来是基于相关性而有,但是人们仍旧活在因果关系的世界,所以习惯用大数据去为他们的因果关系服务,这是注定要出问题的。
我们深深陷于因果关系的世界,已不自知,如果不是看他提起,我也不会意识到。这让我兴奋,新的思维模式。我不知道自己是什么状况,完全沦陷还是尚存清净,待日后留意。只是,对于大多数人,倒也确是这样的。正如元中所说,大家已深陷传统思维模式,马克思模式,总是要去概括归纳总结。而也许很多东西应该被更温柔的对待,只是去呈现就好,又何必命名下定义和解释说明。传统的思维模式虽然可能不是死胡同,但或许已经开始阻挡我们的脚步了。
自然科学与哲学人文社科,果然还是殊途同归。
其三,也是谈大数据带来的威胁,当说到依据数据的预测而进行惩罚是对人的独立选择和自由意志的迫害时,提到了传统的“小数据时代”里类似的迫害,即“画像”问题,将群体特征强加于个人。
顿然大悟。我们常常受到这类误解,也常常犯着这类错误。以前我总是迷惑,却找不到立足点。个人意志与集体意志,不在一个level,不可类比,如此而已。
其四,是谈到变革的时候,说隐私保护的模式之一应该从个人许可进化到数据使用者承担责任。这是让我觉得眼前一亮的东西。现在互联网几乎还是停留在征求个人许可的阶段,“允许”or“不允许”,背后的黑匣子有多深根本无从得知。但是如果没有那一步,直接由数据使用者来接触责任呢,那么会不会更干脆利落一些?出于责任不确定性的伤害会不会减少一些?
其五,说“大数据意味着我们将永远受困于过去的行为”,因为大数据来源于这一秒之前的行为或者思想的量化,挖掘分析,完成发现或者推断。那么就确实困于过去了。
我想到了自己。我总是喜欢用昨日的表现来给今日打分,通过比较;我也总是喜欢观察昨日和今日,去感知我的明日。又尤其是前者,结果是大多数令我感到沮丧,因为我的拖延症或者因为我的进取心或者说强迫症,总是觉得不够好,还不够好,而很有可能昨日的好早已被我完美化。而我“糟糕”的今日转眼又成为明日“完美的昨日”。所以今日总是活得不快活,拧吧。
正如大数据不应该被作为唯一的价值标准和工具,人的独立性同样一样,昨日也不应该是唯一的评判指标,今日的独立性同样珍贵。
最后,我想说,整本书对数据的效力有点过于褒饰了,不够客观。这样的科普不太好,尤其是对那种没有判断力的读者而言。