也许不久的将来,我在某杂志的书评专栏就会消失,为专栏提供服务的翻译也将失业,因为一个厉害的角色在人类科技革命的舞台登场了,它就是“大数据”。
牛津大学舍恩伯格教授在这本被誉为全世界最好的大数据著作中介绍,亚马逊网上书店曾经拥有全美最有影响力的书评家,但后来亚马逊通过捕捉大量顾客数据开发了推荐系统,其所增加的销量远超书评家的贡献,书评组被迫解散。这个系统就是今天大家熟悉的“猜你喜欢”。
连翻译这种棘手的难题似乎大数据也试图拿下。大数据时代的领军企业谷歌,训练计算机吸收它能找到的一切(包括错误的)翻译,形成上万亿的语料库,60多种语言,甚至能接受14种语言的语音输入,成为目前最好的翻译系统。
谷歌能做到这些,是因为它将语言视为数据,而不是语言本身,还因为数据惊人的规模优势。大数据时代带来三个思维变革,第一:全数据模式。不再依赖小数据时代的随机样本,样本即全部数据;第二,不再执迷于精确性。通过接受混杂性更快速得到更完整的结果;第三,更重要的是相关关系,而不是因果关系。沃尔玛通过大数据发现,飓风来袭时手电销量会增加,但蛋挞销量也随之增加,就在飓风季把蛋挞放在飓风用品旁边;零售商塔吉特给高中女生邮寄婴儿用品优惠卷,就是通过她的购物方式发现了她的怀孕趋势。至于为什么风暴天人们爱吃蛋挞,小女生怎么会怀孕对于销售商不重要,重要的是大数据揭示的相关关系帮助他们对趋势做出正确的预测。
乔布斯花几十万美元对自己所有DNA进行排序,用大数据治疗方式延长了几年生命;谷歌准确预测了大流感爆发;粉红是否会流行、机票啥时最便宜、该为这个客户发放信用卡吗、车主坐姿数据可以防盗?皮特哥在《点球成金》中让统计数据取代球探而完胜,专业行家发烫的直觉会被冰冷的数据取代吗?大数据将像上帝般万能?
作者也表达了担忧,大数据就像无处不在的第三只眼,将给人们的隐私带来威胁。伦理上也将引发争议,比如用大数据分析预测犯罪,犯罪行为尚未实施,我们是采取惩罚措施,还是不采取呢?还有大数据的垄断和滥用问题等,谷歌前首席设计师都因受不了随时随地的量化而辞职,说:“数据成为了一切决策的主宰,束缚住了公司”。不过如果你朝三暮四,红杏出墙,大概你的爱人会希望通过大数据捕捉你的时空轨迹、习惯模式,揭穿你的背叛行为。
作者最后讲,使用大数据这个工具,必须怀有谦恭之心,铭记人性之本。人类的创造力是计算机永远无法匹敌的,也许人们会不再需要书评人,但我还是愿意相信机器无法取代人类翻译,毕竟人类的沟通和智力劳动是一切数据之源。