按照书中所说,大数据时代的到来为我们提供了许多很有参考价值的信息,比如购物需求、医疗建议、算法评估等等,从而解决了统计学中抽样的随机性难题,获得了对抗人类直觉的证据,世界从此变得不一样,分为大数据国家、小数据国家和无数据国家。大数据的掌握者拥有着无法逆袭的"护城河",他们的帝国只会越来越强大,一开始对数据的微末优势随着雪球的滚动变得无可估量,从而占有越来越多的话语权。
上述思路我并没有异议,但是书中没有讲到的一点是获取数据的成本。互联网可以分析我们的搜索记录进而掌握我们的日常生活甚至情感需求。我们先不考虑对数据的分析方法(不同的方法可能得到截然不同的结论),仅仅在获取数据方面,掌握搜索引擎的巨头们需要付出的成本并不十分大,或者最保守地说,这些成本是他们可以承受的。但是对于科研、工程领域而言,情况发生了本质变化,因为你必须考虑数据获取的成本,否则地球上所有的资源有可能都不够单项研究挥霍。
比如你要了解一个复杂机器中各种器件的振动响应量值,从而评估可靠性。那么为了获取数据,你最起码应该在各个关键器件上粘贴传感器。严格意义上说,你应该在每个关心的器件上粘贴传感器,因为人们普遍认识的所谓关键器件可能不是造成问题的根源。这样的成本是巨大的:首先,并不是所有的器件都容易粘贴传感器,有的很可能正是因为粘贴了传感器而出现了新的问题,于是你面临的问题不再是如何分析数据,而是究竟能不能获取数据。其次,进行一次试验所需的时间成本巨大,获取大量数据对于交付任务紧急的企业来说本身就是不可行的。最后,为了避免数据采集的随机误差,你需要在不同产品上重复试验,这样的成本没有谁能担负得起。
因此,对于工程上的东西,我们要么设法转变获取数据的方式(数字样机)从而降低数据获取成本,要么尽可能地多一些设计冗余(大自然是喜欢冗余的,不然一个眼睛就够用了)。