摇小灰
对
Big Data
的书评
发表时间:2016-01-06 11:01:56
一、引言:一场生活、工作与思维的大变革
1.大数据,变革公共卫生。谷歌通过对海量搜索数据的分析,准确预测H1N1疫情
2.大数据,变革商业。Farecast预测机票价格走势帮助乘客省钱
3.大数据,变革思维。数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系,这就推翻了自古以来的惯例。
4.大数据,开启重大的时代转型
5预测,大数据的核心
6.大数据,大挑战
第一部分大数据时代的思维变革
第1章更多:不是随机样本,而是全体数据
1.让数据“发声”
大数据与三个重大的思维转变有关:
①首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本
②其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
③最后,我们不再探求事物的因果关系,转而关注事物的相关关系
2.小数据时代的随机采样,最少的数据获得最多的信息
过去由于记录、存储和分析数据工具的限制,我们只能收集少量数据进行分析。
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大,所以样本的随机性比样本数量更重要。随机采样取得了巨大成功,成为现代社会、现代测量的主心骨,但这只是一条捷径实在不可能收集和分析全部数据的情况下的选择,它本身存在很多固有的缺陷。
缺陷:
①它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难,一旦采样过程中存在任何偏见,分析结果就会相去甚远。
②另外,随机采样不适合考查子类别的情况,因为一旦继续细分,随机采样结果的错误率就会大大增加,因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。
③随机采样需要严密的安排与执行,人们只能从采样数据中得出事先设计好的问题的结果,缺乏延展性。
④无法捕捉事物的细节
3.全数据模式,样本=总体
条件:数据收集能力、数据存储能力、数据分析能力
大数据并不是绝对意义数量上的大,大数据是指不用随即分析法这样的捷径,而采用所有数据的方法。
第2章更杂:不是精确性,而是混杂性
1.允许不精确
在采样分析时代,对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量,因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。
大数据时代,我们必须容忍不精确的出现,与各种各样的混乱作斗争,混乱一方面是指随着数据的增加,错误率也会增加;另一方面是指格式的不一致性。大数据是用概率说话,而不是精确性。
2.大数据的简单算法比小数据的复杂算法更有效
3.纷繁的数据越多越好
大数据时代要求我们重新审视精确性的优劣,大数据让我们不再期待精确性,也让我们无法实现精确性,错误并不是大数据的固有特性,而是一个亟待解决的现实问题,并且有可能长期存在。
4.混杂性,不是竭力避免,而是标准途径
分类法和索引法只在传统的“小数据”时代适用,一旦数据规模达到一定程度便失效,大数据时代清楚地分类法被更混乱却更灵活的机制所取代。
标签是网络资源的分类标准,标签的使用没有标准,没有预先设定的排列和分类,标签使互联网上的资源更容易找到,特别是图片、视频和音乐等无法用关键词搜索的非文本类资源。
要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是极力避免的。
5.新的数据库设计的诞生
只有5%的数字数据是结构化的且能适用于传统数据库,如果不接受混乱,剩下的95%的非结构化数据都无法被利用,通过接受不精确性,我们打开了一个新的世界。
大数据时代出现了非关系型数据库,它不需要预先设定记录结构,与需处理超大量五花八门的数据,因为它包容了结构多样性,这些数据库就要求更多的处理和存储资源。
传统的数据库设计要求在不同的时间提供一致的结果,但是随着数据的大幅增加以及系统用户的增加,这种一致性将越来越难保持。
大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上,为了确保其运行的稳定性和速度,一个巨鹿可能会分开存储在两三个地方。
第3章更好:不是因果关系,而是相关关系
亚马逊推荐系统:知道是什么就够了,没必要知道为什么。
1.关联物,预测的关键
相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很可能也会随之增加,相关关系弱意味着当一个数据值增加时,另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助我们分析 一个现象,而不是通过揭示其内部的运作机制,通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
建立在相关关系分析法基础上的预测是大数据的核心,大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
2.“是什么”,而不是“为什么”
哲学界的争论:因果关系否定人的自由意志
丹尼尔·卡尼曼《思考,快与慢》:人有两种思维模式:第一种是不费力的快速思维,通过这种思维几秒钟就能得出结论;另一种是慢性思维,就是需要考虑到位。快速思维模式使人们偏向用因果联系来看待事物,而大多数情况下这种因果关系并不存在。
表面上因果关系是浅显易懂的,事实却并非如此,因果关系是很难被证明的,而相关关系却可以通过数据分析被轻易证明。
因果关系还是有用的,但是它不再被看做是意义来源的基础,在大数据时代,即使很多情况下我们依然指望用因果关系来说明我们所发现的相互联系,但是我们知道因果关系只是一种特殊的相关关系,相反,大数据推动力相关关系分析、县官关系通常能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。
3.改变,从操作方式开始
我们需要改变我们的操作方式吗,使用我们能搜集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在,另外我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因
4.大数据,改变人类探索世界的方法
在小数据时代,我们会假想世界是怎么运作的,然后通过收集和分析数据来验证这种假想,在不久的将来,我们会在大数据的指导下探索世界,不再受制于各种假想,我们的研究始于数据。
假想通常来自自然理论和社会科学,它们也是帮助我们解释和预测周遭世界的基础,随着由假想时代到数据时代的过渡,我们很可能也不再需要理论了。
第二部分大数据时代的商业变革
第4章数据化:一切皆可“量化”
1.数据,从最不可能的地方提取出来
2.数据化,不是数字化。数字化指的是把模拟数据准换成用0和1表示的二进制码,数据化是指一种把现象转变为可制表分析的量化形式的过程。
3.量化一切,数据化的核心 。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
4.当文字变成数据 。当文字变成数据,它就大显神通了——人可以用之阅读,及其也可以用之分析。(谷歌的数字图书馆)
5.当方位变成数据。地球本身构成了世界上最基础的信息,人和事物的地理定位自然是信息的组成部分。对地理位置的数据化需要地理范围、标准、工具或者说量化、标准化、收集。(UPS最佳行车路径)
6.当沟通成为数据 数据化的构思是许多社交网络公司的脊梁,社交网络平台将我们日常生活中的无形元素提取出来,再转化为可作新用途的数据。
7.一切事物的数据化
第5章价值:“取之不尽,用之不竭”的数据创新
尽管数据长期以来一直是有价值的,但通常只是被视为附属于企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别。但在大数据时代,所有数据都是有价值的。
我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据经常会得到被动地收集,人们无须投入太多精力甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可以比任何时候都大。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。
数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。要了解大数据时代究竟有多少信息对我们有价值,后面这一点尤其重要。
数据的真实价值就像是漂浮在海洋上的冰山,第一眼只能看到冰山一角,绝大部分隐藏在表面之下,判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。
最终,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值,即数据的“潜在价值”。数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”,而数据的折旧值、数据废弃和开放数据则是更为独特的方式。
数据创新1:数据的再利用
数据创新再利用的一个典型例子是搜索关键词
数据创新2:重组数据
有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据,我们可以做出很有创意的东西来。一个成功的例子是2011年发表的关于手机是否增加致癌可能性的一项有趣的研究。
随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
数据创新3:可扩展数据
促成数据再利用的方法之一是从一开始就设计好它的可扩展性,。收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。这增加了数据的潜在价值。问题的关键是寻找“一份钱两份货”,即如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。
数据创新4:数据的折旧值
随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。
并非所有的数据都会贬值,有些公司提倡尽可能长时间地保存数据,即使数据用于基本用途的价值会减少,但潜在价值却依然强大。
潜在价值的概念表明,组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据,前提是要保留所谓的“延展性”权利(专利许可术语)。这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分到一杯羹。数据收集者和拥有者无法想象数据再利用的所有可能方式,这一点几乎是不言自明的
数据创新5:数据废气
数据再利用的方式可以很巧妙、很隐蔽。网络公司可以捕捉到用户在其网站上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。两个关于拼写检查的故事给我们提供了一个生动的解释。(微软和谷歌)
数据废气用来描述人们在网上留下的数字轨迹,它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务
数据创新6:开放数据
政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。因此,政府将继续收集和积累大量的数据。
提取政府数据价值最好的办法是允许私营部门和社会大众访问,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。
给数据估值
公司所持有和使用的数据也渐渐纳入了无形资产的范畴。
如何给数据估值呢?一个办法是从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。由于被许可人可能无法提取数据全部的潜在价值,因此数据持有人可能还会同时向其他方授权使用其数据,两边下注以避免损失。因而,“数据滥交”可能会成为一种常态。
数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
第6章角色定位:数据、技术与思维的三足鼎立
大数据价值链的3大构成
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。第一种是基于数据本身的公司,这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能(Twitter);第二种是基于技能的公司,它们通常是咨询公司、技术供应商或者分析公司(天睿);第三种是基于思维的公司,对于某些公司来说,数据和技能并不是成功的关键。
数据才是最核心的部分,过分强调技术和技能而忽视数据本身的重要性也是不可取的。
大数据掌控公司
大数据最值钱的部分就在于它自身,所以最先考虑数据拥有者才是明智的,他们可能不是第一手收集数据的人,但是他们能接触到数据、有权使用数据湖综合将数据授权给渴望挖掘价值的人。
大数据技术公司
第二种类型的公司就是拥有技术和专业技能的公司。大数据拥有着依靠技术专家来挖掘数据的价值,他们在数据中发现了价值,最后却要把这些价值拱手让给大数据拥有者。
大数据思维公司和个人
第三种类型是有着大数据思维的公司和个人(谷歌三者兼有),他们的优势在于能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能,他们只考虑可能性,而不考虑可行性。
所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
全新的数据中间商
现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。数据拥有者会慢慢意识到大数据的价值,因此会把它们抓得更紧。
然而,对数据拥有者来说,有一个问题值得关注:那就是在有些情况下会出现数据中间人,他们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用,数据拥有者可以让数据中间人充当这样的角色,因为有些数据的价值只能通过中间人来挖掘。
这些中间人在这个价值链中站在了一个收益丰厚的位置上,但是它们并没有威胁到为他们提供数据的数据拥有者的利润。随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了
专家的消亡与数据科学家的崛起
人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。专家在各个领域的影响力正在减弱,当然行业专家不会消亡,只是他们的主导地位会发生改变。
大数据,决定企业的竞争力
大数据成为很多公司竞争力的来源,从而使整个行业结构都改变了,大公司和小公司可能成为赢家,而大部分中等公司则可能在行业调整中失去优势。
行业领头羊(谷歌、亚马逊)会一直保持领先地位,他们的核心竞争力体现在数据规模上。规模仍然很重要,但是重要的是数据的规模,也就是说要掌握大量的数据而且要有能力轻松获得更多的数据,随着数据越来越多,大数据拥有着会大放异彩,因为他们可以把数据转换为价值。
大数据也为小公司带来了机遇,小公司能享受到非固有资产规模带来的好处。它们可能没有很多的固有资产但是存在感非常强,也可以低成本地传播它们的创新成果。重要的是,因为最好的大数据服务都是以创新思维为基础的,所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有,数据分析能在云处理平台上快速而且低成本地进行,而授权费用则应从数据带来的利益中抽取一小部分。
大数据对中等规模的公司帮助并不大,超大型的公司占据了规模优势,而小公司则具有灵活性,大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。
第三部分大数据时代的管理变革
第7章风险:让数据主宰一切的隐忧
无处不在的“第三只眼”
大数据时代将会使我们给我们的隐私带来更大的威胁。另外还将面对一个新的挑战,即运用大数据预测来判断和惩罚人类的潜在行为,这是对公平公正以及自由意志的一种亵渎,同时也轻视了决策过程中深思熟虑的重要性。
除了对隐私和倾向的不良影响,大数据还有一个弊端,那就是我们毛线把最烦的定罪权放在了数据受众,但这实际上是一种滥用。应用得当,大数据会是我们合理决策过程中的有力武器;倘若应用不当,它就可能成为权贵用来镇压民众的工具。
我们的隐私被二次利用了
大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。这就颠覆了传统隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了哪些数据、作何用途,也必须在收集工作开始之前征集个人的同意,大数据时代,“告知与许可”完全没有意义了。
想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。
另一条技术途径在大部分情况下也不可行,那就是匿名化。匿名化指的是让所有能揭示个人情况的信息都不出现在数据集里,在小数据时代这样确实可行,但是随着数据量和种类的增多,大数据促进了数据内容的交叉检验,匿名化对大数据呈现出无效性。出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了,这是因为大数据时代的监控方式已经改变了。
预测与惩罚,不是因为所做,而是因为“将做”
人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪,不受限制的大数据分析可能会导致罪责的判定是基于对个人未来行为的预测。基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责
主要的问题是我们在人们真正犯罪之前对他进行惩罚否定了人的自由权利。我们永远不会知道这个受惩罚的人是否会真正犯罪,因为我们已经通过预测预先制止了这种行为,如此一来,我们就没有让他按照他的意愿去做,但是我们却依然坚持他应该为自己尚未实施的未来行为付出代价,而我们的预测也永远无法得到证实,这否定了法律系统或者说我们的公平意识的基石——无罪推定原则。
大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。
数据独裁
大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。
挣脱大数据的困境
必须杜绝对数据的过分依赖
第8章掌控:责任与自由并举的信息管理
我们在生产和交流信息方式上的变革必然会引发自我管理所用规范的变革。但变革并不止于规范,管理规范上的转变也体现着更深层次价值观的转变。
大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险——我们需要全新的制度桂发,而不是修改原有规范的适用范围。想要保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任;同时,我们必须重新定义公正的概念,以确保人类的行为自由。
管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任
一直以来,全球范围内的隐私规范都开始让人们自主决定是否、如何以及经由谁来处理他们的信息,把这种控制权放在人们自己的手中,这也是隐私规范的核心准则。在互联网时代,这个准则往往会演变成“告知与许可”的公式化系统。
而在大数据时代,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。
此外与目前隐私保护法所要求的不一样,数据使用者在达到最初的目的之后不再规定必须删除信息,相反允许较长时间保存数据,但社会必须平衡二次运用的优势与过度披露所带来的风险,为实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。更适用于大数据时代的平衡:公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。
除了从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护,一个途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果。这就使得挖出特定个人与特定数据点的联系变得难以实现并且耗费巨大。
管理变革2:个人动因VS预测分析
在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。
身处大数据时代,我们必须拓宽对公正的理解,必须把对个人动因的保护纳入进来,就像目前我们为程序公正所做的努力一样。如若不然,公正的信念就可能被完全破坏。
管理变革3:击碎黑盒子,大数据程序员的崛起
大数据的运作是在一个超出我们正常理解的范围之上的,因此大数据预测、运算法则和数据库有变为黑匣子的风险,这个黑匣子不透明、不可解释、不可追踪。为了防止这些情况的出现,大数据将需要被监测并保持透明度,将会有一个新的人群来扮演监测的角色。
算法师:他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员。这些新的专业人员会是计算机科学、数学和统计学领域的专家,他们将担任大数据分析和预测的评估专家。他们必须保证公正和保密。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。
管理变革4:反数据垄断大亨
为了促进大数据平台上的良性竞争,政府必须运用反垄断条例。我们提出了三项策略,包括隐私保护从个人许可到数据使用者承担责任的转变,在使用预测分析时考虑个人动因以及催生大数据审计员,也就是算法师。这都将是大数据时代对信息进行有效、公正管理的基础