前言 人类的胜利
机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。
AlphaGo: 第一个关键技术是把棋盘上当前的状态变成一个获胜概率的数学模型,这个模型里面没有任何人工的规则,而是完全靠前面所说的数据训练出来的。第二个关键技术是启发式搜索算法——蒙特卡罗树搜索算法(Monte Carlo Tree Search),它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。相比深蓝,AlphaGo靠的是更好的搜算算法,能够准确的聚焦搜索空间,在短时间内算出最佳的下法。AlphaGo无论是在训练模型时,还是在下棋时所采用的算法都是几十年前大家就已经知道的机器学习和博弈树搜索算法。
未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。
第一章 数据——人类建造文明的基石
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力。
数据-信息-知识:
那些有用的数据、毫无意义的数据和伪造的数据常常是混在一起的,后面两种数据无疑会干扰我们从数据中获取有用的信息,因此如何处理数据,过滤掉没有用的噪声和删除有害的数据,从而获取数据背后的信息,就成为技术甚至是一种艺术。对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。
相关性:使用数据的钥匙
很多时候,我们无法直接获得信息(比如疫情传播情况),但是我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。
统计学:点石成金的魔棒
样本的数量和质量,对推测总体极其重要。在具备大数据能力之前,通过有限样本去推测总体总是存在偏差。
在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事,在误差允许的范围内做一些统计当然没有问题,但是只有在很少的情况下能够单纯依靠数据来解决复杂的问题。因此在20世纪90年代之前,整个社会对数据并不是很看重。
数学模型:数据驱动方法的基础
数据驱动方法的含义:完美的模型很难寻找,但只要数据量足够,就可以用若干个简单的模型去趋近。
有了模型之后,第二步就是要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。这一点在过去的被重视程度远不如找模型。但是今天它又有了一个比较时髦而高深的词——机器学习。
从理论上讲,只要找到足够多的具有代表性的样本(数据),就可以运用数学找到一个模型或者一组模型的组合,使得它和真实情况非常接近。
在工程上,采用多而简单的模型常常比一个精确的模型成本更低,也被使用的更普遍。
其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据(Fit Data)。
在过去的30年里,计算机变得越来越聪明,这并非是因为我们对特定问题的认识有了多大的提高,而是因为在很大程度上我们靠的是数据量的增加。
数据驱动方法最大的优势在于,它可以在最大程度上得益于计算机技术的进步。相比之下,其他方法的改进需要理论的突破,周期非常长。(暴力拆解)
数据驱动方法是大数据的基础,也是智能革命的核心,更是一种新的思维方式。
人类应对不确定性的方法是“培养随机应变的能力”,而机器的方法是穷举所有可能的情形。
第二章 大数据和机器智能
在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。如今在很多与“智能”有关的研究领域,比如图像识别和自然语言理解,如果所采用的方法无法利用数据量的优势,会被认为是落伍的。
大数据的特征:体量大+多维度+完备性
交通:利用一个城市交通状况的历史数据,结合实时数据,预测一段时间后该城市道路可能出现的交通状况。
仔细推敲英语中big data这种说法,我们不得不承认这个提法非常准确,big相比与large, vast,是一种抽象意义的大。它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。
计算机利用数学模型,能够在棋盘的任何一个状态下,比如说某个状态叫作S,评估出自己和对方获胜的概率为P(S)。当它要考虑接下来可能的走法,比如说有N种〔20〕走法时,先要考察这些走法分别对应状态,计算出相应的获胜概率。根据这些概率,深蓝找出一个让自己获胜概率最大的状态,它就往这个方向走。接下来,该对方走棋了,对方走出一步棋后棋盘进入一个新的状态S''。当然,深蓝在评估自己和对方的胜率时,会根据历史的数据考虑卡斯帕罗夫可能采用的走法,对不同的状态给出可能性的估计,然后根据对方下一步走法对盘面的影响,核实这些可能性的估计,找到一个最有利于自己的状态,并走出这步棋。
大数据可以克服传统统计方法的缺点:设计问卷可能有主管偏差、选取样本可能不随机、受众因为知道在测试可能说谎、半人工统计数据。
大数据的科学基础是信息论,其本质是利用信息消除不确定性。
第三章 思维的革命
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
机械思维的核心:世界规律是确定的,可以通过逻辑推理和因果关系认识世界。代表人物是欧几里得、托勒密和牛顿。
1、世界变化的规律是确定的;(爱因斯坦说,上帝不掷骰子。)
2、世界是可认识的,而且可以用简单的公式和语言描述清楚;
3、认识到的规律,应该是通用的,放之四海而皆准的。
机械思维开启了工业革命,人类的财富、寿命、认知边界都因此极大提升。但是今天其局限性越来越明显,一方面因果关系越来越难寻找,另一方面世界其实充满了不确定性,上帝也掷骰子(量子测不准原理、股票走向、经济学预测等)。因为我们测量活动本身影响了被测量的结果。对于股市上的操作也类似,当有人按照某个理论买或者卖股票时,其实给股市带来了一个相反的推动力,这导致股市在微观上的走向和理论预测的方向相反。
用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,
首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。
这种找不出原因的答案我们是否敢接受呢?如果我们愿意接受,那么我们的思维方式已经跳出了机械时代单纯追求因果关系的做法,开始具有大数据思维了。
点击模型的准确性取决于数据量的大小。对于常见的搜索,比如“虚拟现实”,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如“毕加索早期作品介绍”,需要很长的时间才能收集到“足够多的数据”来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。
搜索质量的竞争就成了浏览器或者其他客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争的是技术,但更准确地讲,它们是在数据层面竞争。Google播什么广告,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果。
第四章 大数据和商业
未来,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
案例一:数据本来就存在,现在通过分析产生新价值
警察局:通过用电数据的监测分析,找出在家里种植大麻的人。对于查处毒品种植的案例,我们看到了大数据思维的三个亮点:第一是用统计规律和个案对比,做到精准定位。第二是社会其实已经默认了在取证时利用相关性代替直接证据,即我们在前面所说的强相关性代替因果关
税务部门:通过同类餐馆历史纳税数据的分析,找出偷税漏税的餐馆。联邦和州两级税务局防止小企业偷漏税的做法其实很简单。首先,税务局将企业按照规模(场地大小)、类型和地址做一个简单的分类,比如旧金山拿骚大街上的餐馆分为一类,圣荷西第十大街上的某个理发店分为另一类等。然后,税务局根据历史的数据对每一类大致的收入和纳税情况进行分析。
塔吉特超市:通过客户历史采购记录,找出怀孕的客户进行针对性营销。
亚马逊:通过用户的购买行为,进行个性化推荐。
netflix:邮寄DVD做的不温不火,改在线观影之后,通过用户的观影行为进行个性化推荐,发展非常快。
google:通过用户的搜索记录,进行关键词推荐;即使用户不输入关键词,也会有自动下拉条
案例二:通过传感器和RFID收集新数据,再进行分析
酒吧:之前,酒吧有1/4的酒被酒保偷偷喝掉,但是老板无能为力。现在,在酒架安装测重量的传感器,每个酒瓶贴上RFID芯片,就可以知道哪一瓶酒在何时被倒了多少酒,和交易记录联系起来。在此基础上,可以延伸出BI、预警、行业报告等业务。
PRADA:对奢侈品而言,购物过程和设计、材质一样重要。但之前管理者无法知道某件产品卖得不好,是设计、材质问题,还是购物体验不好。给每件衣服加上RFID芯片,给试衣间安上阅读器。
金风科技:过去是一锤子买卖,现在管理者可以知道每台设备的运转情况(时间、地点、发电量、是否运转)。同样可以往BI、预警、行业报告延伸。
google无人驾驶车:装有十多个传感器,每秒进行几十次扫描,并将数据传输到google中心处理。(但是只能去google扫过街的地方,收集所有的建筑物信息、街道信息、人流密度等等,事先模拟每一种情形。)
首先,Google自动驾驶汽车项目其实是它已经成熟的街景项目的延伸。对Google自动驾驶汽车的各种报道通常都会忽视一个事实,那就是它只能去Google“扫过街”的地方。对于这些已经去过的地方,Google都收集到了非常完备的信息,比如周围的各种目标的形状大小、颜色,每条街道的宽窄、限速,不同时间的交通情况、人流密度等,Google都事先处理好以备未来使用。因此,自动驾驶汽车每到一处,对周围的环境是非常了解的,它可以迅速把这些数据调出作为参考。而过去那些研究所里研制的自动驾驶汽车使用的是人的思维方式,每到一处都要临时识别目标,这样即使所搭载的计算机再快,也来不及进行太深入的计算,因此无法做出准确判断。
其次,自动驾驶汽车上装有十多个传感器,每秒钟进行几十次的各种扫描,这一方面超过了人所能做到的“眼观六路、耳听八方”,同时大量的数据要在短时间内处理完,计算的压力是非常大的。Google的自动驾驶汽车是通过移动互联网与Google的
再次,我们人开车,常常是根据周围情况临时做出判断,遇到死胡同,转弯掉头再找其他的道路。Google拥有一个最好的全球地图数据,它的自动驾驶汽车不仅行驶的路线大部分是事先规划好的,而且对各地的路况以及不同交通状况下车辆行驶的模式有准确的了解。
第五章 大数据和智能革命的技术挑战
今天,我们可能再次站在历史的拐点:机器智能超过人类。数据呈爆炸式积累、存储读取技术、传输技术、云计算等技术在十年前逐渐成熟,但机器智能仍面临几点挑战:
数据收集:看似简单的难题
数据的所有者不愿意把数据共享出来,创业者只能自己找数据;
刻意收集的数据往往不具有代表性,有价值的数据往往是不经意间收集的,或者兜了一个大圈收集的;
数据存储:可能重新成为问题
当人们意识到大数据的价值,数据增长可能超过存储读取技术的发展;
不同数据的格式化问题;(强调数据收集的无目的性,加剧了格式化问题)
大数据由于量大,随机的访问就成为一个难题。
大数据面临的另一个技术难题就是如何标准化数据格式,以便共享。
并行计算和实时处理:并非增加机器那么简单
在计算机领域,软件功能的增加和改进要不断地吃掉硬件性能的提升。
有很多任务无法100%的拆分,能拆分的部分也无法做到100%的平均;
实时问题:大数据运算通常需要几十分钟;
明针对大数据的实时处理需要开发很多新的工具,而不是简单地把过去的工具并行化就可以。
数据挖掘:机器智能的关键
使用大数据的第一步:对数据过滤和整理(考验自然语言理解技术);
SNR:信号与噪声比(signal noise ratio),描述信号的质量。(降噪处理:损失部分数据,提高信噪比)
第二步:机器学习
相关算法在40年前就已成熟:人工神经网络算法、最大熵模型、逻辑自回归等;
过去数据量和计算能力不够,机器学习的应用范围较窄;但是即使目前数据量大了之后,机器学习也面临许多难点。数据量的增加,会导致计算时间的剧增。
几十年前的算法是否会影响机器学习效果?从总体来看,大部分机器学习算法是等效的,只有量的差别,没有质的差别;而量的差别可以通过数据量来弥补。对于特定的问题,确实会有一个机器算法比其他算法好的情况。未来,会出现专门做机器学习软件的公司,为需要使用大数据和机器智能的公司提供服务。
生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。在IT时代,唱主角的公司逐渐从制造设备的IBM、DEC、爱立信、诺基亚和惠普等公司,变成了提供软件和服务的微软、甲骨文和Google等公司。
未来产品的服务水平不完全取决于厂商对它的重视程度(比如服务态度)和相关技术,而更多要依靠智能化。未来,商家将在数据层面和智能化方面展开竞争。
在今天大数据和机器智能的时代,虽然每一个公司都会得益于数据的使用以及机器智能带来的好处,但这并不意味着每家公司都要聘请数据科学家或者机器智能方面的专家。更切合实际的是,他们付费使用第三方的服务。
“期望值最大化”(Expectation Maximization):只要事先定出一个学习的目标,这些算法就会不断地优化模型,让它越来越接近真实的情况。可以说,机器学习训练算法迭代的次数越多,或者通俗地说学习得越深入,得到的数学模型效果越好。因此,同样的数据,同样的算法,采用不同深度的机器学习方法,得到的结果会有所不同。
google的突破,在于把一个很大的模型上百万参数同时训练问题,简化为能够分布到上万台服务器上的小问题,这样使得大型的人工神经网络训练成为可能。(工程上的突破)
数据安全的技术
1、保证用户的数据不损坏、不丢失;
2、保证数据不会被非法查看或者盗用;
机器学习可以利用大数据(日志信息),学习公司的正常业务流程;非法闯入者由于不熟悉流程,将被禁止访问。
日本有个发明家将其用于汽车防盗:能够根据主人平时的身材、坐姿、动作,判断是否为陌生人驾驶。
保护隐私:靠大数据长期挣钱的必要条件
大数据可以从很多支离破碎的信息中,完全复原一个人或者一个组织的信息。
人往往更在意便利性,而非安全或者隐私。
在淘宝,许多人总是买到假货,而许多人可以买到真货。原因是商家了解这个客户是否难搞。
航空公司:了解到某人近期准备出游,而且过去对价格不太敏感,就给出较高的报价。
1、简单的屏蔽部分个人信息:在大数据之下并没有用,多维度信息可以相互复原;
2、对数据做加密处理:从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据科学家和数据工程师能够处理数据,却“读不懂”数据的内容。只能让经手的数据工程师无法窥探隐私,但是掌握数据的公司还是可以;
3、双向监视:当使用者看计算机时,计算机也在看使用者。大部分人喜欢偷窥别人隐私的一个原因是,这种行为是没有任何成本的。窥探他人的人,其窥探行为本身也会暴露。
为了在使用大数据的同时尽可能地保护隐私,数据从采集到使用都需要是双向知情的,也就是说不再是数据的所有者暴露在大庭广众之下,数据的采集者和使用者(偷窥者也是一种特殊的数据使用者)也是同样被监督的,或许这样是最有效地保护隐私的方式。
第六章 未来智能化产业
现有产业+机器智能=新产业,未来的农业、制造业、体育、医疗、律师,甚至编辑记者行业都将迎来崭新形态,新产业将取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁。
未来的农业
以色列的滴灌技术:将水和肥料直接送达植物根系;传感器采集植物状况和湿度,决定剂量。
Droplet:家庭院落自动喷水机器人,测试各地的湿度和植物高度,决定喷水角度和喷水量。不漏掉任何一片植物,也不重复喷水。如果明后天会下雨,就停止浇灌。
未来的体育:
勇士队:垃圾球队利用大数据,在2015年获得NBA总冠军。把明星球员卖掉,不再强调扣篮和中锋,而是追求投3分球。因为从数据来看,投3分更节省体力,更有效率。此外,利用数据及时调整比赛中的战术。
女排:中国女排靠水平和拼搏,美国女排靠高速摄像机和统计。
大数据对体育的价值,还在于分析和总结优秀选手的动作姿势,用于纠正其他运动员。
未来的制造业:
特斯拉:尽可能的用机器人替代工人:降低成本、实现个性化定制。
从设计开始,就和消费者建立联系,从而砍掉了中间批发商。
未来的医疗:
医疗影像分析系统:诊断能力胜过专科医生。没有哪个医生能学习几百万份的病例,但计算机能。
达·芬奇手术系统:利用机器人做手术,机械臂的的灵活性远超过人,带有摄像头进入人体内手术,医生可以远程干预。目前全世界共装配了3000多台,完成了300万例手术。
IBM沃特森(Watson),可以分析各种数据和医学影像,帮助疾病诊断和医疗信息的管理。在肿瘤领域,已经可以达到中等医生水平。
癌症:如果针对每一个人基因的最新变化,快速研制新药,快过癌细胞的变化,是可以遏制癌症的。这样成本太高,但是所有的基因错误不过万级,所有的癌症不过百级,其组合不过千万,在IT上是不算大的。如果能利用大数据技术,给每一种可能的组合编号,找到对应相应的药物,个性化用药就不是难事了。(穷尽的思路)
长寿问题:利用临床数据找出衰老基因,再利用基因编辑技术进行修复。
未来,同一种疾病会用不同的药品治疗,同一个病人今天用的药和昨天不一样。
未来的律师业:(阅读能力)
机器智能可以阅读和分析法律文献,使律师的效率提高500倍,打官司的成本降低99%。今天,美国法学院的毕业生,比之前更难找到正式工作了。
未来的记者和编辑:(写作能力)
学习过往所有的财经类文章,提取最新的数据,就可以写出不错的文章。
第七章 智能革命和未来社会
我们可以把工业革命对社会的影响分成三个阶段:第一个阶段只有发明家和工厂主们受益,普通英国民众并没有受益;第二阶段是全体英国民众普遍受益,但是在世界范围内大家未必受益,这两个阶段之间相差半个多世纪;第三个阶段才是整个世界受益,这和第二个阶段又相差很长时间。
如今,各国意识到社会稳定很重要,因此即使很多人并不创造价值,也只好“养着”。为此,有些国家将无所事事的人强制塞到公司里(比如日本和欧盟),有些国家不肯淘汰过剩产能(比如中国),但解决问题的途径都是一个“耗”字。耗上两代,社会问题就解决了。
第一次和第二次工业革命带来的负面影响都花了半个世纪以上的时间来消除,而摩尔定律从1965年提出距今已经半个多世纪了,它带来的影响至今还没有消化掉。这时,智能革命又开始了,因此这次的冲击力度将是双重叠加的结果。
虽然我们不知道如何在短期内创造出能消化几十亿劳动力的产业,但是我们很清楚如何让自己在智能革命中受益,而不是被抛弃。这个答案很简单,就是争当2%的人,而不是自豪地宣称自己是98%的人。