你心里想的什么，大数据为何全知道？_智能时代书评-查字典图书网

这几年在互联网界，一直有两个词非常的火：

①互联网＋

就是「互联网＋传统行业」，这个很好理解，传统行业和互联网结合嘛，现在很多传统公司都在做互联网的转型。

②大数据

大数据这个词相信大家也不陌生，然而很多人会认为，大数据是高科技，所以跟我们普通人的生活没啥联系……

是这样的吗？

真相却是，你的周围早已有许多应用大数据的事件，只是你并没有察觉到而已。

就比如说前段时间王宝强跟马蓉搞离婚，这事儿在网上闹得沸沸扬扬，火到什么程度呢？

根据百度指数的官方统计：

王宝强的热度竟然比10个里约奥运会的热度加起来还要高！

短短3天，王宝强的微博一下子涨了900万的粉丝，离婚声明那一条微博甚至有300多万条评论。在评论区，网友们纷纷表示同情，无非是什么“马蓉太坏了，宝宝不哭，我们一直在你身边”啊等等。

但是大数据的统计结果却表明：

网友们的真实情绪竟然是快乐的！

这就好比，有要的人嘴上说着不要，身体却很老实；网友们嘴上说着同情，心里却开心得要命……

大数据是怎么得出这个结论的？

原来是有的科技公司，从社交网络上收集了大量人们表达情绪的信息，比如表情符号和标点符号（如感叹号、问号、省略号），还有代表了情绪的关键词。

把这些东西汇总起来，用特定算法分析出人们对王宝强离婚的情绪。

你心里的真实情绪是快乐，这一点天不知地不知，大数据却知道。

事实上，如今大数据的应用范围之广，可能远超出你的想象。

前段时间我读了一本书——《智能时代》，这本书实在太迷人了，我一字不落得给认真看完，作者吴军的文字实在是有趣又有料，强烈推荐！

今天的这篇文章就是我对《智能时代》这本书的思考总结，给你科普大数据的知识，一定可以拓宽你对这个世界的认知。

下面就来看看，大数据在哪些你根本意想不到的领域里大展身手？

1、什么是大数据？

什么是大数据？很多人觉得自己懂这个词的意思。事实却是，他们非但不懂，而且对大数据还有很多的误解。

首先，你知道什么是数据吗？

一个最常见的误解就是认为数据就是数字，这实在大大低估了数据的范畴。实际上，数字只是数据范畴里很小很小的一部分。互联网上的任何内容都是数据：

音频、文字、视频，你访问某网页的次数，甚至你再此网页停留的时间等等等等，都可以被记录下来，成为数据。

建筑师的设计图纸、国家机密档案也是数据，甚至我们的活动本身：一天的出行轨迹、购物、玩游戏的行为也会成为数据。

过去也有数据，但是那时候数据很难收集，而且量很小，导致无法从有限的数据里分析出什么规律，不过幸运的是：

互联网时代来了
随着个人电脑和手机移动端的普及，数据的收集变得越来越容易，收集到的数据越来越「大」，也就是所谓的大数据（big data）。

注意，有不少人认为「大」这个字指的是大量的意思，这也是一个普遍的误区，真相是：

大数据≠大量数据

作者吴军告诉我们，「大」的含义至少有三个层面：

①体量大：

量大当然是必要条件，但并不充分。

说白了，大数据一定是大量的数据，但大量的数据不一定是大数据。

比如说，你记录下全世界70亿人的出生日期，这是一个庞大的数据量了，但是除了能分析出全世界人口的年龄分布，其实没有什么别的意义。

②多维度：

百度曾用大数据做出来一份报告——《中国十大吃货省市排行榜》，有个关于「xx能吃吗」的问题，网友们的回答很有意思：

宁夏网友最关心的竟然是「螃蟹能吃吗？」，内蒙古、新疆、西藏网友最关心的是「蘑菇能吃吗？」，广东、福建、浙江等地的网友最关心的是「XX虫能吃吗？」

螃蟹都不敢吃的宁夏网友看到这份报告可能会吓一跳：世上居然还有人吃虫子！

得出这份报告，百度甚至没有做任何的问卷调查，或是地区饮食文化的研究。

它只做了一件事：

收集「百度知道」里7700万条跟吃有关的问题。
从食物的做法、吃法、营养价值、价格，到提问者所在的地域、时间，甚至连提问者使用的是手机还是电脑这样的行为，都会被记录下来成为数据。

可以看到，百度收集到的数据有非常多的维度，这里体现的就是大数据多维度的特征。

而下一步工作就是把多个维度的数据联系起来，通过计算机算法得到有统计意义的规律。

最终成果便是《中国十大吃货省市排行榜》。

③全面性：

注意，全面性和体量大这两个特征很容易混淆。前者指数据的覆盖范围广，而后者单单指数据的体量很大。

比如说，在大学里做一个「学生对食堂饭菜好感度」的调查，如果你只调查了女生而不调查男生，这就叫不全面。

来看下面这个例子：

2012年，一个叫内德·斯维尔的小伙子，竟然成功预测了美国50＋1个州的选举结果！

在过去统计学家看来，这根本是不可能办到的事情，而他之所以预测如此精准，是因为：

他收集了几乎所有，人们发表在社交网站、新闻媒体上的跟2012年大选有关的数据。
斯维尔收集的数据非常全面，几乎覆盖了每一个投票人的想法。

如今的美国大选，特朗普和希拉里正打得火热，多家媒体纷纷放出问卷调查，来看看民众更偏向选哪个候选人。多数问卷结果显示：希拉里会获胜。

然而根据Twitter对50多万用户的统计结果，却显示55%的人认为特朗普会获胜！在选举领域里，媒体问卷和大数据的这个比例差距还是很大的。

事实上，传统的问卷调查有很多天生的缺陷，比如说无法做到体量大、全面性等等。

还有些情况下，出于面子和道德压力，传统问卷并不能获得人们的真实想法。

试想，如果百度的吃货调查以问卷形式来做，估计很多人就不会在问卷上表明有「爱吃虫子」的癖好，以免显得自己非常怪异。

但是人们在百度知道上的提问和回答，则没有任何压力，没必要撒谎，所以反映的基本是真实想法。

这也是大数据调查之于问卷调查的一大优势。

2、大数据有什么用？

看到这儿，你可不要觉得大数据仅仅是用来做各种调查啊。

事实上，受益于大数据，很多行业正进行着飞速的产业升级：

制造业、农业、医疗……甚至体育行业！

最后一条你可能不大相信，大数据跟体育又有什么关系呢？

#例一：

在NBA的2014~2015赛季，金州勇士队夺得总冠军，但是在2009年，勇士队居然还是NBA最烂的球队之一，排名倒数老二。

勇士队是如何在短短6年里，从烂队走向冠军奖杯的呢？

有人说，勇士肯定是重金请了大牌教练和大牌明星，才有了今天的成就。

事实却是，勇士当初并没有什么大牌教练和球星，6年前新换的老板，反倒是把队伍里仅有的明星球员给卖掉了……这就奇了怪了，一穷二白的勇士是如何迅速成长并拿到总冠军的？

你可能很难想象，勇士队成功的原因在于，它处在一个很特别的地区：硅谷

硅谷的大数据工程师，竟然是勇士队的秘密武器！

通过对NBA无数场球赛的大数据分析，他们发现：

过往几十年NBA各球队的打法，喜欢追求制空权，所以那些大个子球星往往很受欢迎，因为他们可以很轻松地把球装进篮筐，或者直接扣篮。

这些动作看起来华丽，但大数据却发现，它们的得分效率并不高，全队消耗很多体能把球传给大个子前锋，还是在没有失误的情况下，也只能得2分。

于是勇士队的管理层设计了新的战术：

尽量在3分线外投篮，而不是突破到篮下再投。

稍微关注NBA的同学都知道这是谁吧，勇士队的三分球神投手——斯蒂芬·库里（Stephen Curry），他的三分球命中率简直是个神话！

别看库里现在功成名就，6年前身高只有1.91米的库里根本是个没人要的球员……

幸运的是，库里在球队以投篮为核心的思想指导下，成长飞速。不仅帮助勇士夺得了40多年来的第一个总冠军，他在2015~2016赛季投进的403个三分球，也创下NBA史上的新记录。

全队在这个思想的指导下，一个赛季居然投进了1000＋个三分球！

训练时，大数据帮助球员纠正姿势；比赛时，大数据还能指导球队随时调整战术。
勇士队的功与名，真的要感谢大数据。

#例二：

网易云音乐有一个每日歌曲推荐的功能非常受欢迎，推荐的歌大都不赖，常常是你喜欢的口味。其背后的原理也是基于大数据。

你听一首歌的类别、时长，还有收藏与否、下载与否、评论与否、点赞与否，这些东西都会成为数据，网易云音乐拿这些数据去分析你的喜好。

听的歌越多，收集到的数据也就越多，越能够预测出你的喜好，从而推荐给你喜欢听的歌。

实际上，各大购物网站也在做同样的事，你在淘宝、京东、亚马逊、当当等等网站留下的任何轨迹都会被记录下来，成为大数据分析的对象。

我想你早就发现，每个人的淘宝界面都不一样了吧？

这就是因为购物网站根据大数据，分析出了你个人的喜好，猜到你想要什么商品，最后在广告界面个性化地推荐给你。

3、大数据的“坏”

不仅是购物网站，几乎所有网站都可以获得你的上网轨迹：

你在某个页面停留的时间、点击了哪个超链接，甚至能知道你在离开网站以后又去逛了哪些网站。

就好像在你身上安了一个追踪器。

同样的，我们在百度搜索的每个关键词，在微博、微信、知乎、简书发表的每一句话、每个表情，也会为大数据所用……

现在貌似还没什么问题，但未来，如果到了「万物联网」时代，连钥匙扣、茶杯这样的东西都连上了互联网……

这可能就意味着：

我们的一切行为都可以被数据工程师记录，个人将毫无隐私可言。
事实上，已经有商家在利用这点损害我们的利益。

在某宝，有些人经常买到假货，有些人却以同样的价格买到正品。这很可能不是运气问题，而是因为商家掌握了个人的太多数据：

商家知道你是个买到假货也不吭声的软柿子，还是个锱铢必报的人。

我们可以说这种行为很「脏」，没有职业道德，但又不能说他违法，因为并没有相关的法律条文规范这种行为。

而事实上，在未来智能化社会，单单靠法律是很难根治隐私保护问题的的，有两点原因：

1、查证起来十分困难。

2、法律条文的制定有很高的滞后性，往往上一个案件的法律还没制定出来，新的问题又出现了。

所以说，我们还必须有相应的技术手段保护个人隐私。

已有的隐私保护手段有这2类：

①预处理

从收集信息的一开始，就对事关隐私的数据进行加密处理，使得数据工程师分析不出数据的真正含义。这个方法能防止个人窃取数据以谋取利益，可对那些大型的大数据公司基本没效。

②双向监视

简单来说，双向监视是指：

如果一个人偷窥别人隐私时，自己的偷窥行为本身暴露了，那么他多少会约束自己的行为。

这就好比，王二正在色眯眯地通过门缝偷窥女孩洗澡，但是他突然发现张三看到他在偷窥，偷窥行为暴露了。

那么王二的反应，肯定是立刻捂头盖脸地跑掉。

《失控》作者凯文·凯利
凯文·凯利（Kevin Kelly）和同事们通过实验发现：

如果要人输入自己的隐私才能够偷窥到别人的隐私，多数人会选择放弃偷窥。
想要侵犯别人的隐私，必须以自己的隐私来作为代价，这就叫双向监视，是可以在技术手段上实现的。

事实上，作者吴军和凯文·凯利曾一起做过调查，发现现在许多人只是把个人隐私挂在嘴边，实则对隐私保护普遍不够重视。而在未来，随着大数据技术的普及，隐私问题会越来越突出而敏感。

然而，当技术与个人隐私产生矛盾，技术是绝不会停止发展的，所以我们只能用技术解决技术问题。

未来如何，我们拭目以待？

你心里想的什么，大数据为何全知道？

您对该书评有什么想说的？

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读