让数据发声_Big Data书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 科技 > Big Data > 让数据发声
songsing Big Data 的书评 发表时间:2013-10-03 10:10:23

让数据发声

久不读书,如今为某种触因重新捡起书本,感触良多。

此时,窗外阳光正好,窗内一片寂然。一杯清茶,一书在握,泥沙俱下的生活被暂时隔绝在文字之外,真好。

大数据,跨学科,这样的概念耳闻已久。一直想要一窥斑豹,一直未能如愿。今天,算是补上一课。

以下,是读书笔记,是为留痕。

引言:一场生活、工作与思维的大变革

“大数据”的概念,来源于最先经历信息爆炸的学科:天文学和基因学。
大数据发展的障碍,在于数据的“流动性”和“可获取性”。
大数据的核心是预测。
大数据时代最重要的技术是个性化技术。
大数据时代处理数据理念上的三个转变:
1)要全体不要抽样
2)要效率不要绝对精确
3)要相关不要因果。

第一部分:大数据时代的思维变革

大数据的精髓在于我们分析信息时的三个转变:
1)分析全体而不是抽样,让我们更清楚地看到了样本无法揭示的细节信息。(研究分析样本能更快更容易的发现问题,但不能回答事先未考虑到的问题)
2)适当忽略微观层面上的精确都会让我们在宏观层面拥有更好的洞察力,大数据时代应该追求效率而不再是绝对精确。(宽容错误会给我们带来更多价值)
3)大数据告诉我们“是什么”而不是“为什么”,我们从寻找因果关系转而寻找事物之间的相关性。

几个有趣的大数据分析为我们打开了一个从未涉足的世界的窗口:
1)Albert-Laszlo Barabasi 通过对4个月内的移动通信记录的数据分析发现:一个在关系网(此例为社区)内有着众多好友的人都重要性还不如一个只是与关系网外的人有联系的人。这说明无论是针对一个小团体还是整个社会,多样性是有额外价值的。
2)微软研究中心在改进word程序中语法检查的方法时发现:数据多比数据少好,更多数据比算法系统更智能还要重要。
3)google公司人工智能方面的研究指出:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。(混杂是关键)

第二部分:大数据时代的商业变革

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。

数据的基本用途为信息的收集和处理提供了依据,但数据的真实价值就像漂浮在海洋中的冰山,大部分的数据价值是潜在的,需要通过创新性的分析来释放。

数据的几种创新:
1)数据的再利用
2)重组数据
3)可扩展数据
4)数据的折旧值(随着时间的推移,大多数数据都会失去一部分基本用途)
5)数据废气:一个用来描述人们在网上留下的数字轨迹的词汇,它是用户在线交互的副产品,包括浏览量哪些页面、停留了多久、鼠标光标停留的位置、输入的信息等等。数据废气是许多电脑化服务背后(machine learning)的机制。数据废气可以成为公司的巨大竞争优势,也可能成为对手的强大进入壁垒。
6)开放数据:允许私营部分和社会大众访问政府采集控制的数据。

大数据价值链的三大构成:数据本身、大数据分析技术、大数据思维。在大数据时代的早期,思维和技术是最有价值的,但大数据价值必然会从技术和思维转移到大数据本身。未来真正值钱的,是“大数据”的拥有者或者数据中间商。

大数据的最大贡献之一:人类从依靠自身判断做决定到依靠数据做决定。彼时,行业专家和技术专家的光芒都会因统计学家和数据分析家的出现而变暗,因为后者能够聆听数据发出的声音。(因为专业技能就像精确性一样,只适用于“小数据”时代。只有在掌握的数据不够多也不精确是,才需要依赖多年的经验和直觉指导)

大数据时代,处于行业两端的公司会受益良多(超大型公司占据了数据规模优势,小公司则具备了灵活性),而中等规模公司要么向两端转移,要么破产。

第三部分:大数据时代的管理变革

大数据时代的威胁:个人隐私的保护、对人类自由意志的挑战、数据独裁。

1. 在小数据时代,对个人隐私的保护采取了三种措施:“告知与许可”、“技术模糊化”和“匿名化”。不幸的是,大数据使得这三种措施都不可行了。
1)数据的再利用,使得在数据收集时,既无法告知将来可能的数据再利用的潜在用途,消费者从而也无法许可数据潜在价值的挖掘。
2)技术模糊化在大数据时代也不过是“此地无银三百两”的自欺欺人。
3)大数据时代通过数据内容的交叉检验,个人信息很容易被挖掘出来,所以匿名化亦不可行。
2. 大数据时代,很容易对个人行为做出预测,基于此的预防固然可以减少犯罪和风险,但若更进一步,基于此对罪责做出责罚,显然有违公平正义的基础(个人自由选择的能力和行为责任自负的准则)。
3. 盲目信任数据的力量和潜能而忽略了它的局限性也容易引发数据的独裁。

大数据时代的数据管理变革:

1.将责任从民众转移到数据使用者。只有数据使用者才最清楚数据的再利用的用途所在,因此,对民众个人隐私的保护,他们责无旁贷。
2.对不同种类的个人数据规定限制其不同的存储和使用时间。
3.在使用预测分析时引入个人动因的考量,此外,尽量只预防不责罚。
4.催生大数据审计员,评估数据源的挑选,分析和预测工具的选取,考察运算法则和模型的挑选,以及计算结果的解读是否正确合理。
5. 防止数据垄断大亨的崛起。

展开全文
有用 5 无用 0

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读