先聊一下这本书的书名:Uncharted:Big Data as a Lens on Human Culture。书名大概包含了几个关键词,第一个就是Uncharted,未知的意思,而书中其实用的更多的是Chart 图标这个单词,因为书中包含了很多有趣的对照图表(更为有趣的是,虽然常说一图胜千言,本书还探究了一番到底一图胜多少言),接下来就是Big Data这个单词,大数据很火,而本文的几个大数据观点也是很有趣,第一个就是常说的大数据研究的是关联性而不是因果性,所以本文中出现的结论也仅仅是拿数字说话,至于为什么暂不清楚,第二个就是大数据不仅仅要数据量大,还要考虑是不是long data,研究的不是数据快照,不是当下,而是数据长期演进,达尔文的进化论就是作者推崇的例子,第三个就是big data shadow,即类似我们的影子一样,在不失真的情况下又能保护到原有信息,隐私和研究的平衡,最后一个就是如何follow the data,书中给出了作者的一些例子。第三个单词就是Lens,lens产生两个对于人类文明影响巨大的发明,一个显微镜一个是望远镜,让人类从微观和宏观两个层面去研究世界,而这次要用大数据为镜来研究人类历史的变化,有点以史为镜的意思。最后就是Human Culture了,这个说法很大,这本书也只是冰山一角提供方法,也许你读了之后也能在此基础上有所发现,我这里也只是取书中关于Fame名声的章节来介绍一下。
书名罗嗦了一堆,正题就只有一句,作者利用Google扫描的数百万书籍做了一个NGram viewer的东东,简单的说就是图书中文字的词频统计,然后follow the data做了一些研究,这本书就是部分研究成果。
书中例子很多,有趣的例子也很多,这里就用第四章对于名声的研究来看看Ngram的威力。名声这个东西是一个众所周知的词语但是却很能定义,谁比谁有名更是很难定义。作者讲了一个莱特兄弟为了造飞机而搞了一个风洞进行测量的故事,由此类比用人名在书籍中出现的频次作为一个名声测量的风洞来变相的研究名声。(当然这个风洞不是百分之百无瑕疵的,比如一个书中的人名可能只提到了姓,或者年代等等)为了研究的准确性,不是拿单一的人名进行比较,而是加入了分组的概念,从1800年到1950年,每年选取50名当年出生的知名人士,这样产生了7500个人名,然后PK得出每年的年度知名人士(其中1904年为邓小平),这样最后一个150的名单还是看不出有什么特殊的地方。接着魔术就开始了,作者首先换一个角度把每年的50名人的频度曲线放在了一起,发现了一个名声曲线,这个名声曲线在随后的150年都基本一致,只是走势不同,都包含了首秀,暴涨,峰值,日渐没落。这里面的不同在于首秀的时间,暴涨和没落的速度以及峰值的年龄,直奔结论吧,1800年首秀的年龄是43岁,到了20世纪中期就是29岁了,当然你如果已经30岁了还没有出名不要失望继续读下去还有解决方案,1800年名声翻倍需要8年,到了1950年就只需要3年(顺便举个例子,Bill Clinton在其名声峰值的时候,这两个单词出现的频次达到了tomato这个单词频度的一半)至于没落的速度,基本上就是半衰期的性质,1800年的半衰期是120年,1900年就到了71年,名声来的快,去的快。作者接着更进一步把名人按照职业进行了分类,大概分了演员,作家,政客,科学家,艺术家和数学家,好了还是直奔结论:如果你想年轻时候就出名,那么请选择演员这个职业(1950年时候还没有大规模普及网络和电视媒体哦),并且能享受一辈子的名利,再老一点成名的话就选择作家,基本在30多岁出名并且名声要比演员大,如果你现在40多岁了还没有出名,你需要选择的职业就是政客,他们一般在40 ,50岁之后出名。接着看看科学家,科学家最终会和演员一样出名,但是很遗憾要达到60岁,也就是说It‘s better to star on the Big Bang Theory than to study the big bang theory:)。下面进入最终决选,谁是最出名的人呢,第一名是Hitler... 第五名是Stalin,第9名是Mussolini,数字残酷的告诉Murder是和Fame关联的,这也成为了某人谋杀的Lennon的动机:steal John Lennon's fame and put it on myself. 不过令我们欣慰的是从1880年到1940年的统计来看最有名的人是Charles Dickens, 这是最好的时代,这是最坏的时代。
这本书我本来想记录更多,但是这样大家就没有阅读的乐趣了,只希望这点总结能引起你对于这本书的渴望,因为我很喜欢这本书,也希望你能够喜欢。稍有遗憾的是,我感觉这本书不可能会有中文版,因为里面有敏感事件...
最后一个网址大家记录一下
https://books.google.com/ngrams