作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。
维克托和肯尼思在这本书中不遗余力的向我们说明了由于技术的进步,传统的统计学抽样方法已经开始显得落伍,而借助于高速发展的数字存储技术与愈发先进的信息整合能力,类似google这样的公司已经有能力挖掘出海量数据中所蕴含的信息。作者在书中提出了两个至关重要的观点:1、我们搜集的数据是如此之多,以至于我们现在拥有的样本就是总体;2、借助于大数据,我们能够轻松的找出数据之间的关联而非因果,换而言之,我们可以轻松的“知其然”,即使我们完全不知其所以然。
我不完全清楚两位作者的学术背景,当然,我也不完全清楚两位作者在写书的过程中是否为了让这本书更加通俗易懂而采取了一些微妙的措辞。但是每一个曾经被SVM、LDA、贝叶斯和马尔科夫深深伤害过的人都知道,在大数据的海洋里,我们最大的问题永远都不是如何获取这些数据,而是如何找到这些数据之间的联系。
我相信每个学过数据挖掘这门课的人都知道沃尔玛里啤酒和尿布的故事,对,这个故事出现在很多年前,当初同样是为了描述一个令人激动的未来——人类居然可以通过计算机挖掘出那些我们平时根本无法察觉到的、事物之间隐藏的联系。欢欣鼓舞的计算机学家们纷纷将自己的精力投入到这个神奇的领域,但是丝毫没有发现,其实他们只是在重复着所有学者们无数年来在做的事情——寻找这个世界的真实。
没错,为了寻找这个世界的真实,哲学家们冥思苦想,物理学家们建造了有毁灭世界之虞的对撞机,化学家们深入原子内部苦苦探究,但谁也没有数学家们走的更远,更接近成功。概率论比所有人都更早一步的找到了数据与数据之间的相关性,于是我们在高中的时候就能够了解线性相关和数据拟合的意义。而随着技术的发展,概率模型下的NLP技术在上个世纪90年代以后全面战胜了规则模型,我们不需要去理解自然语言的语义、语法,让处理器的摩尔法则和指数级叠加的文本互相厮杀,只要有足够数量的样本集——Bingo!一切都搞定了。于是随着Google在各种翻译大赛上的一枝独秀,人们乐观的觉得只要有了足够大的语料库,似乎再也没有什么能够难到他们。于是正向书中所说的那样,人们开始不再关心数据之间的因果联系,不再关心那些细微的错误,而开始疯狂的追求数据的规模。沾沾自喜的人们以为这就是世界的真理,忽视了近十年概率模型应用的规模一再扩大,准确率却停滞不前。即使是文本的二元情感分类如此简单的任务,无监督的学习器也很难拿出一个看得过去的成绩,更不用说机器翻译这样近十年来都没有巨大突破的领域了。就目前人类的技术水平而言,我们很难能够乐观的估计概率模型能够在我们有生之年将机器翻译技术推到“信达雅”的地步,概率模型和大数据的发展过程恰似一个对数函数,经过了最初的高速发展之后就放缓了自己的脚步。
所以我是不认可大数据的概念的。数据规模到达一定程度之后,继续扩充的意义已经不大,更遑论所有大数据的应用都极大的依赖于其选取的数学处理模型。而经济发展的不均衡决定了所谓的样本=总体永远不可能出现——全世界有十几亿人还处日生活开销不足2美元的贫困线以下,连登录网络的条件都不具备,我们怎么能够奢望我们收集到的数据就会是总体?而所谓“知其然”可以替代“知其所以然”的概念更像是一个悖论,或许在应用层面上而言,这种说法有其合理之处,但对我们如何更好的了解这个世界的真相,却毫无用处。
同意最后一句
但大数据在区域性的效果还是有的,现在距离你写文章也两年了,数据挖掘也发生很多的变化,就包括微软的翻译软件也是进步神速。
文章最后也写了一个悖论,也许数据可以预测犯罪,但那个人在还没有犯罪的前提下,我们是不是可以抓他?数据也许可以预测我们的行动,但我们的行动会不会因为被数据预测反而发生了改变?好吧,我也有点乱。
只是想说,大数据对于知其然起作用就够了,剩下的还要靠我们,数据当然不是一切。
书没看过,为书评点个赞。
本科时曾对大数据欢欣雀跃,兴致冲冲看了些paper……工作后做数据分析表示累觉不爱……单纯靠研究算法带来的效率提升,从观察来看,好像不如在业务经验指导下的深入分析。机器学习只是帮助人们发现未曾留意的可能性,但这种发现的准确性需要人类主观分析。毕竟沉默数据的存在可能掩盖了事实的真相。
因果关系才是这个世界的本质啊!
欢欣鼓舞的计算机学家们纷纷将自己的精力投入到这个神奇的领域,但是丝毫没有发现,其实他们只是在重复着所有学者们无数年来在做的事情——寻找这个世界的真实。。。还有如何找到数据之前的联系。。
@polycr 作者在书中提出的一个主要观点是“样本==总体”(话说打完这句我才发现,写代码习惯了会有后遗症),那么既然全球有那么多的贫困人口连网络接入条件都不具备,样本怎么可能等于总体?是你要先搞清楚,我们讨论的不是什么网民行为分析和统计学问题,而是作者所提出的“样本==总体”这个理论是否成立。
"经济发展的不均衡决定了所谓的样本=总体永远不可能出现——全世界有十几亿人还处日生活开销不足2美元的贫困线以下,连登录网络的条件都不具备,我们怎么能够奢望我们收集到的数据就会是总体?而所谓“知其然”可以替代“知其所以然”的概念更像是一个悖论,或许在应用层面上而言,这种说法有其合理之处,但对我们如何更好的了解这个世界的真相,却毫无用处。"
这句话哪里有道理了,大数据并非只有网民的行为分析啊,还包括其他素材的收集,可以是书籍、电子资料等各种渠道的信息,没人限制信息获取的来源和途径。不要对这种统计学方法太有偏见了。
"经济发展的不均衡决定了所谓的样本=总体永远不可能出现——全世界有十几亿人还处日生活开销不足2美元的贫困线以下,连登录网络的条件都不具备,我们怎么能够奢望我们收集到的数据就会是总体?而所谓“知其然”可以替代“知其所以然”的概念更像是一个悖论,或许在应用层面上而言,这种说法有其合理之处,但对我们如何更好的了解这个世界的真相,却毫无用处。"
同意
“而随着技术的发展,概率模型下的NLP技术在上个世纪90年代以后全面战胜了规则模型,我们不需要去理解自然语言的语义、语法,让处理器的摩尔法则和指数级叠加的文本互相厮杀,只要有足够数量的样本集——Bingo!一切都搞定了”
“沾沾自喜的人们以为这就是世界的真理,忽视了近十年概率模型应用的规模一再扩大,准确率却停滞不前。即使是文本的二元情感分类如此简单的任务,无监督的学习器也很难拿出一个看得过去的成绩,更不用说机器翻译这样近十年来都没有巨大突破的领域了。就目前人类的技术水平而言,我们很难能够乐观的估计概率模型能够在我们有生之年将机器翻译技术推到“信达雅”的地步,概率模型和大数据的发展过程恰似一个对数函数,经过了最初的高速发展之后就放缓了自己的脚步。 ”
哈哈