大数据

内容简介：

Anand Rajaraman　数据库和Web技术领域权威，创业投资基金Cambrian联合创始人，斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功：1996年创办Junglee公司，两年后该公司被亚马逊以2.5亿美元收购，Rajaraman被聘为亚马逊技术总监，推动亚马逊从一个零售商转型为零售平台；2000年与人合创Cambrian，孵化出几个后来被谷歌收购的公司；2005年创办Kosmix公司并任CEO，该公司2011年被沃尔玛集团收购。Rajaraman生于印度，在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。

Jeffrey David Ullman　美国国家工程院院士，计算机科学家，斯坦福大学教授。Ullman早年在贝尔实验室工作，之后任教于普林斯顿大学，十年后加入斯坦福大学直至退休，一生的科研、著书和育人成果卓著。他是ACM会员，曾获SIGMOD贡献奖、Knuth奖等多项科研大奖；他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者；麾下多名学生成为了数据库领域的专家，其中最有名的当属谷歌创始人Sergey Brin；本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

王斌　博士，中国科学院计算技术研究所博士生导师。中国科学院信息工程研究所客座研究员。主要研究方向为信息检索、自然语言处理和数据挖掘。《信息检索导论》译者。主持国家973、863、国家自然科学基金、国际合作基金、国家支撑计划等课题20余项，发表学术论文120余篇。现为ACM会员、中国中文信息学会理事、中文信息学会信息检索专委会委员、《中文信息学报》编委、中国计算机学会高级会员及计算机学会中文信息处理专委会委员。自2006年起在中国科学院研究生院（现改名“中国科学院大学”）讲授《现代信息检索》研究生课程，选课人数累计近千人。2001年开始指导研究生，迄今培养博士、硕士研究生30余名。

作者简介：

目录：

第1章　数据挖掘基本概念1

1.1　数据挖掘的定义1

1.1.1　统计建模1

1.1.2　机器学习1

1.1.3　建模的计算方法2

1.1.4　数据汇总2

1.1.5　特征抽取3

1.2　数据挖掘的统计限制4

1.2.1　整体情报预警4

1.2.2　邦弗朗尼原理4

1.2.3　邦弗朗尼原理的一个例子5

1.2.4　习题6

1.3　相关知识6

1.3.1　词语在文档中的重要性6

1.3.2　哈希函数7

1.3.3　索引8

1.3.4　二级存储器10

1.3.5　自然对数的底e10

1.3.6　幂定律11

1.3.7　习题12

1.4　本书概要13

1.5　小结14

1.6　参考文献14

第2章　大规模文件系统及Map-Reduce16

2.1　分布式文件系统16

2.1.1　计算节点的物理结构17

2.1.2　大规模文件系统的结构18

2.2　 Map-Reduce18

2.2.1　 Map任务19

2.2.2　分组和聚合20

2.2.3　 Reduce任务20

2.2.4　组合器21

2.2.5　 Map-Reduce的执行细节21

2.2.6　节点失效的处理22

2.3　使用Map-Reduce的算法22

2.3.1　基于Map-Reduce的矩阵—向量乘法实现23

2.3.2　向量v无法放入内存时的处理23

2.3.3　关系代数运算24

2.3.4　基于Map-Reduce的选择运算26

2.3.5　基于Map-Reduce的投影运算26

2.3.6　基于Map-Reduce的并、交和差运算27

2.3.7　基于Map-Reduce的自然连接运算27

2.3.8　一般性的连接算法28

2.3.9　基于Map-Reduce的分组和聚合运算28

2.3.10　矩阵乘法29

2.3.11　基于单步Map-Reduce的矩阵乘法29

2.3.12　习题30

2.4　 Map-Reduce的扩展31

2.4.1　工作流系统31

2.4.2　 Map-Reduce的递归扩展版本32

2.4.3　 Pregel系统34

2.4.4　习题35

2.5　集群计算算法的效率问题35

2.5.1　集群计算的通信开销模型35

2.5.2　实耗通信开销36

2.5.3　多路连接37

2.5.4　习题40

2.6　小结40

2.7　参考文献42

第3章　相似项发现44

3.1　近邻搜索的应用44

3.1.1　集合的Jaccard相似度44

3.1.2　文档的相似度45

3.1.3　协同过滤——一个集合相似问题46

3.1.4　习题47

3.2　文档的Shingling47

3.2.1　 k-Shingle47

3.2.2　 shingle大小的选择48

3.2.3　对shingle进行哈希48

3.2.4　基于词的shingle49

3.2.5　习题49

3.3　保持相似度的集合摘要表示49

3.3.1　集合的矩阵表示50

3.3.2　最小哈希50

3.3.3　最小哈希及Jaccard相似度51

3.3.4　最小哈希签名52

3.3.5　最小哈希签名的计算52

3.3.6　习题54

3.4　文档的局部敏感哈希算法55

3.4.1　面向最小哈希签名的LSH56

3.4.2　行条化策略的分析57

3.4.3　上述技术的综合58

3.4.4　习题59

3.5　距离测度59

3.5.1　距离测度的定义59

3.5.2　欧氏距离60

3.5.3　 Jaccard距离60

3.5.4　余弦距离61

3.5.5　编辑距离62

3.5.6　海明距离63

3.5.7　习题63

3.6　局部敏感函数理论64

3.6.1　局部敏感函数65

3.6.2　面向Jaccard距离的局部敏感函数族66

3.6.3　局部敏感函数族的放大处理66

3.6.4　习题68

3.7　面向其他距离测度的LSH函数族68

3.7.1　面向海明距离的LSH函数族69

3.7.2　随机超平面和余弦距离69

3.7.3　梗概70

3.7.4　面向欧氏距离的LSH函数族71

3.7.5　面向欧氏空间的更多LSH函数族72

3.7.6　习题72

3.8　 LSH函数的应用73

3.8.1　实体关联73

3.8.2　一个实体关联的例子74

3.8.3　记录匹配的验证74

3.8.4　指纹匹配75

3.8.5　适用于指纹匹配的LSH函数族76

3.8.6　相似新闻报道检测77

3.8.7　习题78

3.9　面向高相似度的方法79

3.9.1　相等项发现79

3.9.2　集合的字符串表示方法79

3.9.3　基于长度的过滤80

3.9.4　前缀索引81

3.9.5　位置信息的使用82

3.9.6　使用位置和长度信息的索引83

3.9.7　习题85

3.10　小结85

3.11　参考文献87

第4章　数据流挖掘89

4.1　流数据模型89

4.1.1　一个数据流管理系统89

4.1.2　流数据源的例子90

4.1.3　流查询91

4.1.4　流处理中的若干问题92

4.2　流当中的数据抽样92

4.2.1　一个富于启发性的例子93

4.2.2　代表性样本的获取93

4.2.3　一般的抽样问题94

4.2.4　样本规模的变化94

4.2.5　习题95

4.3　流过滤95

4.3.1　一个例子95

4.3.2　布隆过滤器96

4.3.3　布隆过滤方法的分析96

4.3.4　习题97

4.4　流中独立元素的数目统计98

4.4.1　独立元素计数问题98

4.4.2　 FM算法98

4.4.3　组合估计99

4.4.4　空间需求100

4.4.5　习题100

4.5　矩估计100

4.5.1　矩定义100

4.5.2　二阶矩估计的AMS算法101

4.5.3　 AMS算法有效的原因102

4.5.4　更高阶矩的估计103

4.5.5　无限流的处理103

4.5.6　习题104

4.6　窗口内的计数问题105

4.6.1　精确计数的开销105

4.6.2　 DGIM算法105

4.6.3　 DGIM算法的存储需求107

4.6.4　 DGIM算法中的查询应答107

4.6.5　 DGIM条件的保持108

4.6.6　降低错误率109

4.6.7　窗口内计数问题的扩展109

4.6.8　习题110

4.7　衰减窗口110

4.7.1　最常见元素问题110

4.7.2　衰减窗口的定义111

4.7.3　最流行元素的发现111

4.8　小结112

4.9　参考文献113

第5章　链接分析115

5.1　 PageRank115

5.1.1　早期的搜索引擎及词项作弊115

5.1.2　 PageRank的定义117

5.1.3　 Web结构119

5.1.4　避免终止点121

5.1.5　采集器陷阱及“抽税”法123

5.1.6　 PageRank在搜索引擎中的使用125

5.1.7　习题125

5.2　 PageRank的快速计算126

5.2.1　转移矩阵的表示127

5.2.2　基于Map-Reduce的PageRank迭代计算128

5.2.3　结果向量合并时的组合器使用128

5.2.4　转移矩阵中块的表示129

5.2.5　其他高效的PageRank迭代方法130

5.2.6　习题131

5.3　面向主题的PageRank131

5.3.1　动机131

5.3.2　有偏的随机游走模型132

5.3.3　面向主题的PageRank的使用133

5.3.4　基于词汇的主题推断134

5.3.5　习题134

5.4　链接作弊135

5.4.1　垃圾农场的架构135

5.4.2　垃圾农场的分析136

5.4.3　与链接作弊的斗争137

5.4.4　 TrustRank137

5.4.5　垃圾质量137

5.4.6　习题138

5.5　导航页和权威页139

5.5.1　 HITS的直观意义139

5.5.2　导航度和权威度的形式化139

5.5.3　习题142

5.6　小结143

5.7　参考文献145

第6章　频繁项集146

6.1　购物篮模型146

6.1.1　频繁项集的定义146

6.1.2　频繁项集的应用148

6.1.3　关联规则149

6.1.4　高可信度关联规则的发现150

6.1.5　习题151

6.2　购物篮及A-Priori算法152

6.2.1　购物篮数据的表示152

6.2.2　项集计数中的内存使用153

6.2.3　项集的单调性154

6.2.4　二元组计数155

6.2.5　 A-Priori算法155

6.2.6　所有频繁项集上的A-Priori算法157

6.2.7　习题158

6.3　更大数据集在内存中的处理159

6.3.1　 PCY算法160

6.3.2　多阶段算法161

6.3.3　多哈希算法163

6.3.4　习题164

6.4　有限扫描算法166

6.4.1　简单的随机化算法166

6.4.2　抽样算法中的错误规避167

6.4.3　 SON算法168

6.4.4　 SON算法和Map-Reduce168

6.4.5　 Toivonen算法169

6.4.6　 Toivonen算法的有效性分析170

6.4.7　习题170

6.5　流中的频繁项计数171

6.5.1　流的抽样方法171

6.5.2　衰减窗口中的频繁项集172

6.5.3　混合方法172

6.5.4　习题173

6.6　小结173

6.7　参考文献175

第7章　聚类176

7.1　聚类技术介绍176

7.1.1　点、空间和距离176

7.1.2　聚类策略177

7.1.3　维数灾难178

7.1.4　习题179

7.2　层次聚类179

7.2.1　欧氏空间下的层次聚类180

7.2.2　层次聚类算法的效率183

7.2.3　控制层次聚类的其他规则183

7.2.4　非欧空间下的层次聚类185

7.2.5　习题186

7.3　 k-均值算法187

7.3.1　 k-均值算法基本知识187

7.3.2　 k-均值算法的簇初始化187

7.3.3　选择k的正确值188

7.3.4　 BFR算法189

7.3.5　 BFR算法中的数据处理191

7.3.6　习题192

7.4　 CURE算法193

7.4.1　 CURE算法的初始化194

7.4.2　 CURE算法的完成195

7.4.3　习题195

7.5　非欧空间下的聚类196

7.5.1　 GRGPF算法中的簇表示196

7.5.2　簇表示树的初始化196

7.5.3　 GRGPF算法中的点加入197

7.5.4　簇的分裂及合并198

7.5.5　习题199

7.6　流聚类及并行化199

7.6.1　流计算模型199

7.6.2　一个流聚类算法200

7.6.3　桶的初始化200

7.6.4　桶合并200

7.6.5　查询应答202

7.6.6　并行环境下的聚类202

7.6.7　习题203

7.7　小结203

7.8　参考文献205

第8章　 Web广告207

8.1　在线广告相关问题207

8.1.1　广告机会207

8.1.2　直投广告208

8.1.3　展示广告的相关问题208

8.2　在线算法209

8.2.1　在线和离线算法209

8.2.2　贪心算法210

8.2.3　竞争率211

8.2.4　习题211

8.3　广告匹配问题212

8.3.1　匹配及完美匹配212

8.3.2　最大匹配贪心算法213

8.3.3　贪心匹配算法的竞争率213

8.3.4　习题214

8.4　 Adwords问题214

8.4.1　搜索广告的历史215

8.4.2　 Adwords问题的定义215

8.4.3　 Adwords问题的贪心方法216

8.4.4　 Balance算法217

8.4.5　 Balance算法竞争率的一个下界217

8.4.6　多投标者的Balance算法219

8.4.7　一般性的Balance算法220

8.4.8　 Adwords问题的最后论述221

8.4.9　习题221

8.5　 Adwords的实现221

8.5.1　投标和搜索查询的匹配222

8.5.2　更复杂的匹配问题222

8.5.3　文档和投标之间的匹配算法223

8.6　小结224

8.7　参考文献226

第9章　推荐系统227

9.1　一个推荐系统的模型227

9.1.1　效用矩阵227

9.1.2　长尾现象228

9.1.3　推荐系统的应用230

9.1.4　效用矩阵的填充230

9.2　基于内容的推荐231

9.2.1　项模型231

9.2.2　文档的特征发现231

9.2.3　基于Tag的项特征获取232

9.2.4　项模型的表示233

9.2.5　用户模型234

9.2.6　基于内容的项推荐235

9.2.7　分类算法235

9.2.8　习题237

9.3　协同过滤238

9.3.1　相似度计算238

9.3.2　相似度对偶性241

9.3.3　用户聚类和项聚类242

9.3.4　习题243

9.4　降维处理243

9.4.1　 UV分解244

9.4.2　 RMSE244

9.4.3　 UV分解的增量式计算245

9.4.4　对任一元素的优化247

9.4.5　一个完整UV分解算法的构建248

9.4.6　习题250

9.5　 NetFlix竞赛250

9.6　小结251

9.7　参考文献253

索引254

文章试读：本书是在Anand Rajaraman和Jeff Ullman于斯坦福大学教授多年的一门季度课程的材料基础上总结而成的。该课程名为“Web挖掘”（编号CS345A），尽管它已经成为高年级本科生能接受并感兴趣的课程之一，但其原本是一门为高年级研究生设计的课程。本书内容简单来说，本书是关于数据挖掘的。但是，本书主要关注极大规模数据的挖掘，也就是说这些数据大到无法在内存中存放。由于重点强...

(查看全部试读)

海量数据挖掘

小凤 2012-09-26 1赞

当今时代大规模数据爆炸的速度是惊人的，当然，其应用也是越来越广泛的，从传统的零售业到复杂的商业世界，到处都能见到它的身影。那么大数据有什么典型特征呢？即数据类型繁多、数据体量巨大、价值密度低即处理速度快。本书也正是将注意力集中在了极大规模数据上的挖掘，而且是从算法的角度来看待数据挖掘。其主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。在图书章节设置上，每章末尾都有小结，对重点专有名词会给出简要的概况，让大家对全章内容有一个巩固和再认识。更有习帮助大家理解正文所讲解的知识点。

本书是在Anand Rajaraman和Jeff Ullman于斯坦福大学多年所授的一门名为“Web挖掘”季度课程材料基础上总结而成，其含金量已可见一斑。译者是中科院计算技术研究所前瞻研究实验室信息检索课题组组长王斌博士，他同样也是《信息检索导论》的译者，相信大家拿到这本书的时候会被王老师孜孜以求的态度所感染。

转自图灵社区：作者LXL

译者王斌老师对这本书的导读建议

小凤 2012-10-17 5赞

《大数据：互联网大规模数据挖掘与分布式处理》导读建议：一、此为算法书，需要一定算法基础，非科普书，一般人读起来不会那么顺畅，需要努力啃读。二、此书并非虚幻的大数据概念书，直接关注大数据的规模对算法应用造成的实际问题。三、在应用背景方面，本书也没有完全展开，所以对应用有了解较好。

小错误很多

sk 2013-03-03 0赞

终于看完了这本书，读的比较粗，但是还是发现了很多的小错误，不知道是作者的错误还是译者的错误，总之给人不严谨不严肃的印象，知识还是比较容易理解的（虽然本人没记住多少。。汗。。），还是积累了不错的知识，天道酬勤！

整本书就是个目录

xhan 2014-05-23 0赞

看到开篇的两个例子，一个是地图聚类分析伦敦病毒问题，另一个是概率统计的例子。对本书还挺有期望。结果翻到第三章开始，这。。

尼玛整本书就是个目录啊。全书结构如下：知识点，摘要，奇葩的例子，习题。然后另一个知识点，知识点，识点。。

如果为了平时聊天增加些谈资偶尔翻开某页，背上一段，还是挺有作用的。

真正讲“大数据”处理思路的书

sned_comer 2015-08-06 0赞

我真的不能忍受一帮子没读过此书，没写过代码，没搞过大数据的外行人在这边乱喷这本书。对豆瓣这本书的评价实在是太失望了。

这是我读到的第一本真正讲“大数据”思路的书。
面对海量数据的时候，我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候，你就得考虑硬盘；当你的硬盘也放不下的时候，你就得考虑分布式；当你做分布式的时候，你就得考虑数据共享/容错/一致性/可扩展/并行计算等等等等。。。

这本书的价值本身不在于教你机器学习算法，科普什么是流式处理，PageRank等等。这本书是告诉你，当你的数据量大到你不能在单机完成的时候，你可以通过哪些方式达到你的目的。本书最常用的几种方法有：
采样、近似计算(状态压缩)、并行计算（mapreduce）和降维等等。
因为近似计算和采样都涉及到新算法结果有效性的问题，所以有很多关于近似算法收敛至目标结果的证明。抱着这样的心态去读，你会发现书中介绍了很多非常巧妙的处理方式。珠玉在前，我也就不多卖弄。

书不厚，但内容详实，习题很棒，而且有丰富的引用文献，第二版在预售的时候就赶紧订购了。新版补充了SVD降维相关技术，以及目前最热的分布式机器学习相关技术。此书译者很刁钻，翻译的几本书都是精品。

实在想吐槽一下被顶的最多的那篇书评和那些无脑点赞的。
书的密度很大，每个知识点页数都不多，但至少都介绍清晰，而且还有深入探索用的文献。Mapreduce论文也不过10页左右，书里头用了30页，估计考虑到有人智商不够用。本书中mapreduce代码很少，因为书只介绍思路，习题中需要自己用mapreduce实现。目录中提到的每个方面，作者只介绍了其中需要用“大数据”思路去解决的问题，其他的方面有其他方面专业的书籍和论文可以去探索。作为一个从业一年的小同志，看了大家的评论，觉得现在互联网行业实在是有点浮躁。建议还在念书的同学们如果真的对大数据和分布式处理感兴趣的可以阅读本书。

再推荐一本Nathan Marz（storm作者）的《Bigdata》，这本书从架构的角度讲了实时处理和批处理如何有效地结合，以及相应的开源工具。如果要电子版的可以留言问我要，虽然我懒得上豆瓣了。

中译版彻底把这本书给毁了

筱兮 2015-11-10 0赞

很差是给中译版的。

本书的中译版是中科院计算所的王斌老师翻译的，但是翻译的很屎。估计王老师拿到英文稿之后就扔给学生去翻译了，看这翻译水平，实在是不敢恭维。

以上纯为发泄心中不满所写。因为我看译者序，说是自己独立翻译，前后持续了七个多月，并历经多次修改。如果是这样，我也真是不知道该说什么了。

本书的中译本读起来拗口难懂，很多造词遣句生硬别扭，怀着满满的兴趣来读这本书，结果读了还没一章就实在是读不下去了，建议有能力的读者看英文原版，如果读英语吃力的话，最好也是拿英文原文对照着看，看中文看不懂的可以看看英文的。

举一个刚刚看到的例子，中译本第239页,Jaccard距离那一小节有句话【A和B而不是C更接近】，英文原文为【Thus, A appears closer to C
than to B.】，真是把我看懵笔了

翻译的确实不好

兴一神境 2016-05-29 0赞

这本书其实挺好的，但是真得看英文版。
这是我们上课的参考书之一，英文版有的地方没看懂，就打算找个中文版来看。看了中文版发现，这个翻译的水平基本是跟我大四，研一给老师翻译文章的水平一样的，可以看出这本书应该是找学生翻译的，而且是对专业领域还了解不深的学生翻译的作品，不出意外的话应该是交给王斌老师组的几个学生突击合作的结果。

中文翻译版很差

readme 2013-07-25 1赞

本来是计划读英文版《Mining of Massive Datasets》的，但看到打折，而且译者在序言中信誓旦旦地说翻译的很用心，就买了中文的。结果读了第一章就读不下去了，中文表述太烂了，很多句子让人产生无限歧义，磕磕绊绊，叫人生厌。因此决定再次放弃这样的中文翻译书。

书名应该改成<Algorithm Analysis: A Data Mining Perspe

CJ 2015-07-29 0赞

内容是算法分析应该有的套路, 对于Correctness, Running Time, Storage的证明; 讲得很细, 一个星期要讲3个算法, 看懂以后全部忘光大概率要发生. 要是能多给些直觉解释就好了.

Ullman的表达绝对是有问题的, 谁不承认谁就是不客观, 常常一句话我要琢磨2个小时, 比如DGIM算法有一个rule是任意size的bucket的个数不得超过2个, 4.6.3处说了一些废话后来了句"Thus, we concluded that at most two buckets of all sizes". 授课视频里虽然讲的方式不一样, 也没有对这个rule做直接的证明. 我的猜测是这不是一个死硬的规定, 而是一个效果不错的tradeoff. 这种似是而非的表达, 对读者的折磨, Ullman惯犯了.

读过，或者说飘过

mftian 2013-10-22 0赞

只看了两章，所有真心不好打分。这其实是本数学书，而且是一本入门书。这本书的目标读者不是工程师，而是读研或者读博的学生。如果你本身就有数据挖掘后者机器学习的背景，或者就是很喜欢数学，我还是很推荐这本书的，学习新东西总是很有趣的。

作为一个从业二十年的屌丝，本屌真心被这本书吓尿了！

黑枪王荣格 2013-01-30 78

麻烦支那猪以后翻译外文书籍，先找个稍微懂行的把书看一遍行吗！

鉴于中文翻译缩水不准的情况，本掉千辛万苦找来英文原版，一看到目录，本屌就硬了，尼玛作者太牛逼了！

最新补充一句，话说如果这本书的名字叫做类似《数据挖掘基础》的话，本屌绝壁不喷它。本来就是基础的基础，名字介绍扯那么大旗子干嘛，又没那本事。

MAP-REDUCE，30页搞定
相似查找，50页搞定
流式数据挖掘，30页搞定（这尼玛可是流式数据挖掘啊，比MR更新的挖掘技术，居然比MR还少！）
链接分析，30页搞定
频繁项集，40页搞定
聚类，40页搞定
在线广告，20页搞定
推荐系统，30页搞定（尼玛作者你是人才呀，国外的网站为了研究推荐系统，出了无数的PAPER，到你这里就剩15张纸了！）
分析社会化网络，40页搞定
降维，30页搞定（尼玛你当你在玩单机版吗！）
大尺度机器学习，40页搞定（吐血啊，这尼玛尺度真鸡巴大！）

接下来，本屌顶着半身不遂的身躯，内心抵抗者撕烂这本书的诱惑，继续坚持往下翻，本地屌是在是受不了了。

MR，全文一行伪代码不见，例子一个没有，连Word Count都懒得写了，看了这书鬼才知道MR怎么用。

相似查找，话说照这本书上说的做，你绝壁死翘翘了，连GOOGLE最经典的高性能雷同文章查找的算法都不介绍，你这章是在搞毛啊。另外，SOLR,LUCENE可以说是现在比较简单的相似文章查找利器，本文居然不介绍相关内容，你TMD当内存不要钱呀！

流式数据挖掘，作者大姨妈，您老人家知道有个东西叫S4不！

链接分析，看了你这章要是能懂的，GOOGLE的大婶都要给你跪了。
频繁项分析，这大概是数据挖掘当中出现最早的分支了，没想到您老人家居然才达到罗列的地步，倒。。。

聚类，这章真心写得垃圾，基本算法都没写全，高性能聚类P也没讲，尼玛，你会玩个单机玩具就当自己牛逼了啊！

在线广告，话说在先广告是其中一个主要的流式计算的应用方面，并且是现在最前沿的技术（什么MR都已经算是几年前的过失技术了，现在都烂了），作者你TMD好意思啊，看看你都写了啥！照你写的做那还不把内裤都赔光了啊.

推荐系统，尼玛NETFILX都是6-7年前的破事情了，你还当个宝啊，现在推荐系统最大的问题就是实时性的问题，解决办法就是流式计算，话说您老人家对流式计算那可以说是一无所知！

社会化网络，这个懒得吐槽了

降维，现在需要用到降维的，就是大规模数据，而大规模数据又必须通过并行计算才能在比较短的时间内完成庞大的计算，话说您老人家都讲到哪里去了呢，MR实现的并行降维算法呢？

大尺度机器学习，傻逼你自己玩单机区吧！

另外，本书一行代码也没有，最高深的脚本语言就是SQL，不会写代码你玩个球的MR，你玩个球的并行计算，你玩个球的大数据呀！

MLGB的，这本书的作者是个骗子，译者是个傻逼，引进者脑子被门夹了。

译者王斌老师对这本书的导读建议

小凤 2012-10-17 5

本书需要配合课程进行学习

喜欢晴天的某Z 2015-04-08 5

看到好多人说这本书是大纲，是目录，没啥内容，讲的浅。

那就对了。

本书是MIT CS246课程MMDS使用的讲义，还有配套的Slides和HW，所以观看本书请配套课程进行学习，同时coursera上也有配套的课程。

See more detail: http://www.mmds.org/

《大数据》读后重整理

libisthanks 2012-11-27 5

     读技术书于我而言就像高中物理老师说的那样：一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书，决定写点东西以帮助多少年之后还有那么一点点记忆。好吧，开写。
     1. 总体来说，数据挖掘时数据模型的发现过程。而数据建模的方法可以归纳为两种：数据汇总和数据特征提取。其中数据汇总主要包括聚类和PageRank，数据特征提取主要包括相似项发现以及频繁项集。
    2. 相似性发现：在大量集合中发现相似的集合。首先将集合表示为集合矩阵的形式，因为集合矩阵的数据量特别大导致可能无法全部放入内存所以需要通过合理的方式压缩数据。解决方案是使用最小哈希签名矩阵来表示集合矩阵（原理和计算见P50-54）。但是即使签名矩阵中的行数得到了压缩，但是因为列数很庞大所以如果每两个集合都进行比较而计算相似度的话计算量依然很庞大。在这里，作者提到了一种局部敏感哈希算法，采用行条化策略，用来构建候选对（P56-57）。使得候选对较少，计算量大幅度下降。上面所述为Jaccard距离的相似性问题，对于余弦距离的相似性问题主要表示为：集合矩阵--->梗概矩阵-->局部敏感哈希算法（行条化策略）
    3. 频繁项集：在购物篮中出现次数大于一定阈值的项对。
        1）基本概念：支持读，可信度
        2）频繁项对发现算法：
             A-priori算法核心：只有i,j都是频繁项，{i,j}才可能是频繁项。
             PCY算法核心：i,j都是频繁项同时{i,j}哈希到一个频繁桶中才可能作为候选频繁相对。
    4. PageRank：V‘ = BMV+（1-B）e/n的迭代。其中B是一个常量，一般选为0.8~1,；M是链接转移矩阵。大数据的应对措施是使用Map-Reduce工具处理。

希望翻译水平提上去

linglongyouzhi 2013-06-14 3

从总体安排来看，书的结构还是不错的。没看过英文的，但是中文版的行文真的不好，磕磕绊绊看了一半以后实在是没有兴趣看后面的了。
之前了解的pagerank看了以后了解了，之前不了解的adwords还是不了解，

晦涩难懂

lixi 2013-10-08 2

看有同学说是 stanford的入门课程，按理说应该不是太难。作为初学者来说，本书翻译的实在不敢恭维，看了50多页是一头雾水，很多话实在是晦涩难懂。本书作用入门级课程来说，基本上涵盖了数据挖掘的各个大类，如果想细致研究某个领域的大拿就不用看了

海量数据挖掘

小凤 2012-09-26 1

中文翻译版很差

readme 2013-07-25 1

小错误很多

sk 2013-03-03 0

整本书就是个目录

大数据

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读