Hadoop实战

内容简介：

《Hadoop实战》作为云计算所青睐的分布式架构，Hadoop是一个用Java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分，深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。

《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。

作者简介：

Chuck Lam 目前建立了一个名为RollCall的移动社交网络公司，让活跃的个体用户拥有了一个社交助理。他以前曾是RockYou的高级技术组长，开发了社交应用程序和数据处理基础架构，能够支撑上亿的用户。在斯坦福大学攻读博士的时候，Chuck就对大数据产生了兴趣。他的论文“Computational Data Acquisition”首创了可用于机器学习的数据采集方法，吸纳了来自开源软件和网络游戏等领域的思想。

目录：

第一部分 Hadoop——一种分布式编程框架

第1 章 Hadoop简介2

1.1 为什么写《Hadoop 实战》3

1.2 什么是Hadoop 3

1.3 了解分布式系统和Hadoop 4

1.4 比较SQL 数据库和Hadoop5

1.5 理解MapReduce6

1.5.1 动手扩展一个简单程序7

1.5.2 相同程序在MapReduce中的扩展9

1.6 用Hadoop统计单词——运行第一个程序11

1.7 Hadoop历史15

1.8 小结16

1.9 资源16

第2 章初识Hadoop 17

2.1 Hadoop 的构造模块17

2.1.1 NameNode 17

2.1.2 DataNode 18

2.1.3 Secondary NameNode 19

2.1.4 JobTracker19

2.1.5 TaskTracker19

2.2 为Hadoop 集群安装SSH21

2.2.1 定义一个公共账号21

2.2.2 验证SSH安装21

2.2.3 生成SSH密钥对21

2.2.4 将公钥分布并登录验证22

2.3 运行Hadoop 22

2.3.1 本地（单机）模式23

2.3.2 伪分布模式24

2.3.3 全分布模式25

2.4 基于Web 的集群用户界面28

2.5 小结30

第3 章 Hadoop组件31

3.1 HDFS 文件操作31

3.1.1 基本文件命令32

3.1.2 编程读写HDFS35

3.2 剖析MapReduce 程序37

3.2.1 Hadoop数据类型39

3.2.2 Mapper40

3.2.3 Reducer41

3.2.4 Partitioner：重定向Mapper输出41

3.2.5 Combiner：本地reduce 43

3.2.6 预定义mapper和Reducer类的单词计数43

3.3 读和写43

3.3.1 InputFormat 44

3.3.2 OutputFormat49

3.4 小结50

第二部分实战

第4 章编写MapReduce基础程序52

4.1 获得专利数据集52

4.1.1 专利引用数据53

4.1.2 专利描述数据54

4.2 构建MapReduce 程序的基础模板55

4.3 计数60

4.4 适应Hadoop API 的改变64

4.5 Hadoop 的Streaming 67

4.5.1 通过Unix命令使用Streaming 68

4.5.2 通过脚本使用Streaming 69

4.5.3 用Streaming处理键/值对 72

4.5.4 通过Aggregate包使用Streaming75

4.6 使用combiner 提升性能 80

4.7 温故知新83

4.8 小结84

4.9 更多资源84

第5 章高阶MapReduce 85

5.1 链接MapReduce 作业 85

5.1.1 顺序链接MapReduce作业 85

5.1.2 具有复杂依赖的MapReduce链接86

5.1.3 预处理和后处理阶段的链接86

5.2 联结不同来源的数据 89

5.2.1 Reduce侧的联结 90

5.2.2 基于DistributedCache的复制联结 98

5.2.3 半联结：map侧过滤后在reduce侧联结101

5.3 创建一个Bloom filter 102

5.3.1 Bloom filter做了什么102

5.3.2 实现一个Bloom filter 104

5.3.3 Hadoop 0.20 以上版本的Bloom filter 110

5.4 温故知新　110

5.5 小结 111

5.6 更多资源 112

第6 章编程实践 113

6.1 开发MapReduce 程序 113

6.1.1 本地模式 114

6.1.2 伪分布模式 118

6.2 生产集群上的监视和调试123

6.2.1 计数器123

6.2.2 跳过坏记录125

6.2.3 用IsolationRunner重新运行出错的任务128

6.3 性能调优 129

6.3.1 通过combiner来减少网络流量129

6.3.2 减少输入数据量129

6.3.3 使用压缩129

6.3.4 重用JVM 132

6.3.5 根据猜测执行来运行132

6.3.6 代码重构与算法重写133

6.4 小结134

第7 章细则手册135

7.1 向任务传递作业定制的参数 135

7.2 探查任务特定信息137

7.3 划分为多个输出文件138

7.4 以数据库作为输入输出143

7.5 保持输出的顺序145

7.6 小结 146

第8 章管理Hadoop147

8.1 为实际应用设置特定参数值 147

8.2 系统体检149

8.3 权限设置151

8.4 配额管理151

8.5 启用回收站152

8.6 删减DataNode 152

8.7 增加DataNode 153

8.8 管理NameNode 和SNN 153

8.9 恢复失效的NameNode 155

8.10 感知网络布局和机架的设计156

8.11 多用户作业的调度157

8.11.1 多个JobTracker 158

8.11.2 公平调度器158

8.12 小结 160

第三部分 Hadoop也疯狂

第9 章在云上运行Hadoop 162

9.1 Amazon Web Services 简介162

9.2 安装AWS163

9.2.1 获得AWS身份认证凭据164

9.2.2 获得命令行工具166

9.2.3 准备SSH密钥对168

9.3 在EC2 上安装Hadoop169

9.3.1 配置安全参数169

9.3.2 配置集群类型169

9.4 在EC2 上运行MapReduce 程序171

9.4.1 将代码转移到Hadoop集群上171

9.4.2 访问Hadoop集群上的数据172

9.5 清空和关闭EC2 实例175

9.6 Amazon Elastic MapReduce 和其他AWS 服务176

9.6.1 Amazon Elastic MapReduce 176

9.6.2 AWS导入/导出177

9.7 小结177

第10 章用Pig编程178

10.1 像Pig 一样思考178

10.1.1 数据流语言179

10.1.2 数据类型179

10.1.3 用户定义函数179

10.2 安装Pig 179

10.3 运行Pig 180

10.4 通过Grunt 学习Pig Latin182

10.5 谈谈Pig Latin 186

10.5.1 数据类型和schema186

10.5.2 表达式和函数187

10.5.3 关系型运算符189

10.5.4 执行优化196

10.6 用户定义函数196

10.6.1 使用UDF 196

10.6.2 编写UDF 197

10.7 脚本199

10.7.1 注释199

10.7.2 参数替换200

10.7.3 多查询执行201

10.8 Pig 实战——计算相似专利的例子201

10.9 小结206

第11 章 Hive及Hadoop群207

11.1 Hive 207

11.1.1 安装与配置Hive 208

11.1.2 查询的示例210

11.1.3 深入HiveQL 213

11.1.4 Hive小结221

11.2 其他Hadoop 相关的部分221

11.2.1 HBase 221

11.2.2 ZooKeeper 221

11.2.3 Cascading 221

11.2.4 Cloudera 222

11.2.5 Katta 222

11.2.6 CloudBase 222

11.2.7 Aster Data和Greenplum 222

11.2.8 Hama和Mahout 223

11.2.9 search-hadoop.com 223

11.3 小结223

第12 章案例研究224

12.1 转换《纽约时报》1100 万个库存图片文档224

12.2 挖掘中国移动的数据225

12.3 在StumbleUpon 推荐最佳网站229

12.3.1 分布式StumbleUpon 的开端230

12.3.2 HBase 和StumbleUpon 230

12.3.3 StumbleUpon 上的更多Hadoop 应用236

12.4 搭建面向企业查询的分析系统——IBM的ES2 项目238

12.4.1 ES2 系统结构240

12.4.2 ES2 爬虫241

12.4.3 ES2 分析242

12.4.4 小结249

12.4.5 参考文献250

附录A HDFS文件命令251

Hadoop实战+超大集群调优_Hadoop集群调优课程

才高9斗 2016-06-27 0赞

Hadoop实战+超大集群调优
课程观看地址：http://www.xuetuwuyou.com/course/97
课程出自学途无忧网：http://www.xuetuwuyou.com

课程使用到的软件：
　　apache-maven-3.0.5-bin.tar.gz
　　eclipse-jee-kepler-R-win32-x86_64
　　hadoop-1.1.2.tar.gz
　　hadoop-2.5.0-cdh5.2.0-src.tar.gz
　　hadoop-2.5.0-cdh5.2.0.tar.gz
　　hive-0.13.1-cdh5.2.0.tar.gz
　　jdk-7u67-linux-x64.tar.gz
　　jdk-7u79-linux-i586.gz
　　PieTTY 0.3.26.exe
　　protobuf-2.5.0.tar.gz
　　SecureCRT.zip
　　VMWare10
　　CentOS
　　zookeeper-3.4.5-cdh5.2.0.tar.gz

第一阶段：hadoop入门学习

第00讲：课程概述
第1讲：hadoop1入门-HDFS架构
第2讲：hadoop1入门-HDFS副本存放策略
第3讲：hadoop1入门-mapreduce架构
第4讲：hadoop1入门-生产环境分布
第5讲：hadoop1伪分布搭建（1）
第6讲：hadoop1伪分布搭建（2）
第7讲：Mapreduce1运行过程详解

第三阶段：HDFS API开发和RPC框架介绍

第19讲：hadoop2伪分布搭建和maven工程搭建
第20讲：URL操作HDFS
第21讲: FileSystem操作HDFS（1）
第22讲：FileSystem操作HDFS（2）
第23讲：HDFS使用伪装用户
第24讲：获取HDFS集群信息
第25讲：HDFS案例演示
第26讲：RPC例子演示
第27讲：Namenode源码导读
第28讲：HDFS读写文件过程总结

第四阶段：Mapreduce开发

第29讲：MapReduce-键值对变化
第30讲：Mapreduce-WordCount例子演示
第31讲：MapReduce-Shuffle详解
第32讲：MapReduce-TOOL优化
第33讲：MapReduce-自定义计数器
第34讲：MapReduce-Map数和Reduce数设置
第35讲：MapReduce-最大值算法
第36讲：MapReduce-combine使用
第37讲：Mapreduce-TopN算法
第38讲：Mapreduce-自定义数据类型（手机流量）
第39讲：Mapreduce-自定义分区（1）
第40讲：Mapreduce-自定义分区（2）
第41讲：Mapreduce-二次排序

第五阶段：超大集群调优

第42讲：集群时间同步
第43讲：句柄数设置
第44讲：HDFS回收站配置
第45讲：配额管理
第46讲：Yarn资源配置
第47讲：日志管理
第48讲：本地库编译
第49讲：压缩格式介绍
第50讲：文件格式介绍
第51讲：YARN调度器配置
第52讲：Linux参数配置
第53讲：HDFS参数配置
第54讲：Mapreduce参数配置
第55讲：hadoop3新功能介绍

《Hadoop架构设计与源码分析第一季》
课程观看地址：http://www.xuetuwuyou.com/course/88

2016年最新Hadoop零基础实战视频教程
课程观看地址：http://www.xuetuwuyou.com/course/62

跟大象跳舞的入门书籍

Optimus Prime 2016-10-12 0赞

Hadoop的鼎鼎大名无人不知无人不晓，本书作为入门指导再合适不过，但阅读中文版本时总感觉不太通畅，有些专业术语转换成中文后就是有些别扭。
通过示例来学习Hadopp绝对是最好的方法，但关键是“In Action”，也就是实战，否则看再多的书也没有意义。只有在被复杂的SQL和海量数据大虐特虐后才会明白Hadoop的好，此话不假。
此书有一个亮点是介绍了如果构建基于AWS的Hadoop平台，可惜只简单提了一下EMS（Elastic Map Reduce），要是能有更详细的介绍就更完美了。
Hadoop的周边生态越来越眼花缭乱，时刻牢记能满足业务的就是最好的，不要贪多贪大，与君共勉。

上手还行

平凡的老鱼 2012-07-04 6赞

这是一本不是傻瓜类型的上手书，个人一般称傻瓜型的为入门书。

好吧，第一部分就是傻瓜部分，只要你把前三章看完，你就知道hadoop是什么，hadoop总体结构，hadoop的基本运行原理。至少知道了什么是map reduce，之前听一个搞数据库的哥们说了两回也没有太清楚。

第二部分没有细看，粗略翻了翻，看到了久违的Java很亲切，如果想上手搞搞的话，还是不错的行动指南。

第三部分也很价值，介绍了一些相关的东西，AWS,Pig，Hive这三个是详细介绍的，其它的还有很多提及了，如HBase 、ZooKeeper 、Mahout，案例部分最有价值，能够看到如何来实现一个Hadoop的过程，一般技术书里面提及的比较少。

所以，如果只要简单知道什么是Hadoop，推荐看看前三章。

　　

hadoop入门

给它一点时间 2013-09-24 2赞

1 基本上把mapReduce的思想讲清楚了，hadoop更多是使用方面的。基本上看个前三章，就能对mapreduce和hadoop有基本的理解。
2 它其实还没有严格来区分mapreduce和hadoop，根据我的理解。mapReduce是一种算法，一种思路。hadoop则实现了这种思路。为了应用这种思路，需要实现很多外围的功能，比如网络传输，任务分配等。这些内容hadoop都已经做好了，所以非常方面用它来实现自己的目的，只需要写自己的mapreduce的应用程序即可。
3 mapreduce的精髓个人认为是，把数据分布存储，然后用分布的机器各自计算这些存储数据，最后再合并统计。这样就实现了用多台廉价机取代单台昂贵机的目的。
4 hadoop目前不支持windows，只支持linux和unix，有条件的支持mac os。

datajoin包有坑

吃不下筷子咽不下碗 2013-03-07 1赞

不能完全照着本书，还需注意几个情况，详见http://www.cnblogs.com/aprilrain/archive/2013/01/28/2880460.html

☺☻☺☻☺☻☺☻☺☻☺☻☺☻☺☻☺☻☺☻☺☻☺☻够长了吗？

满分100：内容70+翻译20 = 90分

bdceo 2013-11-09 4赞

书中主要使用的是hadoop-0.19.1版本

翻译有些地方还是差强人意，上下文理解起来有时费劲

书中代码，不用说，在一个低版本上跑，包括自己搭环境，会是一个问题

个人不太推荐此书作为入门hadoop学习

整本书涉及的技术点可以说全部都是点到为止，不做深入，读完后，知道相关的技术点概念，实战性东西，靠自己摸索会效率很低

唯一觉得此书有价值的地方是：第8和10章内容，介于此，读电子版足矣！

貌似现在纸质的也还比较贵，所以真心不推荐

非常好的入门书