虽说后面部分稍有重复,但也是目前市场上最详细和深入的YARN书籍_Hadoop技术内幕书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 算法 > Hadoop技术内幕 > 虽说后面部分稍有重复,但也是目前市场上最详细和深入的YARN书籍
PhD_Jason Hadoop技术内幕 的书评 发表时间:2015-10-23 18:10:59

虽说后面部分稍有重复,但也是目前市场上最详细和深入的YARN书籍

      现在大数据在互联网领域可谓是如日中天,本人作为一名涉足大数据领域的博士,对华章科技的赠书,表示感谢。看完本书之后,首先作者对现在的大数据领域理解非常深入,但本书不适合初学者,适合有一定基础的人观看,由于我涉及的领域需要对Hadoop 的底层代码进行分析和改造,本书在这一方面做得工作很多,如果单学学如何编写MapReduce的程序,不建议看本书,毕竟本书分析的是机制而不是代码。虽然技术过硬,但写作方式上,难免有些是工科男的惯性,看起这本书难免在很难理解的地方,让人有种昏昏欲睡的感觉。不过总体来说很好,对于YARN的分析真得很深入。
      我总结下,对看完本书的整体印象,由于大数据的快速发展,使得Hadoop也快速的更新,对于程序员来说,接触到新的事物,也无疑是一种挑战。本书的Hadoop版本是2.2.0版本,而当我写这篇读后感的时候,Hadoop已经更新到2.7.0,而且新版本不仅在对java的支持上改变和MapReduce的优化都有了些许的改进,不过我根据书中描述,查看了作者的博客,发现其相应的对新的技术进行了更新,这样做可以让广大读者对新版本有个更新的认识,逐步去适应。本书对Yarn的运行机制进行了详细的分析,同时也对MR1和MR2进行了详细的对比。同时也对MR的不足进行了总结,并引入了现在的几个非常流行的框架Storm和Spark。但没有对其进行深入的探讨,可能是因为写书时候,这两个框架还不是很流行,现在Flink也算是顶级的项目,或许当作者再次写一本关于大数据的书时,就会将重心偏移了。毕竟流的实时分析才是大数据的未来发展趋势。
      下面谈下我接触YARN,对它的认识。书中有很少的代码,大篇幅的展示了整个2.0版本的Hadoop的优势和底层的运行机制,以及由于Yarn的到来,给Hadoop上的各种类型的框架带来了飞速的发展,这是Yarn得以有强大生命力的必要因素。把Job Tracker的两个主要功能(资源管理和作业调度/监控)分成了两个独立的服务程序——全局的资源管理(RM)和针对每个应用的应用 Master(AM),实现了框架的集中管理。其思想:
将JobTracker和TaskTacker进行分离,它由下面几大构成组件:
a. 一个全局的资源管理器 ResourceManager
b.ResourceManager的每个节点代理 NodeManager
c. 表示每个应用的 ApplicationMaster
d. 每一个ApplicationMaster拥有多个Container在NodeManager上运行。
      而新版本的2.7版本对Yarn上也有比较大的改动。首先是,YARN的授权模块变成插拔式的,用户可根据需要编写授权模块。其次是,对DistributedCache功能增强,DistributedCache模块拥有独立的服务,可以独立升级,也可以通过命令显式地预先cache文件。
      不过本书就内容和深度而言,无疑是上乘之作。
      本书个人认为的不足之处,对于每一个初学者来说,几乎不会得到真实的集群环境,所以需要搭建hadoop的集群环境,虽说本书用一章的篇幅来诉说hadoop的环境搭建,但仍有些很关键的地方没有注明为何这么做,这让初学者很难找到门路,如果搭建不成功环境,对后来的学习会有一个很消极的态度。虽说本书的环境搭建已经很简洁,但毕竟每个人使用的Linux和hadoop版本不同,因此有些地方真的需要注明。另外即使按照本书所说的环境搭建过程中,仍会遇到很多关于环境变量的配置,远比书中所提到的必要的java的环境变量和Hadoop的环境变量要多得多,甚至要修改配置文件,这对本身就有可能不熟悉linux的学习者来说,有点过于困难。其实可以附录一些Linux的必要命令,比如在安装linux系统时,安装vim编辑器也是很重要的,虽说这些关于集群环境的事,不是本书的重点,但初学者,看完第一章之后,配了很久环境,同时对于初学不太会看日志的人来说,根本不知道问题出在哪里,会打退堂鼓的。因此觉得,在此,本书就对阅读者的水平有了一定的限制,至少是熟悉linux的命令和能够读懂hadoop的日志,才能在此基础上,实现本书的阅读工作。
      写作模式上,既然作者是很用心在写一本机制和原理的书,我觉得有些细节可以忽略,比如作者对ApplicationMaster等管理介绍的很形象,但有些地方给出了大量的服务配置参数,我认为,既然是高谈底层和机制的书籍,不需要太接地气,毕竟能够读懂的人都是专业人士,列出参考文献和出处,将大量篇幅都放在形象描述机制和对框架的个人看法更好。
以上是本人的拙见,忘有兴趣的网友相互探讨。

展开全文


推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读