循序渐进学Spark/大数据技术丛书
查字典图书网
当前位置: 查字典 > 图书网 > 循序渐进学Spark/大数据技术丛书

循序渐进学Spark/大数据技术丛书

0.0

作者: 杨磊  |  大数据技术丛书
出版社: 机械工业
出版年: 2017-04-01
页数: 242
定价: 59.0
丛书: 大数据技术丛书
ISBN: 9787111563327



推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

内容简介:

杨磊著的这本《循序渐进学Spark》是一部从零开始系统学习Spark的绝佳指南!

它以最新的Spark2.0为基础,从Spark的架构设计和开发环境搭建开始,对Spark进行了全方位的、

循序渐进的讲解,内容包括功能模块的使用方法、编程模型、性能优化、架构设计、实现原理与工作机制,等等。对于任何想系统学习Spark的读者而言,只需要根据本书的顺序阅读,理解书中的内容,并完成书中的练习即可,非常轻松。

全书共8章:第1章,首先从宏观上介绍了Spark的组成和架构设计,然后详细讲解了Spark开发环境和集群环境的搭建,为后面章节的学习做好准备;第2章,讲解了Spark的编程模型,包含RDD弹性分布式数据、Spark的程序模型,以及它的各种算子;第3章,分析了Spark的工作机制与实现原理,重点剖析了Spark的提交和执行机制、Spark程序的宏观

执行过程、存储及10、通信机制、容错机制,以及Shuffle机制;第4章,深入分析了Spark的内核,沿着Spark的执行主线进行详细剖析,首先详细分析RDD是如何落地到Worker上执行的,然后从另一个角度分析了Client、Master与Worker之间的交互过程,最后深入讲述了Spark的两个重要功能点以及SpatkShuffle与Spark的存储机制。

第5章,主要讲解了Yarn的基本原理,以及基于Yarn的Spark程序提交和落地执行,同时还详细介绍了各个阶段的资源管理和调度职能;第6章,讲解了BDAs生态的主要模块,包含SparkSQL、SparkStreaming、SparkR、SparkMLlib等重要模块;第7章,总结了Spark的性能调优方法以及工业实践中常见问题的常用策略和解决方案;第8章,重点讲解了Spark2.0.0的更新,包括SparkCore、SparkSQL、MLlib、SparkStreaming、SparkR等模块API的变化及新增的功能特性等。对于变化较大的SparkSQL,书中又结合实际案例详细讲解了SparSession、结构化Streaming等新的特性。

展开全文
暂无评论
暂无评论
  • 大家都在看
  • 小编推荐
  • 猜你喜欢
  •