您好,欢迎访问PDF电子书资源免费下载网

上传文档

当前位置:首页 > 专业书籍 > 计算机类 > 其他 > 循序渐进学Spark.html

循序渐进学Spark.html

二扫码支付 微信
二扫码支付 支付宝

还剩... 页未读,继续阅读

免费阅读已结束,点击付费阅读剩下 ...

¥ 0 元,已有0人购买

免费阅读

阅读已结束,您可以下载文档离线阅读

¥ 1 元,已有0人下载

付费下载
文档简介:

前言 Spark诞生于美国加州大学伯克利分校AMP实验室。随着大数据技术在互联网、金融等领域的突破式进展,Spark在近些年得到更为广泛的应用。这是一个核心贡献者超过一半为华人的大数据平台开 源项目,且正处于飞速发展、快速成熟的阶段。 为什么写这本书 Spark已经成为大数据计算、分析领域新的热点和发展方向。相对于Hadoop传统的MapReduce计算模型,Spark提供更为高效的计算框架以及更为丰富的功能,因此在大数据生产应用领域中不断攻 城略地,势如破竹。 与企业不断涌现的对大数据技术的需求相比,大数据人才还存在很大缺口,对大数据技术充满期许的新人正在源源不断地加入这个领域。在小象学院的教学实践过程中,我们发现,一本能完整系统地 介绍Spark各模块原理并兼顾使用实战的书,对于初入大数据领域的技术人员至关重要。于是,我们根据日常积累的经验,著成本书。 Spark作为一个高速发展的开源项目,最近也发布了全新的Spark 2.0版本。对于Spark 2.0版本的新特性,我们也专门给予描述,以期将最前沿的Spark技术奉献给读者。 本书面向的读者 ·Spark初学者 ·Spark应用开发人员 ·Spark运维人员 ·大数据技术爱好者 如何阅读本书 本书共分8章: 第1章介绍了Spark大数据处理框架的基本概念、主要组成部分、基本架构,以及Spark集群环境搭建和Spark开发环境的构建方法。 第2章引入Spark编程中的核心——RDD弹性分布式数据集,以典型的编程范例,讲解基于RDD的算子操作。 第3章主要讲述了Spark的工作机制与原理,剖析了Spark的提交和执行时的具体机制,重点强调了Spark程序的宏观执行过程。此外,更深入地剖析了Spark的存储及IO、通信机制、容错机制和 Shuffle机制。 第4章对Spark的代码布局做了宏观介绍,并对Spark的执行主线进行详细剖析,从代码层面详细讲述RDD是如何落地到Worker上执行的。同时,本章从另一个角度分析了Client、Master与Worker之 间的交互过程,深入讲述了Spark的两个重要功能点及Spark Shuffle与Spark存储机制。 第5章介绍了YARN的基本原理及基于YARN的Spark程序提交,并结合从程序提交到落地执行的过程,详细介绍了各个阶段的资源管理和调度职能。在本章的后半部分,主要从资源配置的角度对YARN 及基于YARN的Spark做了较为详细的介绍。 第6章一一讲解了BDAS中的主要模块。由Spark SQL开始,介绍了Spark SQL及其编程模型和DataFrame。接着深入讲解Spark生态中用于流式计算的模块Spark Strea......

资料大王PDF
资料大王PDF
  • 86086

    文档
  • 151.826

    金币
Ta的主页 发私信

86086篇文档

评论

发表评论
< /0 > 付费下载 ¥ 1 元

Powered by 阿里PDF-免费文档电子书下载

Copyright © PDF电子书资源免费下载网 All Rights Reserved. 皖ICP备2021018472号-4
×
保存成功