图书介绍

Spark 大数据集群计算的生产实践PDF|Epub|txt|kindle电子书版本下载

Spark 大数据集群计算的生产实践
  • (美)IlyaGanelin等著;李刚译 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121313646
  • 出版时间:2017
  • 标注页数:205页
  • 文件大小:21MB
  • 文件页数:221页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark 大数据集群计算的生产实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 成功运行Spark job1

安装所需组件2

原生安装Spark Standalone集群3

分布式计算的发展史3

步入云时代5

理解资源管理6

使用各种类型的存储格式9

文本文件11

Sequence文件13

Avro文件13

Parquet文件13

监控和度量的意义14

Spark UI14

Spark Standalone UI17

Metrics REST API17

Metrics System18

外部监控工具18

总结19

第2章 集群管理21

背景知识23

Spark组件26

Driver27

workers与executors28

配置30

Spark Standalone33

架构34

单节点设置场景34

多节点设置36

YARN36

架构38

动态资源分配41

场景43

Mesos45

安装46

架构47

动态资源分配49

基本安装场景50

比较52

总结56

第3章 性能调优59

Spark执行模型60

分区62

控制并行度62

分区器64

shuffle数据65

shuffle与数据分区67

算子与shuffle70

shuffle并不总是坏事75

序列化75

Kryo注册器77

Spark缓存77

SparkSQL缓存81

内存管理82

垃圾回收83

共享变量84

广播变量85

累加器87

数据局部性90

总结91

第4章 安全93

架构94

Security Manager94

设定配置95

ACL97

配置97

提交job98

Web UI99

网络安全107

加密108

事件日志113

Kerberos114

Apache Sentry114

总结115

第5章 容错或job执行117

Spark job的生命周期118

Spark master119

Spark driver122

Spark worker124

job生命周期124

job调度125

应用程序内部调度125

用外部工具进行调度133

容错135

内部容错与外部容错136

SLA137

RDD138

Batch vs Streaming145

测试策略148

推荐配置155

总结158

第6章 超越Spark159

数据仓库159

SparkSQL CLI161

Thrift JDBC/ODBC服务器162

Hive on Spark162

机器学习164

DataFrame165

MLlib和ML167

Mahout on Spark174

Hivemall On Spark175

外部的框架176

Spark Package177

XGBoost179

spark-jobserver179

未来的工作182

与参数服务器集成184

深度学习192

Spark在企业中的应用200

用Spark及Kafka收集用户活动日志200

用Spark做实时推荐202

Twitter Bots的实时分类204

总结205

热门推荐