图书介绍
Spark 大数据集群计算的生产实践PDF|Epub|txt|kindle电子书版本下载
![Spark 大数据集群计算的生产实践](https://www.shukui.net/cover/41/30457444.jpg)
- (美)IlyaGanelin等著;李刚译 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121313646
- 出版时间:2017
- 标注页数:205页
- 文件大小:21MB
- 文件页数:221页
- 主题词:数据处理软件
PDF下载
下载说明
Spark 大数据集群计算的生产实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 成功运行Spark job1
安装所需组件2
原生安装Spark Standalone集群3
分布式计算的发展史3
步入云时代5
理解资源管理6
使用各种类型的存储格式9
文本文件11
Sequence文件13
Avro文件13
Parquet文件13
监控和度量的意义14
Spark UI14
Spark Standalone UI17
Metrics REST API17
Metrics System18
外部监控工具18
总结19
第2章 集群管理21
背景知识23
Spark组件26
Driver27
workers与executors28
配置30
Spark Standalone33
架构34
单节点设置场景34
多节点设置36
YARN36
架构38
动态资源分配41
场景43
Mesos45
安装46
架构47
动态资源分配49
基本安装场景50
比较52
总结56
第3章 性能调优59
Spark执行模型60
分区62
控制并行度62
分区器64
shuffle数据65
shuffle与数据分区67
算子与shuffle70
shuffle并不总是坏事75
序列化75
Kryo注册器77
Spark缓存77
SparkSQL缓存81
内存管理82
垃圾回收83
共享变量84
广播变量85
累加器87
数据局部性90
总结91
第4章 安全93
架构94
Security Manager94
设定配置95
ACL97
配置97
提交job98
Web UI99
网络安全107
加密108
事件日志113
Kerberos114
Apache Sentry114
总结115
第5章 容错或job执行117
Spark job的生命周期118
Spark master119
Spark driver122
Spark worker124
job生命周期124
job调度125
应用程序内部调度125
用外部工具进行调度133
容错135
内部容错与外部容错136
SLA137
RDD138
Batch vs Streaming145
测试策略148
推荐配置155
总结158
第6章 超越Spark159
数据仓库159
SparkSQL CLI161
Thrift JDBC/ODBC服务器162
Hive on Spark162
机器学习164
DataFrame165
MLlib和ML167
Mahout on Spark174
Hivemall On Spark175
外部的框架176
Spark Package177
XGBoost179
spark-jobserver179
未来的工作182
与参数服务器集成184
深度学习192
Spark在企业中的应用200
用Spark及Kafka收集用户活动日志200
用Spark做实时推荐202
Twitter Bots的实时分类204
总结205