图书介绍
深度实践Spark机器学习PDF|Epub|txt|kindle电子书版本下载
![深度实践Spark机器学习](https://www.shukui.net/cover/77/34551647.jpg)
- 吴茂贵,郁明敏,朱凤元,张粤磊,杨本法著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111589952
- 出版时间:2018
- 标注页数:234页
- 文件大小:22MB
- 文件页数:245页
- 主题词:数据处理软件-机器学习
PDF下载
下载说明
深度实践Spark机器学习PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 了解机器学习1
1.1机器学习的定义1
1.2大数据与机器学习2
1.3机器学习、人工智能及深度学习2
1.4机器学习的基本任务3
1.5如何选择合适算法4
1.6 Spark在机器学习方面的优势5
1.7小结5
第2章 构建Spark机器学习系统6
2.1机器学习系统架构6
2.2启动集群7
2.3加载数据9
2.4探索数据10
2.4.1数据统计信息10
2.4.2数据质量分析11
2.4.3数据特征分析12
2.4.4数据的可视化17
2.5数据预处理19
2.5.1数据清理20
2.5.2数据变换21
2.5.3数据集成22
2.5.4数据归约23
2.6构建模型25
2.7模型评估26
2.8组装30
2.9模型选择或调优30
2.9.1交叉验证31
2.9.2训练-验证切分32
2.10保存模型32
2.11小结33
第3章ML Pipeline原理与实战34
3.1 Pipeline简介34
3.2 DataFrame35
3.3 Pipeline组件36
3.4 Pipeline原理37
3.5 Pipeline实例38
3.5.1使用Estimator、 Transformer和Param的实例38
3.5.2 ML使用Pipeline的实例40
3.6小结41
第4章 特征提取、转换和选择42
4.1特征提取42
4.1.1词频—逆向文件频率(TF-IDF )42
4.1.2 Word2Vec43
4.1.3计数向量器44
4.2特征转换45
4.2.1分词器45
4.2.2移除停用词46
4.2.3 n-gram47
4.2.4二值化48
4.2.5 主成分分析48
4.2.6多项式展开50
4.2.7离散余弦变换50
4.2.8 字符串—索引变换51
4.2.9索引—字符串变换53
4.2.10独热编码54
4.2.11向量—索引变换57
4.2.12交互式58
4.2.13正则化59
4.2.14规范化60
4.2.15 最大值—最小值缩放60
4.2.16最大值—绝对值缩放61
4.2.17离散化重组62
4.2.18 元素乘积63
4.2.19 SQL转换器64
4.2.20向量汇编65
4.2.21分位数离散化66
4.3特征选择67
4.3.1向量机67
4.3.2 R公式69
4.3.3卡方特征选择70
4.4小结71
第5章 模型选择和优化72
5.1模型选择72
5.2交叉验证73
5.3训练验证拆分法75
5.4自定义模型选择76
5.5小结78
第6章Spark MLlib基础79
6.1 Spark MLlib简介80
6.2 Spark MLlib架构81
6.3数据类型82
6.4基础统计84
6.4.1摘要统计84
6.4.2相关性84
6.4.3假设检验85
6.4.4随机数据生成85
6.5 RDD、Dataframe和Dataset86
6.5.1 RDD86
6.5.2 Dataset/DataFrame87
6.5.3相互转换88
6.6小结89
第7章 构建Spark ML推荐模型90
7.1推荐模型简介91
7.2数据加载92
7.3数据探索94
7.4训练模型94
7.5组装95
7.6评估模型96
7.7模型优化96
7.8小结98
第8章 构建Spark ML分类模型99
8.1分类模型简介99
8.1.1线性模型100
8.1.2决策树模型101
8.1.3朴素贝叶斯模型102
8.2数据加载102
8.3数据探索103
8.4数据预处理104
8.5组装109
8.6模型优化110
8.7小结113
第9章 构建Spark ML回归模型114
9.1回归模型简介115
9.2数据加载115
9.3探索特征分布117
9.4数据预处理120
9.4.1特征选择121
9.4.2特征转换121
9.5组装122
9.6模型优化124
9.7小结126
第10章 构建Spark ML聚类模型127
10.1 K-means模型简介128
10.2数据加载129
10.3探索特征的相关性129
10.4数据预处理131
10.5组装132
10.6模型优化134
10.7小结136
第11章PySpark决策树模型137
11.1 PySpark简介138
11.2决策树简介139
11.3数据加载140
11.3.1原数据集初探140
11.3.2 PySpark的启动142
11.3.3基本函数142
11.4数据探索143
11.5数据预处理143
11.6创建决策树模型145
11.7训练模型进行预测146
11.8模型优化149
11.8.1特征值的优化149
11.8.2交叉验证和网格参数152
11.9脚本方式运行154
11.9.1在脚本中添加配置信息154
11.9.2运行脚本程序154
11.10小结154
第12章SparkR朴素贝叶斯模型155
12.1 SparkR简介156
12.2获取数据157
12.2.1 SparkDataFrame数据结构说明157
12.2.2创建SparkDataFrame157
12.2.3 SparkDataFrame的常用操作160
12.3朴素贝叶斯分类器162
12.3.1数据探查162
12.3.2对原始数据集进行转换163
12.3.3查看不同船舱的生还率差异163
12.3.4转换成SparkDataFrame格式的数据165
12.3.5模型概要165
12.3.6预测165
12.3.7评估模型166
12.4小结167
第13章 使用Spark Streaming构建在线学习模型168
13.1 Spark Streaming简介168
13.1.1 Spark Streaming常用术语169
13.1.2 Spark Streaming处理流程169
13.2 Dstream操作170
13.2.1 Dstream输入170
13.2.2 Dstream转换170
13.2.3 Dstream修改171
13.2.4 Dstream输出172
13.3 Spark Streaming应用实例172
13.4 Spark Streaming在线学习实例174
13.5小结175
第14章TensorFlowOnSpark详解176
14.1 TensorFlow简介176
14.1.1 TensorFlow的安装177
14.1.2 TensorFlow的发展177
14.1.3 TensorFlow的特点177
14.1.4 TensorFlow编程模型178
14.1.5 TensorFlow常用函数180
14.1.6 TensorFlow运行原理181
14.1.7 TensorFlow系统架构182
14.2 TensorFlow实现卷积神经网络183
14.2.1卷积神经网络简介183
14.2.2卷积神经网络的发展历程184
14.2.3卷积神经网络的网络结构186
14.2.4 TensorFlow实现卷积神经网络186
14.3 TensorFlow实现循环神经网络191
14.3.1循环神经网络简介191
14.3.2 LSTM循环神经网络简介192
14.3.3 LSTM循环神经网络分步说明193
14.3.4 TensorFlow实现循环神经网络194
14.4分布式TensorFlow198
14.4.1客户端、主节点和工作节点间的关系198
14.4.2分布式模式198
14.4.3在Pyspark集群环境运行TensorFlow199
14.5 TensorFlowOnSpark架构202
14.6 TensorFlowOnSpark安装203
14.7 TensorFlowOnSpark实例204
14.7.1 TensorFlowOnSpark单机模式实例204
14.7.2 TensorFlowOnSpark集群模式实例207
14.8小结208
附录A线性代数209
附录B概率统计214
附录C Scala基础220