图书介绍

深度实践Spark机器学习PDF|Epub|txt|kindle电子书版本下载

深度实践Spark机器学习
  • 吴茂贵,郁明敏,朱凤元,张粤磊,杨本法著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111589952
  • 出版时间:2018
  • 标注页数:234页
  • 文件大小:22MB
  • 文件页数:245页
  • 主题词:数据处理软件-机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

深度实践Spark机器学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 了解机器学习1

1.1机器学习的定义1

1.2大数据与机器学习2

1.3机器学习、人工智能及深度学习2

1.4机器学习的基本任务3

1.5如何选择合适算法4

1.6 Spark在机器学习方面的优势5

1.7小结5

第2章 构建Spark机器学习系统6

2.1机器学习系统架构6

2.2启动集群7

2.3加载数据9

2.4探索数据10

2.4.1数据统计信息10

2.4.2数据质量分析11

2.4.3数据特征分析12

2.4.4数据的可视化17

2.5数据预处理19

2.5.1数据清理20

2.5.2数据变换21

2.5.3数据集成22

2.5.4数据归约23

2.6构建模型25

2.7模型评估26

2.8组装30

2.9模型选择或调优30

2.9.1交叉验证31

2.9.2训练-验证切分32

2.10保存模型32

2.11小结33

第3章ML Pipeline原理与实战34

3.1 Pipeline简介34

3.2 DataFrame35

3.3 Pipeline组件36

3.4 Pipeline原理37

3.5 Pipeline实例38

3.5.1使用Estimator、 Transformer和Param的实例38

3.5.2 ML使用Pipeline的实例40

3.6小结41

第4章 特征提取、转换和选择42

4.1特征提取42

4.1.1词频—逆向文件频率(TF-IDF )42

4.1.2 Word2Vec43

4.1.3计数向量器44

4.2特征转换45

4.2.1分词器45

4.2.2移除停用词46

4.2.3 n-gram47

4.2.4二值化48

4.2.5 主成分分析48

4.2.6多项式展开50

4.2.7离散余弦变换50

4.2.8 字符串—索引变换51

4.2.9索引—字符串变换53

4.2.10独热编码54

4.2.11向量—索引变换57

4.2.12交互式58

4.2.13正则化59

4.2.14规范化60

4.2.15 最大值—最小值缩放60

4.2.16最大值—绝对值缩放61

4.2.17离散化重组62

4.2.18 元素乘积63

4.2.19 SQL转换器64

4.2.20向量汇编65

4.2.21分位数离散化66

4.3特征选择67

4.3.1向量机67

4.3.2 R公式69

4.3.3卡方特征选择70

4.4小结71

第5章 模型选择和优化72

5.1模型选择72

5.2交叉验证73

5.3训练验证拆分法75

5.4自定义模型选择76

5.5小结78

第6章Spark MLlib基础79

6.1 Spark MLlib简介80

6.2 Spark MLlib架构81

6.3数据类型82

6.4基础统计84

6.4.1摘要统计84

6.4.2相关性84

6.4.3假设检验85

6.4.4随机数据生成85

6.5 RDD、Dataframe和Dataset86

6.5.1 RDD86

6.5.2 Dataset/DataFrame87

6.5.3相互转换88

6.6小结89

第7章 构建Spark ML推荐模型90

7.1推荐模型简介91

7.2数据加载92

7.3数据探索94

7.4训练模型94

7.5组装95

7.6评估模型96

7.7模型优化96

7.8小结98

第8章 构建Spark ML分类模型99

8.1分类模型简介99

8.1.1线性模型100

8.1.2决策树模型101

8.1.3朴素贝叶斯模型102

8.2数据加载102

8.3数据探索103

8.4数据预处理104

8.5组装109

8.6模型优化110

8.7小结113

第9章 构建Spark ML回归模型114

9.1回归模型简介115

9.2数据加载115

9.3探索特征分布117

9.4数据预处理120

9.4.1特征选择121

9.4.2特征转换121

9.5组装122

9.6模型优化124

9.7小结126

第10章 构建Spark ML聚类模型127

10.1 K-means模型简介128

10.2数据加载129

10.3探索特征的相关性129

10.4数据预处理131

10.5组装132

10.6模型优化134

10.7小结136

第11章PySpark决策树模型137

11.1 PySpark简介138

11.2决策树简介139

11.3数据加载140

11.3.1原数据集初探140

11.3.2 PySpark的启动142

11.3.3基本函数142

11.4数据探索143

11.5数据预处理143

11.6创建决策树模型145

11.7训练模型进行预测146

11.8模型优化149

11.8.1特征值的优化149

11.8.2交叉验证和网格参数152

11.9脚本方式运行154

11.9.1在脚本中添加配置信息154

11.9.2运行脚本程序154

11.10小结154

第12章SparkR朴素贝叶斯模型155

12.1 SparkR简介156

12.2获取数据157

12.2.1 SparkDataFrame数据结构说明157

12.2.2创建SparkDataFrame157

12.2.3 SparkDataFrame的常用操作160

12.3朴素贝叶斯分类器162

12.3.1数据探查162

12.3.2对原始数据集进行转换163

12.3.3查看不同船舱的生还率差异163

12.3.4转换成SparkDataFrame格式的数据165

12.3.5模型概要165

12.3.6预测165

12.3.7评估模型166

12.4小结167

第13章 使用Spark Streaming构建在线学习模型168

13.1 Spark Streaming简介168

13.1.1 Spark Streaming常用术语169

13.1.2 Spark Streaming处理流程169

13.2 Dstream操作170

13.2.1 Dstream输入170

13.2.2 Dstream转换170

13.2.3 Dstream修改171

13.2.4 Dstream输出172

13.3 Spark Streaming应用实例172

13.4 Spark Streaming在线学习实例174

13.5小结175

第14章TensorFlowOnSpark详解176

14.1 TensorFlow简介176

14.1.1 TensorFlow的安装177

14.1.2 TensorFlow的发展177

14.1.3 TensorFlow的特点177

14.1.4 TensorFlow编程模型178

14.1.5 TensorFlow常用函数180

14.1.6 TensorFlow运行原理181

14.1.7 TensorFlow系统架构182

14.2 TensorFlow实现卷积神经网络183

14.2.1卷积神经网络简介183

14.2.2卷积神经网络的发展历程184

14.2.3卷积神经网络的网络结构186

14.2.4 TensorFlow实现卷积神经网络186

14.3 TensorFlow实现循环神经网络191

14.3.1循环神经网络简介191

14.3.2 LSTM循环神经网络简介192

14.3.3 LSTM循环神经网络分步说明193

14.3.4 TensorFlow实现循环神经网络194

14.4分布式TensorFlow198

14.4.1客户端、主节点和工作节点间的关系198

14.4.2分布式模式198

14.4.3在Pyspark集群环境运行TensorFlow199

14.5 TensorFlowOnSpark架构202

14.6 TensorFlowOnSpark安装203

14.7 TensorFlowOnSpark实例204

14.7.1 TensorFlowOnSpark单机模式实例204

14.7.2 TensorFlowOnSpark集群模式实例207

14.8小结208

附录A线性代数209

附录B概率统计214

附录C Scala基础220

热门推荐