图书介绍

SPARK机器学习PDF|Epub|txt|kindle电子书版本下载

SPARK机器学习
  • (南非)NICK PENTREATH著;蔡立宇,黄章帅,周济民译 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115399830
  • 出版时间:2015
  • 标注页数:227页
  • 文件大小:31MB
  • 文件页数:240页
  • 主题词:数据处理软件-机器学习

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

SPARK机器学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Spark的环境搭建与运行1

1.1 Spark的本地安装与配置2

1.2 Spark集群3

1.3 Spark编程模型4

1.3.1 SparkContext类与SparkConf类4

1.3.2 Spark shell5

1.3.3 弹性分布式数据集6

1.3.4 广播变量和累加器10

1.4 Spark Scala编程入门11

1.5 Spark Java编程入门14

1.6 Spark Python编程入门17

1.7 在Amazon EC2上运行Spark18

1.8 小结23

第2章 设计机器学习系统24

2.1 MovieStream介绍24

2.2 机器学习系统商业用例25

2.2.1 个性化26

2.2.2 目标营销和客户细分26

2.2.3 预测建模与分析26

2.3 机器学习模型的种类27

2.4 数据驱动的机器学习系统的组成27

2.4.1 数据获取与存储28

2.4.2 数据清理与转换28

2.4.3 模型训练与测试回路29

2.4.4 模型部署与整合30

2.4.5 模型监控与反馈30

2.4.6 批处理或实时方案的选择31

2.5 机器学习系统架构31

2.6 小结33

第3章 Spark上数据的获取、处理与准备34

3.1 获取公开数据集35

3.2 探索与可视化数据37

3.2.1 探索用户数据38

3.2.2 探索电影数据41

3.2.3 探索评级数据43

3.3 处理与转换数据46

3.4 从数据中提取有用特征48

3.4.1 数值特征48

3.4.2 类别特征49

3.4.3 派生特征50

3.4.4 文本特征51

3.4.5 正则化特征55

3.4.6 用软件包提取特征56

3.5 小结57

第4章 构建基于Spark的推荐引擎58

4.1 推荐模型的分类59

4.1.1 基于内容的过滤59

4.1.2 协同过滤59

4.1.3 矩阵分解60

4.2 提取有效特征64

4.3 训练推荐模型67

4.3.1 使用MovieLens 100k数据集训练模型67

4.3.2 使用隐式反馈数据训练模型68

4.4 使用推荐模型69

4.4.1 用户推荐69

4.4.2 物品推荐72

4.5 推荐模型效果的评估75

4.5.1 均方差75

4.5.2 K值平均准确率77

4.5.3 使用MLlib内置的评估函数81

4.6 小结82

第5章 Spark构建分类模型83

5.1 分类模型的种类85

5.1.1 线性模型85

5.1.2 朴素贝叶斯模型89

5.1.3 决策树90

5.2 从数据中抽取合适的特征91

5.3 训练分类模型93

5.4 使用分类模型95

5.5 评估分类模型的性能96

5.5.1 预测的正确率和错误率96

5.5.2 准确率和召回率97

5.5.3 ROC曲线和AUC99

5.6 改进模型性能以及参数调优101

5.6.1 特征标准化101

5.6.2 其他特征104

5.6.3 使用正确的数据格式106

5.6.4 模型参数调优107

5.7 小结115

第6章 Spark构建回归模型116

6.1 回归模型的种类116

6.1.1 最小二乘回归117

6.1.2 决策树回归117

6.2 从数据中抽取合适的特征118

6.3 回归模型的训练和应用123

6.4 评估回归模型的性能125

6.4.1 均方误差和均方根误差125

6.4.2 平均绝对误差126

6.4.3 均方根对数误差126

6.4.4 R-平方系数126

6.4.5 计算不同度量下的性能126

6.5 改进模型性能和参数调优127

6.5.1 变换目标变量128

6.5.2 模型参数调优132

6.6 小结140

第7章 Spark构建聚类模型141

7.1 聚类模型的类型142

7.1.1 K-均值聚类142

7.1.2 混合模型146

7.1.3 层次聚类146

7.2 从数据中提取正确的特征146

7.3 训练聚类模型150

7.4 使用聚类模型进行预测151

7.5 评估聚类模型的性能155

7.5.1 内部评价指标155

7.5.2 外部评价指标156

7.5.3 在MovieLens数据集计算性能156

7.6 聚类模型参数调优156

7.7 小结158

第8章 Spark应用于数据降维159

8.1 降维方法的种类160

8.1.1 主成分分析160

8.1.2 奇异值分解160

8.1.3 和矩阵分解的关系161

8.1.4 聚类作为降维的方法161

8.2 从数据中抽取合适的特征162

8.3 训练降维模型169

8.4 使用降维模型172

8.4.1 在LFW数据集上使用PCA投影数据172

8.4.2 PCA和SVD模型的关系173

8.5 评价降维模型174

8.6 小结176

第9章 Spark高级文本处理技术177

9.1 处理文本数据有什么特别之处177

9.2 从数据中抽取合适的特征177

9.2.1 短语加权表示178

9.2.2 特征哈希179

9.2.3 从20新闻组数据集中提取TF-IDF特征180

9.3 使用TF-IDF模型192

9.3.1 20 Newsgroups数据集的文本相似度和TF-IDF特征192

9.3.2 基于20 Newsgroups数据集使用TF-IDF训练文本分类器194

9.4 评估文本处理技术的作用196

9.5 Word2Vec模型197

9.6 小结200

第10章 Spark Streaming在实时机器学习上的应用201

10.1 在线学习201

10.2 流处理202

10.2.1 Spark Streaming介绍202

10.2.2 使用Spark Streaming缓存和容错205

10.3 创建Spark Streaming应用206

10.3.1 消息生成端207

10.3.2 创建简单的流处理程序209

10.3.3 流式分析211

10.3.4 有状态的流计算213

10.4 使用Spark Streaming进行在线学习215

10.4.1 流回归215

10.4.2 一个简单的流回归程序216

10.4.3 流K-均值220

10.5 在线模型评估221

10.6 小结224

热门推荐