图书介绍

Spark大数据分析实战PDF|Epub|txt|kindle电子书版本下载

Spark大数据分析实战
  • 高彦杰,倪亚宇著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111523079
  • 出版时间:2016
  • 标注页数:214页
  • 文件大小:23MB
  • 文件页数:226页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark大数据分析实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Spark简介1

1.1 初识Spark1

1.2 Spark生态系统BDAS3

1.3 Spark架构与运行逻辑4

1.4 弹性分布式数据集6

1.4.1 RDD简介6

1.4.2 RDD算子分类8

1.5 本章小结17

第2章 Spark开发与环境配置18

2.1 Spark应用开发环境配置18

2.1.1 使用Intellij开发Spark程序18

2.1.2 使用SparkShell进行交互式数据分析23

2.2 远程调试Spark程序24

2.3 Spark编译26

2.4 配置Spark源码阅读环境29

2.5 本章小结29

第3章 BDAS简介30

3.1 SQL on Spark30

3.1.1 为什么使用Spark SQL31

3.1.2 Spark SQL架构分析32

3.2 Spark Streaming35

3.2.1 Spark Streaming简介35

3.2.2 Spark Streaming架构38

3.2.3 Spark Streaming原理剖析38

3.3 GraphX45

3.3.1 GraphX简介45

3.3.2 GraphX的使用简介45

3.3.3 GraphX体系结构48

3.4 MLlib50

3.4.1 MLlib简介50

3.4.2 MLlib中的聚类和分类52

3.5 本章小结57

第4章 Lamda架构日志分析流水线58

4.1 日志分析概述58

4.2 日志分析指标61

4.3 Lamda架构62

4.4 构建日志分析数据流水线64

4.4.1 用Flume进行日志采集64

4.4.2 用Kafka将日志汇总68

4.4.3 用Spark Streaming进行实时日志分析70

4.4.4 SparkSQL离线日志分析75

4.4.5 用Flask将日志KPI可视化78

4.5 本章小结81

第5章 基于云平台和用户日志的推荐系统82

5.1 Azure云平台简介82

5.1.1 Azure网站模型83

5.1.2 Azure数据存储84

5.1.3 Azure Queue消息传递84

5.2 系统架构85

5.3 构建Node.js应用86

5.3.1 创建Azure Web应用87

5.3.2 构建本地Node.js网站90

5.3.3 发布应用到云平台90

5.4 数据收集与预处理91

5.4.1 通过JS收集用户行为日志92

5.4.2 用户实时行为回传到Azure Queue94

5.5 Spark Streaming实时分析用户日志96

5.5.1 构建Azure Queue的Spark Streaming Receiver96

5.5.2 Spark Streaming实时处理Azure Queue日志97

5.5.3 Spark Streaming数据存储于Azure Table98

5.6 MLlib离线训练模型99

5.6.1 加载训练数据99

5.6.2 使用rating RDD训练ALS模型100

5.6.3 使用ALS模型进行电影推荐101

5.6.4 评估模型的均方差101

5.7 本章小结102

第6章 Twitter情感分析103

6.1 系统架构103

6.2 Twitter数据收集104

6.2.1 设置104

6.2.2 Spark Streaming接收并输出Tweet109

6.3 数据预处理与Cassandra存储111

6.3.1 添加SBT依赖111

6.3.2 创建Cassandra Schema112

6.3.3 数据存储于Cassandra112

6.4 Spark Streaming热点Twitter分析113

6.5 Spark Streaming在线情感分析115

6.6 Spark SQL进行Twitter分析118

6.6.1 读取Cassandra数据118

6.6.2 查看JSON数据模式118

6.6.3 Spark SQL分析Twitter119

6.7 Twitter可视化123

6.8 本章小结125

第7章 热点新闻分析系统126

7.1 新闻数据分析126

7.2 系统架构126

7.3 爬虫抓取网络信息127

7.3.1 Scrapy简介127

7.3.2 创建基于Scrapy的新闻爬虫128

7.3.3 爬虫分布式化133

7.4 新闻文本数据预处理134

7.5 新闻聚类135

7.5.1 数据转换为向量(向量空间模型VSM)135

7.5.2 新闻聚类136

7.5.3 词向量同义词查询138

7.5.4 实时热点新闻分析138

7.6 Spark Elastic Search构建全文检索引擎139

7.6.1 部署Elastic Search139

7.6.2 用Elastic Search索引MongoDB数据141

7.6.3 通过Elastic Search检索数据143

7.7 本章小结145

第8章 构建分布式的协同过滤推荐系统146

8.1 推荐系统简介146

8.2 协同过滤介绍147

8.2.1 基于用户的协同过滤算法User-based CF148

8.2.2 基于项目的协同过滤算法Item-based CF149

8.2.3 基于模型的协同过滤推荐Model-based CF150

8.3 基于Spark的矩阵运算实现协同过滤算法152

8.3.1 Spark中的矩阵类型152

8.3.2 Spark中的矩阵运算153

8.3.3 实现User-based协同过滤的示例153

8.3.4 实现Item-based协同过滤的示例154

8.3.5 基于奇异值分解实现Model-based协同过滤的示例155

8.4 基于Spark的MLlib实现协同过滤算法155

8.4.1 MLlib的推荐算法工具155

8.4.2 MLlib协同过滤推荐示例156

8.5 案例:使用MLlib协同过滤实现电影推荐157

8.5.1 MovieLens数据集157

8.5.2 确定最佳的协同过滤模型参数158

8.5.3 利用最佳模型进行电影推荐160

8.6 本章小结161

第9章 基于Spark的社交网络分析162

9.1 社交网络介绍162

9.1.1 社交网络的类型162

9.1.2 社交网络的相关概念163

9.2 社交网络中社团挖掘算法164

9.2.1 聚类分析和K均值算法简介165

9.2.2 社团挖掘的衡量指标165

9.2.3 基于谱聚类的社团挖掘算法166

9.3 Spark中的K均值算法168

9.3.1 Spark中与K均值有关的对象和方法168

9.3.2 Spark下K均值算法示例168

9.4 案例:基于Spark的Facebook社团挖掘169

9.4.1 SNAP社交网络数据集介绍169

9.4.2 基于Spark的社团挖掘实现170

9.5 社交网络中的链路预测算法172

9.5.1 分类学习简介172

9.5.2 分类器的评价指标173

9.5.3 基于Logistic回归的链路预测算法174

9.6 Spark MLlib中的Logistic回归174

9.6.1 分类器相关对象174

9.6.2 模型验证对象175

9.6.3 基于Spark的Logistic回归示例175

9.7 案例:基于Spark的链路预测算法177

9.7.1 SNAP符号社交网络Epinions数据集177

9.7.2 基于Spark的链路预测算法177

9.8 本章小结179

第10章 基于Spark的大规模新闻主题分析180

10.1 主题模型简介180

10.2 主题模型LDA181

10.2.1 LDA模型介绍181

10.2.2 LDA的训练算法183

10.3 Spark中的LDA模型185

10.3.1 MLlib对LDA的支持185

10.3.2 Spark中LDA模型训练示例186

10.4 案例:Newsgroups新闻的主题分析189

10.4.1 Newsgroups数据集介绍190

10.4.2 交叉验证估计新闻的主题个数190

10.4.3 基于主题模型的文本聚类算法193

10.4.4 基于主题模型的文本分类算法195

10.5 本章小结196

第11章 构建分布式的搜索引擎197

11.1 搜索引擎简介197

11.2 搜索排序概述198

11.3 查询无关模型PageRank199

11.4 基于Spark的分布式PageRank实现200

11.4.1 PageRank的MapReduce实现200

11.4.2 Spark的分布式图模型GraphX203

11.4.3 基于GraphX的PageRank实现203

11.5 案例:GoogleWeb Graph的PageRank计算204

11.6 查询相关模型Ranking SVM206

11.7 Spark中支持向量机的实现208

11.7.1 Spark中的支持向量机模型208

11.7.2 使用Spark测试数据演示支持向量机的训练209

11.8 案例:基于MSLR数据集的查询排序211

11.8.1 Microsoft Learning to Rank数据集介绍211

11.8.2 基于Spark的Ranking SVM实现212

11.9 本章小结213

热门推荐