图书介绍

自己动手做大数据系统PDF|Epub|txt|kindle电子书版本下载

自己动手做大数据系统
  • 张魁,张粤磊,刘未昕,吴茂贵著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121295867
  • 出版时间:2016
  • 标注页数:238页
  • 文件大小:34MB
  • 文件页数:250页
  • 主题词:数据处理系统

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

自己动手做大数据系统PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 为什么要自己动手做大数据系统1

1.1 大数据时代1

1.2 实战大数据项目2

1.3 大数据演练平台2

第2章 项目背景及准备4

2.1 项目背景4

2.2 项目简介4

2.3 项目架构4

2.4 操作系统5

2.5 数据存储7

2.6 数据处理8

2.7 开发工具9

2.8 调试工具10

2.9 版本管理10

第3章 大数据环境搭建和配置11

3.1 各组件功能说明11

3.1.1 各种数据源的采集工具12

3.1.2 企业大数据存储工具12

3.1.3 企业大数据系统的数据仓库工具12

3.1.4 企业大数据系统的分析计算工具13

3.1.5 企业大数据系统的数据库工具13

3.2 大数据系统各组件安装部署配置13

3.2.1 安装的前期准备工作13

3.2.2 Hadoop基础环境安装及配置15

3.2.3 Hive安装及配置21

3.2.4 Sqoop安装及配置24

3.2.5 Spark安装及配置30

3.2.6 Zookeeper安装及配置31

3.2.7 HBase安装及配置33

3.3 自动化安装及部署说明35

3.3.1 自动化安装及部署整体架构设计35

3.3.2 大数据系统自动化部署逻辑调用关系36

3.4 本章小结43

第4章 大数据的获取44

4.1 使用爬虫获取互联网数据45

4.2 Python和Scrapy框架的安装45

4.3 抓取和解析招聘职位信息47

4.4 职位信息的落地51

4.5 两个爬虫配合工作53

4.6 让爬虫的架构设计更加合理55

4.7 获取数据的其他方式57

4.8 使用Sqoop同步论坛中帖子数据57

4.9 本章小结59

第5章 大数据的处理60

5.1 Hive是什么60

5.2 为什么使用Hive做数据仓库建模60

5.3 飞谷项目中Hive建模步骤61

5.3.1 逻辑模型的创建62

5.3.2 物理模型的创建67

5.3.3 将爬虫数据导入stg_job表74

5.4 使用Hive进行数据清洗转换77

5.5 数据清洗转换的必要性78

5.6 使用HiveQL清洗数据、提取维度信息79

5.6.1 使用HQL清洗数据79

5.6.2 提取维度信息82

5.7 定义Hive UDF封装处理逻辑85

5.7.1 Hive UDF的开发、部署和调用86

5.7.2 Python版本的UDF89

5.8 使用左外连接构造聚合表rpt_job92

5.9 让数据处理自动调度96

5.9.1 HQL的几种执行方式96

5.9.2 Hive Thrift服务99

5.9.3 使用JDBC连接Hive100

5.9.4 Python调用HiveServer服务103

5.9.5 用crontab实现的任务调度105

5.10 本章小结107

第6章 大数据的存储108

6.1 NoSQL及HBase简介108

6.2 HBase中的主要概念110

6.3 HBase客户端及JavaAPI111

6.4 Hive数据导入 HBase的两种方案114

6.4.1 利用既有的JAR包实现整合114

6.4.2 手动编写MapReduce程序116

6.5 使用Java API查询HBase中的职位信息122

6.5.1 为什么是HBase而非Hive122

6.5.2 多条件组合查询HBase中的职位信息123

6.6 如何显示职位表中的某条具体信息132

6.7 本章小结133

第7章 大数据的展示134

7.1 概述134

7.2 数据分析的一般步骤135

7.3 用R来做数据分析展示135

7.3.1 在Ubuntu上安装R135

7.3.2 R的基本使用方式137

7.4 用Hive充当R的数据来源139

7.4.1 RHive组件139

7.4.2 把R图表整合到Web页面中145

7.5 本章小结151

第8章 大数据的分析挖掘152

8.1 基于Spark的数据挖掘技术152

8.2 Spark和Hadoop的关系153

8.3 在Ubuntu上安装Spark集群154

8.3.1 JDK和Hadoop的安装154

8.3.2 安装Scala154

8.3.3 安装Spark155

8.4 Spark的运行方式157

8.5 使用Spark替代Hadoop Yarn引擎160

8.5.1 使用spark-sql查看Hive表160

8.5.2 在beeline客户端使用Spark引擎161

8.5.3 在Java代码中引用Spark的ThriftServer163

8.6 对招聘公司名称做全文检索168

8.6.1 从HDFS数据源构造JavaRDD169

8.6.2 使用Spark SQL操作RDD173

8.6.3 把RDD运行结果展现在前端174

8.7 如何把Spark用得更好175

8.8 SparkR组件的使用177

8.8.1 SparkR的安装及启动177

8.8.2 运行自带的Sample例子179

8.8.3 利用SparkR生成职位统计饼图179

8.9 本章小结181

第9章 自己动手搭建支撑大数据系统的云平台182

9.1 云平台架构182

9.1.1 一期云基础平台架构182

9.1.2 二期云基础平台架构184

9.2 云平台搭建及部署185

9.2.1 安装组件前准备185

9.2.2 Identity(Keystone)组件190

9.2.3 Image(Glance)组件198

9.2.4 Compute(Nova)组件201

9.2.5 Storage(Cinder)组件206

9.2.6 Networking(Neutron)组件210

9.2.7 Ceph分布式存储系统221

9.2.8 Dashboard(Horizon)组件230

9.3 Identity(Keystone)与LDAP的整合232

9.4 配置Image组件大镜像部署235

9.5 配置业务系统无缝迁移236

9.6 本章小结237

参考文献238

热门推荐