图书介绍

Hadoop大数据处理PDF|Epub|txt|kindle电子书版本下载

Hadoop大数据处理
  • 刘军编著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115323248
  • 出版时间:2013
  • 标注页数:289页
  • 文件大小:74MB
  • 文件页数:299页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop大数据处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据处理概论1

1.1什么是大数据2

1.2数据处理平台的基础架构5

1.3大数据处理的存储7

1.3.1提升容量7

1.3.2提升吞吐量11

1.4大数据处理的计算模式17

1.4.1多处理技术17

1.4.2并行计算20

1.5大数据处理系统的容错性26

1.5.1数据存储容错27

1.5.2计算任务容错28

1.6大数据处理的云计算变革30

本章参考文献32

第2章 基于Hadoop的大数据处理架构35

2.1 Google核心云计算技术35

2.1.1并行计算编程模型MapReduce36

2.1.2分布式文件系统GFS38

2.1.3分布式结构化数据存储BigTable39

2.2 Hadoop云计算技术及发展41

2.2.1 Hadoop的由来41

2.2.2 Hadoop原理与运行机制42

2.2.3 Hadoop相关技术及简介45

2.2.4 Hadoop技术的发展与演进47

2.3基于云计算的大数据处理架构48

2.4基于去计算的大数据处理技术的应用51

2.4.1百度51

2.4.2阿里巴巴56

2.4.3腾讯58

2.4.4华为60

2.4.5中国移动62

2.5 Hadoop运行实践63

本章参考文献64

第3章 MapReduce计算模式66

3.1 MapReduce原理66

3.2 MapReduce工作机制69

3.2.1 MapReduce运行框架的组件70

3.2.2 MapReduce作业的运行流程70

3.2.3作业调度72

3.2.4异常处理73

3.3 MapReduce应用开发74

3.3.1 MapReduce应用开发流程74

3.3.2通过Web界面分析MapReduce应用76

3.3.3 MapReduce任务执行的单步跟踪78

3.3.4多个MapReduce过程的组合模式79

3.3.5使用其他语言编写MapReduce程序81

3.3.6不同数据源的数据联结(Join)82

3.4 MapReduce设计模式87

3.4.1计数(Counting)88

3.4.2分类(Classfiication)88

3.4.3过滤处理(Filtering)89

3.4.4排序(Sorting)89

3.4.5去重计数(Distinct Counting)90

3.4.6相关计数(Cross-Correlation)91

3.5 MapReduce算法实践92

3.5.1最短路径算法92

3.5.2反向索引算法94

3.5.3 PageRank算法95

3.6 MapReduce性能调优97

3.6.1 MapReduce参数配置优化97

3.6.2使用Cominber减少数据传输99

3.6.3启用数据压缩100

3.6.4使用预测执行功能101

3.6.5重用JVM101

本章参考文献102

第4章 使用HDFS存储大数据103

4.1大数据的云存储需求103

4.2 HDFS架构与流程104

4.2.1系统框架104

4.2.2数据读取过程105

4.2.3数据写入过程106

4.3文件访问与控制108

4.3.1基于命令行的文件管理108

4.3.2通过API操作文件110

4.4 HDFS性能优化114

4.4.1调整数据块尺寸114

4.4.2规划网络与节点114

4.4.3调整服务队列数量116

4.4.4预留磁盘空间116

4.4.5存储平衡117

4.4.6根据节点功能优化磁盘配置117

4.4.7其他参数119

4.5 HDFS的小文件存储问题119

4.5.1 Hadoop Archive工具120

4.5.2 CombineFileInputFormat121

4.5.3 SequenceFile格式121

4.5.4相关研究122

4.6 HDFS的高可用性问题123

4.6.1基于配置的元数据备份123

4.6.2基于DRBD的元数据备份124

4.6.3 Secondary NameNode/CheckpointNode125

4.6.4 Backup Node125

4.6.5 NameNode热备份126

4.6.6 HDFS的HA方案总结126

本章参考文献127

第5章 HBase大数据库128

5.1大数据环境下的数据库128

5.2 HBase架构与原理129

5.2.1系统架构及组件129

5.2.2数据模型与物理存储131

5.2.3 RegionServer的查找135

5.2.4物理部署与读写流程136

5.3管理HBase中的数据138

5.3.1 Shell138

5.3.2 Java API141

5.3.3非Java语言访问146

5.4从RDBMS到HBase147

5.4.1行到列与主键到行关键字149

5.4.2联合查询(Join)与去范例化(Denormalization)151

5.5在HBase上运行MapReduce152

5.6 HBase性能优化155

5.6.1参数配置优化155

5.6.2表设计优化156

5.6.3更新数据操作优化157

5.6.4读数据操作优化158

5.6.5数据压缩159

5.6.6 JVM GC优化159

5.6.7负载均衡160

5.6.8性能测试工具160

本章参考文献161

第6章 大数据的分析处理162

6.1大数据的分析处理概述162

6.2 Hive163

6.2.1系统架构及组件163

6.2.2 Hive数据结构164

6.2.3数据存储格式166

6.2.4 Hive支持的数据类型168

6.2.5使用HiveQL访问数据170

6.2.6自定义函数扩展功能175

6.3 Pig177

6.3.1 Pig架构178

6.3.2 Pig Latin语言179

6.3.3使用Pig处理数据184

6.4 Hive与Pig的对比187

本章参考文献188

第7章 Hadoop环境下的数据整合189

7.1 Hadoop计算环境下的数据整合问题189

7.2数据库整合工具Sqoop191

7.2.1使用Sqoop导入数据192

7.2.2使用Sqoop导出数据195

7.2.3 Sqoop与Hive结合196

7.2.4 Sqoop对大对象数据的处理197

7.3 Hadoop平台内部数据整合工具197

HCatalog197

7.3.1 HCatalog的需求与实现198

7.3.2 MapReduce使用HCatalog管理数据202

7.3.3 Pig使用HCatalog管理数据204

7.3.4 HCatalog的命令行与通知功能205

本章参考文献207

第8章 Hadoop集群的管理与维护208

8.1云计算平台的管理体系208

8.2 ZooKeeper集群中的配置管理与协调者211

8.2.1集群环境下的配置管理211

8.2.2 ZooKeeper架构212

8.2.3 ZooKeeper的数据模型213

8.3 Hadoop集群监控的基础组件214

8.3.1 Nagios214

8.3.2 Ganglia217

8.3.3 JMX219

8.4 Ambari——Hadoop集群部署与监控集成工具220

8.5基于Cacti的Hadoop集群服务器监控223

8.6 Chukwa集群日志收集及分析225

8.7基于Kerberos的Hadoop安全管理227

8.8 Hadoop集群管理工具分析230

本章参考文献231

第9章 基于MapReduce的数据挖掘232

9.1数据挖掘及其分布式并行化232

9.2基于MapReduce的数据挖掘与Mahout237

9.3经典数据挖掘算法的MapReduce实例242

9.3.1矩阵乘法243

9.3.2相似度计算246

9.4基于云计算的数据挖掘实践及面临的挑战252

本章参考文献256

第10章 面向未来的大数据处理257

10.1下一代计算框架YARN257

10.2大数据的实时交互式分析260

10.2.1 Google Dremel261

10.2.2 Cloudera Impala265

10.3大数据的图计算266

10.3.1 BSP模型267

10.3.2 Google Pregel计算框架268

10.3.3 Apache Hama开源项目271

本章参考文献275

附录 基于Cygwin的Hadoop环境搭建276

附录A安装和配置Cygwin276

附录B安装和配置Hadoop281

附录C运行示例程序验证Hadoop安装285

附录D安装和配置Eclipse下的Hadoop开发环境286

热门推荐