图书介绍

大数据挖掘PDF|Epub|txt|kindle电子书版本下载

大数据挖掘
  • 赵志升主编;梁俊花,李静,刘洋副主编 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302511793
  • 出版时间:2019
  • 标注页数:376页
  • 文件大小:71MB
  • 文件页数:376页
  • 主题词:数据采集-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据挖掘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1篇 大数据分析基础3

第1章 大数据概述3

1.1大数据的业务应用场景3

1.1.1大数据的产生及特征3

1.1.2大数据现状及趋势4

1.1.3大数据时代面临的技术问题7

1.2云计算与大数据挖掘9

1.2.1云计算的定义与特点9

1.2.2云计算与大数据10

1.2.3大数据挖掘11

1.3大数据挖掘过程概述13

1.3.1挖掘目标的定义与数据理解14

1.3.2数据准备与数据理解14

1.3.3过程模型的建立16

1.3.4过程模型的评估17

1.3.5模型的部署与应用17

小结17

习题18

第2章 大数据相关技术19

2.1大数据获取技术19

2.1.1分布式数据采集系统Flume19

2.1.2分布式消息队列Kafka22

2.1.3 Sqoop数据转移工具24

2.1.4网络爬虫技术27

2.1.5数据预处理工具Kettle31

2.2大数据存储和处理技术31

2.2.1数据处理架构技术演进31

2.2.2 Hadoop分布式存储和计算平台32

2.2.3流式数据计算引擎Storm34

2.2.4 Spark分布式内存计算引擎35

2.2.5大数据部署方案简介38

2.3大数据查询和分析技术38

2.3.1 SQL-on-Hadoop技术38

2.3.2 OLAP分析引擎Kylin40

2.3.3大数据分析技术Mahout41

2.3.4大数据分析技术Spark MLlib42

2.3.5其他常用分析语言比较43

2.4大数据可视化技术46

2.5主流大数据分析平台简介49

小结50

习题50

第3章 数据预处理51

3.1数据类型、数据特征与数据质量51

3.1.1数据类型51

3.1.2数据集与数据特征52

3.1.3探索数据结构53

3.1.4数据质量相关概念与数据质量分析54

3.2数据采集与抽样55

3.2.1数据采集概述55

3.2.2数据采集方法与应用特性55

3.2.3数据抽样概述58

3.2.4数据抽样方法与应用特性59

3.3数据预处理过程62

3.3.1数据预处理的作用与任务62

3.3.2数据清洗62

3.3.3数据集成65

3.3.4数据变换67

3.3.5数据规约71

3.4 Hadoop中的数据预处理应用74

3.4.1使用MapReduce进行数据预处理74

3.4.2使用Kettle和Python进行数据预处理76

小结79

习题80

第4章 R语言工具的使用82

4.1 R语言概述82

4.1.1下载、安装和使用82

4.1.2 R包的使用84

4.2 R语言的基本操作85

4.2.1数据的基本操作85

4.2.2 R常用函数93

4.3 R语言可视化绘图97

4.3.1 R绘图参数设置98

4.3.2常用图形的绘制99

4.4 R语言数据分析104

4.4.1数据处理基础函数104

4.4.2多元统计分析109

4.5 RHadoop安装与使用117

4.5.1环境准备118

4.5.2 RHadoop安装118

4.5.3 RHadoop程序应用120

小结126

习题126

第2篇 大数据挖掘技术131

第5章 线性分类方法131

5.1线性分类方法综述与评价准则131

5.1.1线性分类方法综述131

5.1.2分类方法评价准则132

5.2多元线性回归分析132

5.2.1回归分析原理132

5.2.2多元线性回归分析R案例133

5.3逻辑回归分析139

5.3.1逻辑回归模型139

5.3.2逻辑回归分析R案例139

5.4线性判别分析142

5.4.1线性判别分析原理142

5.4.2线性判别分析R案例143

5.5应用回归树和模型树进行数值预测实例148

小结153

习题154

第6章 分类方法155

6.1分类方法概要155

6.1.1分类的基本原理155

6.1.2主要分类方法156

6.1.3分类器性能评价标准157

6.2 K-近邻分类器158

6.2.1 K-近邻分类算法158

6.2.2 K-近邻算法实例158

6.2.3 K-近邻的特点161

6.3贝叶斯分类161

6.3.1贝叶斯概述161

6.3.2朴素贝叶斯分类原理163

6.3.3朴素贝叶斯分类实例164

6.3.4朴素贝叶斯的特点166

6.4神经网络与深度学习166

6.4.1神经网络基本原理166

6.4.2深度学习167

6.4.3分类实例168

6.4.4人工神经网络及深度学习的特点173

6.5支持向量机174

6.5.1支持向量机的基本思想174

6.5.2支持向量机理论基础174

6.5.3支持向量机实例175

6.5.4支持向量机的特点180

小结181

习题181

第7章 聚类分析183

7.1聚类分析方法概述183

7.1.1聚类的基本概念183

7.1.2类的度量方法186

7.1.3聚类过程与应用187

7.2 K-Means聚类189

7.2.1 K-Means聚类的原理及步骤189

7.2.2 K-Means特点与适用场景190

7.2.3 K-Means聚类的算法实例190

7.3层次聚类195

7.3.1层次聚类的原理及步骤195

7.3.2层次聚类算法及特点195

7.3.3层次聚类的算法实例197

7.4神经网络聚类199

7.4.1 SOM算法的原理及步骤200

7.4.2 SOM算法实例205

7.5模糊FCM算法207

7.5.1 FCM算法原理和步骤207

7.5.2 FCM应用实例208

7.6并行聚类分析215

7.6.1并行聚类的分类215

7.6.2并行聚类算法流程218

7.6.3基于MapReduce聚类分析218

7.7其他聚类分析算法219

小结223

习题223

第8章 关联规则225

8.1关联规则概述225

8.1.1关联规则的基本概念225

8.1.2关联规则的发现步骤226

8.1.3关联规则挖掘算法分类228

8.1.4应用场景及特点229

8.1.5关联规则质量评价230

8.2 Apriori算法231

8.2.1 Apriori算法的基本原理231

8.2.2 Apriori算法步骤231

8.2.3 Apriori算法的频繁项集产生实例232

8.2.4 Apriori算法的优缺点241

8.3 FP-Growth算法242

8.3.1 FP-Growth算法的基本思想242

8.3.2 FP-tree表示法242

8.3.3 FP-Growth算法的应用实例243

8.3.4 FP-Growth算法的优缺点247

8.4关联规则的后处理与扩展247

8.4.1基于RHadoop的关联规则挖掘247

8.4.2基于云计算的关联规则挖掘算法247

8.4.3空间数据挖掘248

小结249

习题250

第9章 预测方法与离群点诊断252

9.1预测方法概要252

9.1.1预测的概念及分类253

9.1.2预测性能评价254

9.1.3常用的预测方法255

9.2灰色预测256

9.2.1灰色预测原理及应用场景257

9.2.2灰色预测实例260

9.3马尔科夫预测262

9.3.1马尔科夫预测原理262

9.3.2马尔科夫预测实例265

9.4离群点诊断267

9.4.1离群点的定义、来源及分类267

9.4.2各种离群点诊断技术268

9.4.3基于聚类的离群点技术271

9.4.4其他的离群点检测方法273

小结276

习题276

第10章 时间序列分析279

10.1时间序列的基本概念279

10.2时间序列的组成因素及分类280

10.3时间序列分析方法282

10.3.1平稳时间序列分析方法282

10.3.2季节指数预测法283

10.4时间序列模型283

10.4.1 ARMA模型283

10.4.2 ARIMA模型284

10.4.3 ARCH模型284

10.4.4 GARCH模型285

10.5偏差检测286

小结293

习题294

第11章 大数据挖掘可视化296

11.1大数据挖掘可视化概述296

11.1.1常规数据可视化方法297

11.1.2大数据可视化趋势与应用298

11.2数据可视化技术300

11.3可视化工具302

11.3.1常用可视化工具简介302

11.3.2大数据可视化面临的挑战306

小结307

习题308

第3篇 大数据挖掘案例311

第12章 大数据挖掘应用案例311

12.1社交网络分析311

12.1.1社交网络分析应用概述311

12.1.2社交网络应用案例312

12.2推荐系统313

12.2.1推荐系统概述313

12.2.2推荐系统应用案例314

12.3零售行业大数据解决方案315

12.3.1大数据在零售行业的创新性应用315

12.3.2零售行业大数据应用案例316

12.4金融:大数据理财时代317

12.4.1大数据时代下金融业的机遇和面临的挑战317

12.4.2金融行业大数据应用案例317

12.4.3信用卡反欺诈预测模型构建案例319

12.5临床医学大数据分析333

12.5.1医疗行业大数据应用333

12.5.2医疗行业大数据应用案例334

12.5.3威斯康星乳腺癌数据分析实例335

12.6交通行业大数据应用347

12.6.1大数据在智能交通行业的挑战348

12.6.2交通行业大数据应用案例348

12.7生产制造业大数据应用349

12.7.1大数据对生产制造业的影响及前景349

12.7.2生产制造业大数据应用案例350

12.8信息通信大数据解决方案351

12.8.1信息通信大数据应用351

12.8.2信息通信大数据应用案例351

12.9精准营销的大数据企业管理352

12.9.1大数据精准营销352

12.9.2精准营销大数据应用案例353

12.9.3基于大数据的中文舆情分析案例354

12.10教育领域大数据应用案例356

12.10.1教育领域大数据应用356

12.10.2教育大数据应用案例356

12.11互联网大数据应用358

12.11.1大数据使生活更智能358

12.11.2互联网大数据应用案例358

12.12其他行业大数据应用360

12.12.1能源业大数据应用360

12.12.2公共事业管理大数据应用360

小结361

习题361

参考文献362

热门推荐