图书介绍
Spark机器学习进阶实战PDF|Epub|txt|kindle电子书版本下载
- 马海平,于俊,吕昕,向海著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111608103
- 出版时间:2018
- 标注页数:210页
- 文件大小:34MB
- 文件页数:228页
- 主题词:数据处理软件
PDF下载
下载说明
Spark机器学习进阶实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一篇 基础篇2
第1章 机器学习概述2
1.1机器学习概述2
1.1.1理解大数据2
1.1.2机器学习发展过程4
1.1.3大数据生态环境5
1.2机器学习算法6
1.2.1传统机器学习6
1.2.2深度学习8
1.2.3其他机器学习8
1.3机器学习分类9
1.3.1监督学习9
1.3.2无监督学习10
1.3.3半监督学习10
1.3.4强化学习10
1.4机器学习综合应用11
1.4.1异常检测12
1.4.2用户画像12
1.4.3广告点击率预估12
1.4.4企业征信大数据应用12
1.4.5智慧交通大数据应用13
1.5本章小结13
第2章 数据分析流程和方法14
2.1数据分析概述14
2.2数据分析流程15
2.2.1业务调研16
2.2.2明确目标16
2.2.3数据准备16
2.2.4特征处理17
2.2.5模型训练与评估21
2.2.6输出结论23
2.3数据分析的基本方法24
2.3.1汇总统计24
2.3.2相关性分析25
2.3.3分层抽样26
2.3.4假设检验26
2.4简单的数据分析实践27
2.4.1环境准备27
2.4.2准备数据28
2.4.3数据分析29
2.5本章小结30
第二篇 算法篇32
第3章 构建分类模型32
3.1分类模型概述32
3.2分类模型算法34
3.2.1逻辑回归34
3.2.2朴素贝叶斯模型36
3.2.3 SVM模型37
3.2.4决策树模型39
3.2.5 K-近邻40
3.3分类效果评估40
3.3.1正确率41
3.3.2准确率、召回率和F1值41
3.3.3 ROC和AUC42
3.4 App数据的分类实现44
3.4.1选择分类器44
3.4.2准备数据45
3.4.3训练模型46
3.4.4模型性能评估48
3.4.5模型参数调优49
3.5其他分类模型50
3.5.1随机森林50
3.5.2梯度提升树51
3.5.3因式分解机模型51
3.6本章小结52
第4章 构建聚类模型53
4.1聚类概述53
4.2聚类模型54
4.2.1 KMeans聚类54
4.2.2 DBSCAN聚类55
4.2.3主题聚类56
4.3聚类效果评价58
4.3.1集中平方误差和58
4.3.2 Purity评价法59
4.4使用KMeans对鸢尾花卉数据集聚类59
4.4.1准备数据59
4.4.2特征处理60
4.4.3聚类分析60
4.4.4模型性能评估62
4.5使用DBSCAN对GPS数据进行聚类62
4.5.1准备数据63
4.5.2特征处理64
4.5.3聚类分析64
4.5.4模型参数调优65
4.6其他模型66
4.6.1层次聚类66
4.6.2基于图的聚类67
4.6.3混合聚类模型67
4.7本章小结68
第5章 构建回归模型69
5.1常用回归模型69
5.1.1线性回归模型70
5.1.2回归树模型70
5.1.3其他回归模型71
5.2评估指标73
5.3回归模型优化74
5.3.1特征选择74
5.3.2特征变换74
5.4构建UCI裙子销售数据回归模型75
5.4.1准备数据75
5.4.2训练模型78
5.4.3评估效果79
5.4.4模型优化79
5.5其他回归模型案例80
5.5.1 GDP影响因素分析81
5.5.2大气污染分析81
5.5.3大数据比赛中的回归问题81
5.6本章小结82
第6章 构建关联规则模型83
6.1关联规则概述83
6.2常用关联规则算法84
6.2.1 Apriori算法84
6.2.2 FP-Growth算法85
6.3效果评估和优化86
6.3.1效果评估86
6.3.2效果优化87
6.4使用FP-Growth对豆瓣评分数据进行挖掘88
6.4.1准备数据89
6.4.2训练模型89
6.4.3观察规则91
6.4.4参数调优91
6.4.5使用算法92
6.5其他应用场景94
6.6本章小结96
第7章 协同过滤97
7.1协同过滤概述97
7.2常用的协同过滤算法98
7.2.1基于用户的协同过滤99
7.2.2基于物品的协同过滤100
7.2.3矩阵分解技术101
7.2.4推荐算法的选择102
7.3评估标准103
7.3.1准确率103
7.3.2覆盖率103
7.3.3多样性104
7.3.4其他指标104
7.4使用电影评分数据进行协同过滤实践104
7.4.1准备数据105
7.4.2训练模型106
7.4.3测试模型109
7.4.4使用ALS结果111
7.5本章小结112
第8章 数据降维113
8.1降维概述113
8.2常用降维算法114
8.2.1主成分分析114
8.2.2奇异值分解116
8.2.3广义降维117
8.2.4文本降维118
8.3降维评估标准121
8.4使用PCA对Digits数据集进行降维122
8.4.1准备数据122
8.4.2训练模型123
8.4.3分析降维结果124
8.5其他降维方法124
8.5.1线性判别分析124
8.5.2局部线性嵌入125
8.5.3拉普拉斯特征映射125
8.6本章小结126
第三篇 综合应用篇128
第9章 异常检测128
9.1异常概述128
9.1.1异常的产生129
9.1.2异常检测的分类129
9.2异常检测方法130
9.2.1基于模型的方法130
9.2.2基于邻近度的方法131
9.2.3基于密度的方法132
9.2.4基于聚类的方法133
9.3异常检测系统133
9.3.1异常检测过程133
9.3.2异常检测步骤134
9.3.3特征选取和设计135
9.4应用场景137
9.4.1入侵检测137
9.4.2欺诈检测138
9.4.3社交假新闻140
9.4.4医疗和公共卫生141
9.5新闻App数据异常检测实践141
9.5.1准备数据141
9.5.2数据预处理142
9.5.3异常检测142
9.6本章小结144
第10章 用户画像145
10.1用户画像概述145
10.1.1什么是用户画像145
10.1.2为什么需要用户画像146
10.2用户画像流程147
10.2.1整体流程147
10.2.2标签体系148
10.3构建用户画像150
10.3.1人口属性画像150
10.3.2兴趣画像152
10.3.3地理位置画像155
10.4用户画像评估和使用155
10.4.1效果评估156
10.4.2用户画像使用157
10.5新闻App用户画像实践158
10.5.1事实标签构建158
10.5.2兴趣标签构建159
10.6本章小结161
第11章 广告点击率预估162
11.1点击率预估概述162
11.1.1互联网广告的发展163
11.1.2互联网广告交易架构163
11.1.3点击率预估应用165
11.2点击率预估技术166
11.2.1数据收集166
11.2.2特征构建167
11.2.3特征处理和选择169
11.2.4模型训练170
11.3模型效果评估172
11.3.1模型指标评估172
11.3.2线上流量评估172
11.4新闻App点击率预估实践173
11.4.1特征提取173
11.4.2模型训练174
11.4.3广告CTR模型扩展175
11.5本章小结177
第12章 企业征信大数据应用178
12.1征信概述178
12.1.1征信组成179
12.1.2传统征信180
12.1.3大数据征信180
12.2企业征信大数据平台181
12.2.1大数据征信平台架构181
12.2.2企业征信服务流程182
12.2.3企业征信数据源182
12.2.4企业征信画像库183
12.2.5征信评分模型185
12.3企业征信大数据应用186
12.3.1企业信用报告186
12.3.2企业风控管理187
12.4企业法人资产建模实践188
12.4.1建模流程188
12.4.2数据准备190
12.4.3模型工程实现191
12.5本章小结194
第13章 智慧交通大数据应用195
13.1智慧交通大数据概述195
13.2人群生活模式划分196
13.2.1数据介绍196
13.2.2数据预处理196
13.2.3特征构建197
13.2.4生活模式挖掘200
13.2.5划分结果分析202
13.3道路拥堵模式聚类204
13.3.1数据介绍204
13.3.2数据预处理205
13.3.3特征构建206
13.3.4拥堵模式挖掘207
13.4本章小结210