图书介绍
深入理解机器学习 从原理到算法PDF|Epub|txt|kindle电子书版本下载
- (以)沙伊·沙莱夫-施瓦茨(SHAISHALEVSHWARTZ),(加)沙伊·本-戴维(SHAIBENDAVID)著;张文生译 著
- 出版社: 北京:机械工业出版社
- ISBN:7111543023
- 出版时间:2016
- 标注页数:312页
- 文件大小:98MB
- 文件页数:326页
- 主题词:
PDF下载
下载说明
深入理解机器学习 从原理到算法PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 引论1
1.1 什么是学习1
1.2 什么时候需要机器学习2
1.3 学习的种类3
1.4 与其他领域的关系4
1.5 如何阅读本书4
1.6 符号6
第一部分 理论基础10
第2章 简易入门10
2.1 一般模型——统计学习理论框架10
2.2 经验风险最小化11
2.3 考虑归纳偏置的经验风险最小化12
2.4 练习15
第3章 一般学习模型17
3.1 PAC学习理论17
3.2 更常见的学习模型18
3.2.1 放宽可实现假设——不可知PAC学习18
3.2.2 学习问题建模19
3.3 小结21
3.4 文献评注21
3.5 练习21
第4章 学习过程的一致收敛性24
4.1 一致收敛是可学习的充分条件24
4.2 有限类是不可知PAC可学习的25
4.3 小结26
4.4 文献评注27
4.5 练习27
第5章 偏差与复杂性权衡28
5.1 “没有免费的午餐”定理28
5.2 误差分解31
5.3 小结31
5.4 文献评注32
5.5 练习32
第6章 VC维33
6.1 无限的类也可学习33
6.2 VC维概述34
6.3 实例35
6.3.1 阈值函数35
6.3.2 区间35
6.3.3 平行于轴的矩形35
6.3.4 有限类36
6.3.5 VC维与参数个数36
6.4 PAC学习的基本定理36
6.5 定理6.7的证明37
6.5.1 Sauer引理及生长函数37
6.5.2 有小的有效规模的类的一致收敛性39
6.6 小结40
6.7 文献评注41
6.8 练习41
第7章 不一致可学习44
7.1 不一致可学习概述44
7.2 结构风险最小化46
7.3 最小描述长度和奥卡姆剃刀48
7.4 可学习的其他概念——一致收敛性50
7.5 探讨不同的可学习概念51
7.6 小结53
7.7 文献评注53
7.8 练习54
第8章 学习的运行时间56
8.1 机器学习的计算复杂度56
8.2 ERM规则的实现58
8.2.1 有限集58
8.2.2 轴对称矩形59
8.2.3 布尔合取式59
8.2.4 学习三项析取范式60
8.3 高效学习,而不通过合适的ERM60
8.4 学习的难度61
8.5 小结62
8.6 文献评注62
8.7 练习62
第二部分 从理论到算法66
第9章 线性预测66
9.1 半空间66
9.1.1 半空间类线性规划67
9.1.2 半空间感知器68
9.1.3 半空间的VC维69
9.2 线性回归70
9.2.1 最小平方70
9.2.2 多项式线性回归71
9.3 逻辑斯谛回归72
9.4 小结73
9.5 文献评注73
9.6 练习73
第10章 boosting75
10.1 弱可学习75
10.2 AdaBoost78
10.3 基础假设类的线性组合80
10.4 AdaBoost用于人脸识别82
10.5 小结83
10.6 文献评注83
10.7 练习84
第11章 模型选择与验证85
11.1 用结构风险最小化进行模型选择85
11.2 验证法86
11.2.1 留出的样本集86
11.2.2 模型选择的验证法87
11.2.3 模型选择曲线88
11.2.4 k折交叉验证88
11.2.5 训练-验证-测试拆分89
11.3 如果学习失败了应该做什么89
11.4 小结92
11.5 练习92
第12章 凸学习问题93
12.1 凸性、利普希茨性和光滑性93
12.1.1 凸性93
12.1.2 利普希茨性96
12.1.3 光滑性97
12.2 凸学习问题概述98
12.2.1 凸学习问题的可学习性99
12.2.2 凸利普希茨/光滑有界学习问题100
12.3 替代损失函数101
12.4 小结102
12.5 文献评注102
12.6 练习102
第13章 正则化和稳定性104
13.1 正则损失最小化104
13.2 稳定规则不会过拟合105
13.3 Tikhonov正则化作为稳定剂106
13.3.1 利普希茨损失108
13.3.2 光滑和非负损失108
13.4 控制适合与稳定性的权衡109
13.5 小结111
13.6 文献评注111
13.7 练习111
第14章 随机梯度下降114
14.1 梯度下降法114
14.2 次梯度116
14.2.1 计算次梯度117
14.2.2 利普希茨函数的次梯度118
14.2.3 次梯度下降118
14.3 随机梯度下降118
14.4 SGD的变型120
14.4.1 增加一个投影步120
14.4.2 变步长121
14.4.3 其他平均技巧121
14.4.4 强凸函数121
14.5 用SGD进行学习123
14.5.1 SGD求解风险极小化123
14.5.2 SGD求解凸光滑学习问题的分析124
14.5.3 SGD求解正则化损失极小化125
14.6 小结125
14.7 文献评注125
14.8 练习126
第15章 支持向量机127
15.1 间隔与硬SVM127
15.1.1 齐次情况129
15.1.2 硬SVM的样本复杂度129
15.2 软SVM与范数正则化130
15.2.1 软SVM的样本复杂度131
15.2.2 间隔、基于范数的界与维度131
15.2.3 斜坡损失132
15.3 最优化条件与“支持向量”133
15.4 对偶133
15.5 用随机梯度下降法实现软SVM134
15.6 小结135
15.7 文献评注135
15.8 练习135
第16章 核方法136
16.1 特征空间映射136
16.2 核技巧137
16.2.1 核作为表达先验的一种形式140
16.2.2 核函数的特征141
16.3 软SVM应用核方法141
16.4 小结142
16.5 文献评注143
16.6 练习143
第17章 多分类、排序与复杂预测问题145
17.1 一对多和一对一145
17.2 线性多分类预测147
17.2.1 如何构建Ψ147
17.2.2 对损失敏感的分类148
17.2.3 经验风险最小化149
17.2.4 泛化合页损失149
17.2.5 多分类SVM和SGD150
17.3 结构化输出预测151
17.4 排序153
17.5 二分排序以及多变量性能测量157
17.6 小结160
17.7 文献评注160
17.8 练习161
第18章 决策树162
18.1 采样复杂度162
18.2 决策树算法163
18.2.1 增益测量的实现方式164
18.2.2 剪枝165
18.2.3 实值特征基于阈值的拆分规则165
18.3 随机森林165
18.4 小结166
18.5 文献评注166
18.6 练习166
第19章 最近邻167
19.1 k近邻法167
19.2 分析168
19.2.1 1-NN准则的泛化界168
19.2.2 “维数灾难”170
19.3 效率实施171
19.4 小结171
19.5 文献评注171
19.6 练习171
第20章 神经元网络174
20.1 前馈神经网络174
20.2 神经网络学习175
20.3 神经网络的表达力176
20.4 神经网络样本复杂度178
20.5 学习神经网络的运行时179
20.6 SGD和反向传播179
20.7 小结182
20.8 文献评注183
20.9 练习183
第三部分 其他学习模型186
第21章 在线学习186
21.1 可实现情况下的在线分类186
21.2 不可实现情况下的在线识别191
21.3 在线凸优化195
21.4 在线感知器算法197
21.5 小结199
21.6 文献评注199
21.7 练习199
第22章 聚类201
22.1 基于链接的聚类算法203
22.2 k均值算法和其他代价最小聚类203
22.3 谱聚类206
22.3.1 图割206
22.3.2 图拉普拉斯与松弛图割算法206
22.3.3 非归一化的谱聚类207
22.4 信息瓶颈208
22.5 聚类的进阶观点208
22.6 小结209
22.7 文献评注210
22.8 练习210
第23章 维度约简212
23.1 主成分分析212
23.1.1 当d>>m时一种更加有效的求解方法214
23.1.2 应用与说明214
23.2 随机投影216
23.3 压缩感知217
23.4 PCA还是压缩感知223
23.5 小结223
23.6 文献评注223
23.7 练习223
第24章 生成模型226
24.1 极大似然估计226
24.1.1 连续随机变量的极大似然估计227
24.1.2 极大似然与经验风险最小化228
24.1.3 泛化分析228
24.2 朴素贝叶斯229
24.3 线性判别分析230
24.4 隐变量与EM算法230
24.4.1 EM是交替最大化算法232
24.4.2 混合高斯模型参数估计的EM算法233
24.5 贝叶斯推理233
24.6 小结235
24.7 文献评注235
24.8 练习235
第25章 特征选择与特征生成237
25.1 特征选择237
25.1.1 滤波器238
25.1.2 贪婪选择方法239
25.1.3 稀疏诱导范数241
25.2 特征操作和归一化242
25.3 特征学习244
25.4 小结246
25.5 文献评注246
25.6 练习246
第四部分 高级理论250
第26章 拉德马赫复杂度250
26.1 拉德马赫复杂度概述250
26.2 线性类的拉德马赫复杂度255
26.3 SVM的泛化误差界256
26.4 低e?范数预测器的泛化误差界258
26.5 文献评注259
第27章 覆盖数260
27.1 覆盖260
27.2 通过链式反应从覆盖到拉德马赫复杂度261
27.3 文献评注262
第28章 学习理论基本定理的证明263
28.1 不可知情况的上界263
28.2 不可知情况的下界264
28.2.1 证明m(ε,δ)≥0.5log(1/(4δ))/ε2264
28.2.2 证明m(ε,1/8)≥8d/ε2265
28.3 可实现情况的上界267
第29章 多分类可学习性271
29.1 纳塔拉詹维271
29.2 多分类基本定理271
29.3 计算纳塔拉詹维272
29.3.1 基于类的一对多272
29.3.2 一般的多分类到二分类约简273
29.3.3 线性多分类预测器273
29.4 好的与坏的ERM274
29.5 文献评注275
29.6 练习276
第30章 压缩界277
30.1 压缩界概述277
30.2 例子278
30.2.1 平行于轴的矩形278
30.2.2 半空间279
30.2.3 可分多项式279
30.2.4 间隔可分的情况279
30.3 文献评注280
第31章 PAC-贝叶斯281
31.1 PAC-贝叶斯界281
31.2 文献评注282
31.3 练习282
附录A 技术性引理284
附录B 测度集中度287
附录C 线性代数294
参考文献297
索引305