图书介绍

机器学习 算法背后的理论与优化PDF|Epub|txt|kindle电子书版本下载

机器学习 算法背后的理论与优化
  • 史春奇,卜晶祎,施智平著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302517184
  • 出版时间:2019
  • 标注页数:185页
  • 文件大小:61MB
  • 文件页数:204页
  • 主题词:机器学习-算法

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

机器学习 算法背后的理论与优化PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 线性回归与逻辑回归1

1.1 线性回归1

1.1.1 函数关系与统计关系1

1.1.2 统计与机器学习2

1.2 最小二乘法与高斯-马尔可夫定理5

1.2.1 最小二乘法5

1.2.2 高斯-马尔可夫定理6

1.3 从线性回归到逻辑回归8

1.4 最大似然估计求解逻辑回归9

1.5 最小二乘与最大似然11

1.5.1 逻辑回归与伯努利分布11

1.5.2 线性回归与正态分布12

1.6 小结13

参考文献13

第2章 广义线性模型15

2.1 广义线性模型概述15

2.1.1 广义线性模型的定义15

2.1.2 链接函数与指数分布簇17

2.2 广义线性模型求解20

2.3 最大似然估计Ⅰ:Fisher信息21

2.4 最大似然估计Ⅱ:KL散度与Bregman散度23

2.4.1 KL散度23

2.4.2 Bregman散度25

2.5 小结26

参考文献26

第3章 经验风险最小28

3.1 经验风险与泛化误差概述28

3.1.1 经验风险30

3.1.2 泛化误差30

3.1.3 欠拟合和过拟合34

3.1.4 VC维37

3.2 经验风险最小的算法40

3.3 分类边界42

3.3.1 分类算法的损失函数42

3.3.2 分类算法的边界45

3.4 小结48

参考文献48

第4章 结构风险最小49

4.1 经验风险最小和过拟合49

4.2 结构风险最小和正则化51

4.2.1 从空间角度理解SRM52

4.2.2 从贝叶斯观点理解SRM54

4.3 回归的正则化55

4.3.1 L2正则化和岭回归56

4.3.2 L1正则化和Lasso回归57

4.3.3 L1、L2组合正则化和ElasticNet回归58

4.4 分类的正则化60

4.4.1 支持向量机和L2正则化60

4.4.2 XGBoost和树正则化62

4.4.3 神经网络和DropOut正则化65

4.4.4 正则化的优缺点66

4.5 小结67

参考文献67

第5章 贝叶斯统计与熵68

5.1 统计学习的基础:参数估计68

5.1.1 矩估计68

5.1.2 最大似然估计69

5.1.3 最小二乘法71

5.2 概率分布与三大统计思维72

5.2.1 频率派和正态分布72

5.2.2 经验派和正态分布75

5.2.3 贝叶斯派和正态分布76

5.2.4 贝叶斯统计和熵的关系79

5.3 信息熵的理解79

5.3.1 信息熵简史79

5.3.2 信息熵定义80

5.3.3 期望编码长度解释81

5.3.4 不确定性公理化解释81

5.3.5 基于熵的度量84

5.4 最大熵原理86

5.4.1 最大熵的直观理解86

5.4.2 最大熵解释自然指数分布簇87

5.4.3 最大熵解释最大似然估计89

5.5 小结90

参考文献91

第6章 基于熵的Softmax92

6.1 二项分布和多项分布92

6.2 Logistic回归和Softmax回归93

6.2.1 广义线性模型的解释93

6.2.2 Softmax回归94

6.2.3 最大熵原理与Softmax回归的等价性96

6.3 最大熵条件下的Log-Linear101

6.4 多分类界面103

6.4.1 感知机和多分类感知机104

6.4.2 多分类感知机和结构感知机105

6.5 概率图模型里面的Log-Linear106

6.6 深度学习里面的Softmax层108

6.7 小结109

参考文献109

第7章 拉格朗日乘子法111

7.1 凸共轭111

7.1.1 凸共轭的定义111

7.1.2 凸共轭定理113

7.2 拉格朗日对偶114

7.2.1 拉格朗日对偶概述115

7.2.2 Salter条件117

7.2.3 KKT条件118

7.3 Fenchel对偶120

7.4 增广拉格朗日乘子法123

7.4.1 近端123

7.4.2 增广拉格朗日乘子法和对偶上升算法126

7.5 交替方向乘子法129

7.5.1 对偶分解130

7.5.2 交替方向乘子法概述131

7.6 小结131

参考文献132

第8章 随机梯度下降法134

8.1 随机梯度下降法概述134

8.1.1 机器学习场景134

8.1.2 随机梯度下降法的定义135

8.1.3 随机梯度下降法收敛性分析136

8.1.4 收敛性证明139

8.2 随机梯度下降法进阶Ⅰ:方差缩减140

8.2.1 方差缩减的效果141

8.2.2 方差缩减的实现143

8.3 随机梯度下降法进阶Ⅱ:加速与适应145

8.3.1 加速146

8.3.2 适应148

8.3.3 加速×适应151

8.4 随机梯度下降法的并行实现156

8.5 小结160

参考文献161

第9章 常见的最优化方法163

9.1 最速下降算法163

9.1.1 l2范数与梯度下降法164

9.1.2 l1范数与坐标下降算法165

9.1.3 二次范数与牛顿法166

9.2 步长的设定168

9.2.1 Armijo-Goldstein准则169

9.2.2 Wolfe-Powell准则170

9.2.3 回溯线搜索171

9.3 收敛性分析171

9.3.1 收敛速率172

9.3.2 对目标函数的一些假设173

9.4 一阶算法:梯度下降法177

9.5 二阶算法:牛顿法及其衍生算法178

9.5.1 牛顿法与梯度下降法的对比179

9.5.2 拟牛顿法180

9.5.3 从二次范数的角度看牛顿法182

9.6 小结183

参考文献185

热门推荐