《博文视点AI系列 深度学习核心技术与实践》PDF下载

  • 购买积分:16 如何计算积分?
  • 作  者:猿辅导研究团队著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2018
  • ISBN:9787121329050
  • 页数:508 页
图书介绍:首先从模型、隐层、训练优化等方面讲解基本的深度学习理论;然后讲解目前最热门的深度学习开源工具,包括Torch、Theano、Caffe、TensorFlow等;然后从视觉、语音、NLP三面应用进一步解释深度学习;最后是一些比较高级的深度学习话题,比如多任务学习,多模学习、迁移学习、模型压缩、RCNN、FCNN等。

第1部分 深度学习基础篇 1

1概述 2

1.1人工智能 3

1.1.1人工智能的分类 3

1.1.2人工智能发展史 3

1.2机器学习 7

1.2.1机器学习的由来 7

1.2.2机器学习发展史 9

1.2.3机器学习方法分类 10

1.2.4机器学习中的基本概念 11

1.3神经网络 12

1.3.1神经网络发展史 13

参考文献 16

2神经网络 17

2.1在神经科学中对生物神经元的研究 17

2.1.1神经元激活机制 17

2.1.2神经元的特点 18

2.2神经元模型 19

2.2.1线性神经元 19

2.2.2线性阈值神经元 19

2.2.3 Sigmoid神经元 21

2.2.4 Tanh神经元 22

2.2.5 ReLU 22

2.2.6 Maxout 24

2.2.7 Softmax 24

2.2.8小结 25

2.3感知机 27

2.3.1感知机的提出 27

2.3.2感知机的困境 28

2.4 DNN 29

2.4.1输入层、输出层及隐层 30

2.4.2目标函数的选取 30

2.4.3前向传播 32

2.4.4后向传播 33

2.4.5参数更新 35

2.4.6神经网络的训练步骤 36

参考文献 36

3初始化模型 38

3.1受限玻尔兹曼机 38

3.1.1能量模型 39

3.1.2带隐藏单元的能量模型 40

3.1.3受限玻尔兹曼机基本原理 41

3.1.4二值RBM 43

3.1.5对比散度 45

3.2自动编码器 47

3.2.1稀疏自动编码器 48

3.2.2降噪自动编码器 48

3.2.3栈式自动编码器 49

3.3深度信念网络 50

参考文献 52

4卷积神经网络 53

4.1卷积算子 53

4.2卷积的特征 56

4.3卷积网络典型结构 59

4.3.1基本网络结构 59

4.3.2构成卷积神经网络的层 59

4.3.3网络结构模式 60

4.4卷积网络的层 61

4.4.1卷积层 61

4.4.2池化层 66

参考文献 67

5循环神经网络 68

5.1循环神经网络简介 68

5.2 RNN、LSTM和GRU 69

5.3双向RNN 75

5.4 RNN语言模型的简单实现 76

参考文献 79

6深度学习优化算法 80

6.1 SGD 80

6.2 Momentum 81

6.3 NAG 82

6.4 Adagrad 84

6.5 RMSProp 85

6.6 Adadelta 86

6.7 Adam 87

6.8 AdaMax 89

6.9 Nadam 89

6.10关于优化算法的使用 91

参考文献 91

7深度学习训练技巧 93

7.1数据预处理 93

7.2权重初始化 94

7.3正则化 95

7.3.1提前终止 95

7.3.2数据增强 95

7.3.3 L2/L1参数正则化 97

7.3.4集成 99

7.3.5 Dropout 100

参考文献 101

8深度学习框架 102

8.1 Theano 102

8.1.1 Theano 102

8.1.2安装 103

8.1.3计算图 103

8.2 Torch 104

8.2.1概述 104

8.2.2安装 105

8.2.3核心结构 106

8.2.4小试牛刀 109

8.3 PyTorch 112

8.3.1概述 112

8.3.2安装 112

8.3.3核心结构 113

8.3.4小试牛刀 113

8.4 Caffe 116

8.4.1概述 116

8.4.2安装 117

8.4.3核心组件 118

8.4.4小试牛刀 124

8.5 TensorFlow 124

8.5.1概述 124

8.5.2安装 124

8.5.3核心结构 125

8.5.4小试牛刀 126

8.6 MXNet 130

8.6.1概述 130

8.6.2安装 130

8.6.3核心结构 130

8.6.4小试牛刀 132

8.7 Keras 134

8.7.1概述 134

8.7.2安装 135

8.7.3模块介绍 135

8.7.4小试牛刀 135

参考文献 138

第2部分 计算机视觉篇 139

9计算机视觉背景 140

9.1传统计算机视觉 140

9.2基于深度学习的计算机视觉 144

9.3参考文献 145

10图像分类模型 146

10.1 LeNet-5 146

10.2 AlexNet 148

10.3 VGGNet 153

10.3.1网络结构 154

10.3.2配置 156

10.3.3讨论 156

10.3.4几组实验 157

10.4 GoogLeNet 158

10.4.1 NIN 160

10.4.2 GoogLeNet的动机 160

10.4.3网络结构细节 161

10.4.4训练方法 163

10.4.5后续改进版本 164

10.5 ResNet 164

10.5.1基本思想 164

10.5.2网络结构 166

10.6 DenseNet 168

10.7 DPN 169

参考文献 169

11目标检测 172

11.1相关研究 174

11.1.1选择性搜索 174

11.1.2 OverFeat 176

11.2基于区域提名的方法 178

11.2.1 R-CNN 178

11.2.2 SPP-net 180

11.2.3 Fast R-CNN 181

11.2.4 Faster R-CNN 183

11.2.5 R-FCN 184

11.3端到端的方法 185

11.3.1 YOLO 185

11.3.2 SSD 186

11.4小结 187

参考文献 189

12语义分割 191

12.1全卷积网络 192

12.1.1 FCN 192

12.1.2 DeconvNet 194

12.1.3 SegNet 196

12.1.4 DilatedConvNet 197

12.2 CRF/MRF的使用 198

12.2.1 DeepLab 198

12.2.2 CRFasRNN 200

12.2.3 DPN 202

12.3实例分割 204

12.3.1 Mask R-CNN 204

参考文献 205

13图像检索的深度哈希编码 207

13.1传统哈希编码方法 207

13.2 CNNH 208

13.3 DSH 209

13.4小结 211

参考文献 211

第3部分 语音识别篇 213

14传统语音识别基础 214

14.1语音识别简介 214

14.2 HMM简介 215

14.2.1 HMM是特殊的混合模型 217

14.2.2转移概率矩阵 218

14.2.3发射概率 219

14.2.4 Baum-Welch算法 219

14.2.5后验概率 223

14.2.6前向-后向算法 223

14.3 HMM梯度求解 226

14.3.1梯度算法1 227

14.3.2梯度算法2 229

14.3.3梯度求解的重要性 233

14.4孤立词识别 233

14.4.1特征提取 233

14.4.2孤立词建模 234

14.4.3 GMM-HMM 236

14.5连续语音识别 239

14.6 Viterbi解码 242

14.7三音素状态聚类 244

14.8判别式训练 247

参考文献 253

15基于WFST的语音解码 255

15.1有限状态机 256

15.2 WFST及半环定义 256

15.2.1 WFST 256

15.2.2半环(Semiring) 257

15.3自动机操作 259

15.3.1自动机基本操作 260

15.3.2转换器基本操作 261

15.3.3优化操作 264

15.4基于WFST的语音识别系统 276

15.4.1声学模型WFST 278

15.4.2三音素WFST 280

15.4.3发音字典WFST 280

15.4.4语言模型WFST 281

15.4.5 WFST组合和优化 283

15.4.6组合和优化实验 284

15.4.7 WFST解码 285

参考文献 286

16深度语音识别 287

16.1 CD-DNN-HMM 287

16.2 TDNN 291

16.3 CTC 294

16.4 EESEN 298

16.5 Deep Speech 300

16.6 Chain 309

参考文献 312

17 CTC解码 314

17.1序列标注 314

17.2序列标注任务的解决办法 315

17.2.1序列分类 315

17.2.2分割分类 316

17.2.3时序分类 317

17.3隐马模型 317

17.4 CTC基本定义 318

17.5 CTC前向算法 320

17.6 CTC后向算法 323

17.7 CTC目标函数 324

17.8 CTC解码基本原理 326

17.8.1最大概率路径解码 326

17.8.2前缀搜索解码 327

17.8.3约束解码 328

参考文献 332

第4部分 自然语言处理篇 333

18自然语言处理简介 334

18.1 NLP的难点 334

18.2 NLP的研究范围 335

19词性标注 337

19.1传统词性标注模型 337

19.2基于神经网络的词性标注模型 339

19.3基于Bi-LSTM的神经网络词性标注模型 341

参考文献 343

20依存句法分析 344

20.1背景 345

20.2 SyntaxNet技术要点 347

20.2.1 Transition-based系统 348

20.2.2“模板化”技术 352

20.2.3 Beam Search 354

参考文献 356

21 word2vec 357

21.1背景 358

21.1.1词向量 358

21.1.2统计语言模型 358

21.1.3神经网络语言模型 361

21.1.4 Log-linear模型 363

21.1.5 Log-bilinear模型 364

21.1.6层次化Log-bilinear模型 364

21.2 CBOW模型 365

21.3 Skip-gram模型 368

21.4 Hierarchical Softmax与Negative Sampling 370

21.5 fastText 371

21.6 GloVe 372

21.7小结 373

参考文献 373

22神经网络机器翻译 375

22.1机器翻译简介 375

22.2神经网络机器翻译基本模型 376

22.3基于Attention的神经网络机器翻译 378

22.4谷歌机器翻译系统GNMT 380

22.5基于卷积的机器翻译 381

22.6小结 382

参考文献 383

第5部分 深度学习研究篇 385

23 Batch Normalization 386

23.1前向与后向传播 387

23.1.1前向传播 387

23.1.2后向传播 391

23.2有效性分析 392

23.2.1内部协移 393

23.2.2梯度流 393

23.3使用与优化方法 394

23.4小结 396

参考文献 396

24 Attention 397

24.1从简单RNN到RNN+Attention 398

24.2 Soft Attention与Hard Attention 398

24.3 Attention的应用 399

24.4小结 401

参考文献 402

25多任务学习 403

25.1背景 403

25.2什么是多任务学习 404

25.3多任务分类与其他分类概念的关系 406

25.3.1二分类 406

25.3.2多分类 407

25.3.3多标签分类 407

25.3.4相关关系 408

25.4多任务学习如何发挥作用 409

25.4.1提高泛化能力的潜在原因 409

25.4.2多任务学习机制 410

25.4.3后向传播多任务学习如何发现任务是相关的 411

25.5多任务学习被广泛应用 412

25.5.1使用未来预测现在 412

25.5.2多种表示和度量 413

25.5.3时间序列预测 413

25.5.4使用不可操作特征 413

25.5.5使用额外任务来聚焦 413

25.5.6有序迁移 414

25.5.7多个任务自然地出现 414

25.5.8将输入变成输出 414

25.6多任务深度学习应用 416

25.6.1脸部特征点检测 416

25.6.2 DeepID2 417

25.6.3 Fast R-CNN 418

25.6.4旋转人脸网络 419

25.6.5实例感知语义分割的MNC 421

25.7小结 423

参考文献 424

26模型压缩 426

26.1模型压缩的必要性 426

26.2较浅的网络 428

26.3剪枝 428

26.4参数共享 434

26.5紧凑网络 437

26.6二值网络 438

26.7小结 442

参考文献 442

27增强学习 445

27.1什么是增强学习 445

27.2增强学习的数学表达形式 448

27.2.1 MDP 449

27.2.2策略函数 450

27.2.3奖励与回报 450

27.2.4价值函数 452

27.2.5贝尔曼方程 453

27.2.6最优策略性质 453

27.3用动态规划法求解增强学习问题 454

27.3.1 Agent的目标 454

27.3.2策略评估 455

27.3.3策略改进 456

27.3.4策略迭代 457

27.3.5策略迭代的例子 458

27.3.6价值迭代 459

27.3.7价值迭代的例子 461

27.3.8策略函数和价值函数的关系 462

27.4无模型算法 462

27.4.1蒙特卡罗法 463

27.4.2时序差分法 465

27.4.3 Q-Learning 466

27.5 Q-Learning的例子 467

27.6 AlphaGo原理剖析 469

27.6.1围棋与机器博弈 469

27.6.2 Alpha-Beta树 472

27.6.3 MCTS 473

27.6.4 UCT 476

27.6.5 AlphaGo的训练策略 478

27.6.6 AlphaGo的招式搜索算法 482

27.6.7围棋的对称性 484

27.7 AlphaGo Zero 484

参考文献 484

28 GAN 486

28.1生成模型 486

28.2生成对抗模型的概念 488

28.3 GAN实战 492

28.4 InfoGAN——探寻隐变量的内涵 493

28.5 Image-Image Translation 496

28.6 WGAN(Wasserstein GAN) 499

28.6.1 GAN目标函数的弱点 500

28.6.2 Wasserstein度量的优势 501

28.6.3 WGAN的目标函数 504

参考文献 505

A 本书涉及的开源资源列表 506