《基于深度学习的自然语言处理》PDF下载

购买积分：11 如何计算积分？
作　　者：（以色列）约阿夫·戈尔德贝格（YOAVGOLDBERG）著；车万翔，郭江，张伟男，刘铭译；刘挺主审
出版社：北京：机械工业出版社
出版年份：2018
ISBN：9787111593737
页数：258 页

图书介绍：本书重点介绍了神经网络模型在自然语言处理中的应用。首先介绍有监督的机器学习和前馈神经网络的基本知识，如何将机器学习方法应用在自然语言处理中，以及词向量表示（而不是符号表示）的应用。然后介绍更多专门的神经网络结构，包括一维卷积神经网络、循环神经网络、条件生成模型和基于注意力的模型。最后，讨论树形网络、结构化预测以及多任务学习的前景。

点击购买此书全本PDF电子书

第1章引言 1

1.1 自然语言处理的挑战 1

1.2 神经网络和深度学习 2

1.3 自然语言处理中的深度学习 3

1.4 本书的覆盖面和组织结构 5

1.5 本书未覆盖的内容 7

1.6 术语 7

1.7 数学符号 7

注释 8

第一部分有监督分类与前馈神经网络 13

第2章学习基础与线性模型 13

2.1 有监督学习和参数化函数 13

2.2 训练集、测试集和验证集 14

2.3 线性模型 16

2.3.1 二分类 16

2.3.2 对数线性二分类 20

2.3.3 多分类 20

2.4 表示 21

2.5 独热和稠密向量表示 22

2.6 对数线性多分类 23

2.7 训练和最优化 24

2.7.1 损失函数 25

2.7.2 正则化 27

2.8 基于梯度的最优化 29

2.8.1 随机梯度下降 29

2.8.2 实例 31

2.8.3 其他训练方法 32

第3章从线性模型到多层感知器 34

3.1 线性模型的局限性：异或问题 34

3.2 非线性输入转换 34

3.3 核方法 35

3.4 可训练的映射函数 35

第4章前馈神经网络 37

4.1 一个关于大脑的比喻 37

4.2 数学表示 38

4.3 表达能力 40

4.4 常见的非线性函数 41

4.5 损失函数 42

4.6 正则化与丢弃法 42

4.7 相似和距离层 43

4.8 嵌入层 44

第5章神经网络训练 45

5.1 计算图的抽象概念 45

5.1.1 前向计算 47

5.1.2 反向计算（导数、反向传播） 47

5.1.3 软件 48

5.1.4 实现流程 51

5.1.5 网络构成 51

5.2 实践经验 51

5.2.1 优化算法的选择 52

5.2.2 初始化 52

5.2.3 重启与集成 52

5.2.4 梯度消失与梯度爆炸 53

5.2.5 饱和神经元与死神经元 53

5.2.6 随机打乱 54

5.2.7 学习率 54

5.2.8 minibatch 54

第二部分处理自然语言数据 57

第6章文本特征构造 57

6.1 NLP分类问题中的拓扑结构 57

6.2 NLP问题中的特征 59

6.2.1 直接可观测特征 59

6.2.2 可推断的语言学特征 62

6.2.3 核心特征与组合特征 66

6.2.4 n元组特征 66

6.2.5 分布特征 67

第7章 NLP特征的案例分析 69

7.1 文本分类：语言识别 69

7.2 文本分类：主题分类 69

7.3 文本分类：作者归属 70

7.4 上下文中的单词：词性标注 71

7.5 上下文中的单词：命名实体识别 72

7.6 上下文中单词的语言特征：介词词义消歧 74

7.7 上下文中单词的关系：弧分解分析 76

第8章从文本特征到输入 78

8.1 编码分类特征 78

8.1.1 独热编码 78

8.1.2 稠密编码（特征嵌入） 79

8.1.3 稠密向量与独热表示 80

8.2 组合稠密向量 81

8.2.1 基于窗口的特征 81

8.2.2 可变特征数目：连续词袋 82

8.3 独热和稠密向量间的关系 82

8.4 杂项 83

8.4.1 距离与位置特征 83

8.4.2 补齐、未登录词和词丢弃 84

8.4.3 特征组合 85

8.4.4 向量共享 86

8.4.5 维度 86

8.4.6 嵌入的词表 86

8.4.7 网络的输出 87

8.5 例子：词性标注 87

8.6 例子：弧分解分析 89

第9章语言模型 91

9.1 语言模型任务 91

9.2 语言模型评估：困惑度 92

9.3 语言模型的传统方法 93

9.3.1 延伸阅读 94

9.3.2 传统语言模型的限制 94

9.4 神经语言模型 95

9.5 使用语言模型进行生成 97

9.6 副产品：词的表示 98

第10章预训练的词表示 100

10.1 随机初始化 100

10.2 有监督的特定任务的预训练 100

10.3 无监督的预训练 101

10.4 词嵌入算法 102

10.4.1 分布式假设和词表示 103

10.4.2 从神经语言模型到分布式表示 107

10.4.3 词语联系 110

10.4.4 其他算法 111

10.5 上下文的选择 112

10.5.1 窗口方法 112

10.5.2 句子、段落或文档 113

10.5.3 句法窗口 113

10.5.4 多语种 114

10.5.5 基于字符级别和子词的表示 115

10.6 处理多字单元和字变形 116

10.7 分布式方法的限制 117

第11章使用词嵌入 119

11.1 词向量的获取 119

11.2 词的相似度 119

11.3 词聚类 120

11.4 寻找相似词 120

11.5 同中选异 121

11.6 短文档相似度 121

11.7 词的类比 122

11.8 改装和映射 122

11.9 实用性和陷阱 124

第12章案例分析：一种用于句子意义推理的前馈结构 125

12.1 自然语言推理与SNLI数据集 125

12.2 文本相似网络 126

第三部分特殊的结构 131

第13章 n元语法探测器：卷积神经网络 131

13.1 基础卷积＋池化 132

13.1.1 文本上的一维卷积 133

13.1.2 向量池化 135

13.1.3 变体 137

13.2 其他选择：特征哈希 137

13.3 层次化卷积 138

第14章循环神经网络：序列和栈建模 142

14.1 RNN抽象描述 142

14.2 RNN的训练 145

14.3 RNN常见使用模式 145

14.3.1 接收器 145

14.3.2 编码器 146

14.3.3 传感器 146

14.4 双向RNN 147

14.5 堆叠RNN 149

14.6 用于表示栈的RNN 150

14.7 文献阅读的注意事项 151

第15章实际的循环神经网络结构 153

15.1 作为RNN的CBOW 153

15.2 简单RNN 153

15.3 门结构 154

15.3.1 长短期记忆网络 156

15.3.2 门限循环单元 157

15.4 其他变体 158

15.5 应用到RNN的丢弃机制 159

第16章通过循环网络建模 160

16.1 接收器 160

16.1.1 情感分类器 160

16.1.2 主谓一致语法检查 162

16.2 作为特征提取器的RNN 164

16.2.1 词性标注 164

16.2.2 RNN-CNN文本分类 166

16.2.3 弧分解依存句法分析 167

第17章条件生成 169

17.1 RNN生成器 169

17.2 条件生成（编码器-解码器） 170

17.2.1 序列到序列模型 172

17.2.2 应用 173

17.2.3 其他条件上下文 176

17.3 无监督的句子相似性 177

17.4 结合注意力机制的条件生成 178

17.4.1 计算复杂性 180

17.4.2 可解释性 181

17.5 自然语言处理中基于注意力机制的模型 182

17.5.1 机器翻译 182

17.5.2 形态屈折 184

17.5.3 句法分析 184

第四部分其他主题 187

第18章用递归神经网络对树建模 187

18.1 形式化定义 187

18.2 扩展和变体 190

18.3 递归神经网络的训练 190

18.4 一种简单的替代——线性化树 191

18.5 前景 191

第19章结构化输出预测 193

19.1 基于搜索的结构化预测 193

19.1.1 基于线性模型的结构化预测 193

19.1.2 非线性结构化预测 194

19.1.3 概率目标函数（CRF） 195

19.1.4 近似搜索 196

19.1.5 重排序 197

19.1.6 参考阅读 197

19.2 贪心结构化预测 198

19.3 条件生成与结构化输出预测 199

19.4 实例 200

19.4.1 基于搜索的结构化预测：一阶依存句法分析 200

19.4.2 基于Neural-CRF的命名实体识别 201

19.4.3 基于柱搜索的NER-CRF近似 204

第20章级联、多任务与半监督学习 206

20.1 模型级联 206

20.2 多任务学习 210

20.2.1 多任务设置下的训练 212

20.2.2 选择性共享 212

20.2.3 作为多任务学习的词嵌入预训练 213

20.2.4 条件生成中的多任务学习 214

20.2.5 作为正则的多任务学习 214

20.2.6 注意事项 214

20.3 半监督学习 215

20.4 实例 216

20.4.1 眼动预测与句子压缩 216

20.4.2 弧标注与句法分析 217

20.4.3 介词词义消歧与介词翻译预测 218

20.4.4 条件生成：多语言机器翻译、句法分析以及图像描述生成 219

20.5 前景 220

第21章结论 221

21.1 我们学到了什么 221

21.2 未来的挑战 221

参考文献 223