《统计自然语言处理基础》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:(美)ChristopherD.Manning,(德)HinrichSchutze著;苑春法,李庆中,王昀,李伟,曹德芳等译
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2005
  • ISBN:7505399217
  • 页数:416 页
图书介绍:近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。

第一部分 基础知识 1

第1章 绪论 2

1.1 理性主义者和经验主义者的方法 2

1.2 科学内容 4

1.3 语言中的歧义问题是自然语言难以处理的原因 9

1.4 第一手资料 11

1.5 深入阅读 21

1.6 习题 22

第2章 数学基础 23

2.1 概率论基础 23

2.2 信息论基础 35

2.3 深入阅读 47

2.4 习题 47

第3章 语言学基础 50

3.1 词性和词法 50

3.2 短语结构 57

3.3 语义和语用 68

3.4 其他研究领域 69

3.5 深入阅读 70

3.6 习题 70

第4章 基于语料库的工作 72

4.1 基础知识 72

4.2 文本 75

4.3 数据标注 84

4.4 深入阅读 89

4.5 习题 90

第二部分 词法 93

第5章 搭配 94

5.1 频率 95

5.2 均值和方差 98

5.3 假设检验 101

5.4 互信息 111

5.5 搭配的概念 114

5.6 深入阅读 116

5.7 习题 117

第6章 统计推理:稀疏数据集上的n元语法模型 120

6.1 Bins:构造等价类 120

6.2 统计估计 122

6.3 组合估计法 136

6.4 结论 140

6.5 深入阅读 141

6.6 习题 141

第7章 语义消歧 143

7.1 预备知识 144

7.2 有监督消歧 146

7.3 基于词典的消歧 151

7.4 无监督消歧 158

7.5 什么是语义 160

7.6 深入阅读 162

7.7 习题 163

第8章 词汇获取 165

8.1 评价方法 166

8.2 动词子范畴 169

8.3 附着歧义 173

8.4 选择倾向 179

8.5 语义相似性 182

8.6 统计自然语言处理中词汇获取的作用 190

8.7 深入阅读 192

8.8 习题 194

第三部分 语法 199

第9章 马尔可夫模型 200

9.1 马尔可夫模型 200

9.2 隐马尔可夫模型 202

9.3 隐马尔可夫模型的三个基本问题 205

9.4 隐马尔可夫模型:实现、性质和变形 212

9.5 深入阅读 214

9.6 习题 214

第10章 词性标注 216

10.1 标注中的信息源 217

10.2 马尔可夫模型标注器 218

10.3 隐马尔可夫标注器 225

10.4 基于转换的标注学习 228

10.5 其他模型和语言 233

10.6 标注准确率和标注器的应用 234

10.7 深入阅读 237

10.8 习题 238

第11章 概率上下文无关文法 241

11.1 概率上下文无关文法的一些特征 244

11.2 概率上下文无关文法的问题 246

11.3 词串概率的计算 248

11.4 内部-外部算法的问题 255

11.5 深入阅读 255

11.6 习题 256

第12章 概率句法分析 258

12.1 一些概念 259

12.2 一些方法 280

12.3 深入阅读 287

12.4 习题 289

第四部分 应用与技术 291

第13章 统计对齐和机器翻译 292

13.1 文本对齐 294

13.2 词对齐 303

13.3 统计机器翻译 304

13.4 深入阅读 307

13.5 习题 308

第14章 聚类 310

14.1 层级聚类 314

14.2 非层级聚类 321

14.3 深入阅读 328

14.4 习题 329

第15章 信息检索 330

15.1 信息检索的背景 330

15.2 向量空间模型 335

15.3 词条分布模型 338

15.4 潜在语义索引 344

15.5 篇章分割 350

15.6 深入阅读 352

15.7 习题 354

第16章 文本分类 355

16.1 决策树 357

16.2 最大熵建模 363

16.3 感知器 368

16.4 к最近邻分类 372

16.5 深入阅读 373

16.6 习题 374

附录A 统计表 376

参考文献 377