《统计自然语言处理 第2版》PDF下载

  • 购买积分:17 如何计算积分?
  • 作  者:宗成庆著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2013
  • ISBN:9787302319115
  • 页数:570 页
图书介绍:本书比较全面地介绍了统计自然语言处理的基本理论和系统实现方法,阐述了国内近几年来自然语言处理研究的最新进展和技术现状。

第1章 绪论 1

1.1基本概念 1

1.1.1语言学与语音学 1

1.1.2自然语言处理 2

1.1.3关于“理解”的标准 5

1.2自然语言处理研究的内容和面临的困难 5

1.2.1自然语言处理研究的内容 5

1.2.2自然语言处理涉及的几个层次 8

1.2.3自然语言处理面临的困难 8

1.3自然语言处理的基本方法及其发展 11

1.3.1自然语言处理的基本方法 11

1.3.2自然语言处理的发展 12

1.4自然语言处理的研究现状 15

1.5本书的内容安排 16

第2章 预备知识 18

2.1概率论基本概念 18

2.1.1概率 18

2.1.2最大似然估计 18

2.1.3条件概率 19

2.1.4贝叶斯法则 19

2.1.5随机变量 20

2.1.6二项式分布 21

2.1.7联合概率分布和条件概率分布 21

2.1.8贝叶斯决策理论 22

2.1.9期望和方差 22

2.2信息论基本概念 23

2.2.1熵 23

2.2.2联合熵和条件熵 24

2.2.3互信息 26

2.2.4相对熵 27

2.2.5交叉熵 27

2.2.6困惑度 28

2.2.7噪声信道模型 28

2.3支持向量机 30

2.3.1线性分类 30

2.3.2线性不可分 31

2.3.3构造核函数 31

第3章 形式语言与自动机 33

3.1基本概念 33

3.1.1图 33

3.1.2树 33

3.1.3字符串 34

3.2形式语言 35

3.2.1概述 35

3.2.2形式语法的定义 35

3.2.3形式语法的类型 36

3.2.4 CFG识别句子的派生树表示 38

3.3自动机理论 39

3.3.1有限自动机 39

3.3.2正则文法与自动机的关系 40

3.3.3上下文无关文法与下推自动机 41

3.3.4图灵机 43

3.3.5线性界限自动机 44

3.4自动机在自然语言处理中的应用 45

3.4.1单词拼写检查 45

3.4.2单词形态分析 48

3.4.3词性消歧 49

第4章 语料库与语言知识库 53

4.1语料库技术 53

4.1.1概述 53

4.1.2语料库语言学的发展 54

4.1.3语料库的类型 57

4.1.4汉语语料库建设中的问题 59

4.1.5典型语料库介绍 60

4.2语言知识库 67

4.2.1 WordNet 68

4.2.2 FrameNet 69

4.2.3 EDR 70

4.2.4北京大学综合型语言知识库 71

4.2.5知网 73

4.2.6概念层次网络 77

4.3语言知识库与本体论 79

第5章 语言模型 83

5.1 n元语法 83

5.2语言模型性能评价 85

5.3数据平滑 86

5.3.1问题的提出 86

5.3.2加法平滑方法 87

5.3.3古德-图灵(Good-Turing)估计法 87

5.3.4 Katz平滑方法 89

5.3.5 Jelinek-Mercer平滑方法 90

5.3.6 Witten-Bell平滑方法 92

5.3.7绝对减值法 93

5.3.8 Kneser-Ney平滑方法 93

5.3.9算法总结 95

5.4其他平滑方法 97

5.4.1 Church-Gale平滑方法 97

5.4.2贝叶斯平滑方法 97

5.4.3修正的Kneser-Ney平滑方法 98

5.5平滑方法的比较 99

5.6语言模型自适应方法 100

5.6.1基于缓存的语言模型 100

5.6.2基于混合方法的语言模型 101

5.6.3基于最大熵的语言模型 102

第6章 概率图模型 104

6.1概述 104

6.2贝叶斯网络 106

6.3马尔可夫模型 108

6.4隐马尔可夫模型 110

6.4.1求解观察序列的概率 111

6.4.2维特比算法 115

6.4.3 HMM的参数估计 116

6.5层次化的隐马尔可夫模型 119

6.6马尔可夫网络 120

6.7最大熵模型 122

6.7.1最大熵原理 122

6.7.2最大熵模型的参数训练 124

6.8最大熵马尔可夫模型 125

6.9条件随机场 127

第7章 自动分词、命名实体识别与词性标注 129

7.1汉语自动分词中的基本问题 129

7.1.1汉语分词规范问题 129

7.1.2歧义切分问题 130

7.1.3未登录词问题 132

7.2汉语分词方法 135

7.2.1 N-最短路径方法 135

7.2.2基于词的n元语法模型的分词方法 138

7.2.3由字构词的汉语分词方法 140

7.2.4基于词感知机算法的汉语分词方法 142

7.2.5基于字的生成式模型和区分式模型相结合的汉语分词方法 144

7.2.6其他分词方法 146

7.2.7分词方法比较 147

7.3命名实体识别 150

7.3.1方法概述 150

7.3.2基于CRF的命名实体识别方法 152

7.3.3基于多特征的命名实体识别方法 154

7.4维吾尔语人名识别方法研究 162

7.5词性标注 164

7.5.1概述 164

7.5.2基于统计模型的词性标注方法 165

7.5.3基于规则的词性标注方法 168

7.5.4统计方法与规则方法相结合的词性标注方法 170

7.5.5词性标注中的生词处理方法 172

7.6词性标注的一致性检查与自动校对 173

7.6.1词性标注一致性检查方法 173

7.6.2词性标注自动校对方法 175

7.7关于技术评测 177

第8章 句法分析 179

8.1句法结构分析概述 179

8.1.1基本概念 179

8.1.2语法形式化 180

8.1.3基本方法 181

8.2基于PCFG的基本分析方法 184

8.2.1 PCFG 184

8.2.2面向PCFG的内向外向算法 185

8.2.3选择句子的最佳结构 187

8.2.4 PCFG的概率参数估计 188

8.2.5分析实例 190

8.3词汇化的短语结构分析器 192

8.4非词汇化句法分析器 196

8.5其他相关研究 199

8.5.1 PCFG方法的改进 199

8.5.2数据驱动的分析方法 200

8.5.3语义信息的利用 202

8.6短语结构分析器性能评价 202

8.6.1评价指标 202

8.6.2短语结构分析器性能比较 204

8.7层次化汉语长句结构分析 207

8.7.1标点符号在句法分析中的作用 208

8.7.2层次化汉语长句结构分析的思路 209

8.7.3汉语标点符号的分类 210

8.7.4句法规则提取方法 211

8.7.5HP分析算法 211

8.8浅层句法分析 214

8.8.1概述 214

8.8.2基本名词短语的定义 215

8.8.3基于SVM的base NP识别方法 216

8.8.4基于WINNOW的base NP识别方法 217

8.8.5基于CRF的base NP识别方法 219

8.9依存语法理论简介 220

8.10依存句法分析 223

8.10.1概述 223

8.10.2生成式依存分析方法 224

8.10.3判别式依存分析方法 226

8.10.4确定性依存分析方法 228

8.10.5其他相关研究 231

8.10.6基于序列标注的分层式依存分析方法 233

8.11依存分析器性能评价 235

8.11.1评价指标 235

8.11.2依存分析性能比较 236

8.12短语结构与依存结构之间的关系 240

第9章 语义分析 244

9.1词义消歧概述 244

9.2有监督的词义消歧方法 245

9.2.1基于互信息的消歧方法 245

9.2.2基于贝叶斯分类器的消歧方法 247

9.2.3基于最大熵的词义消歧方法 248

9.3基于词典的词义消歧方法 249

9.3.1基于词典语义定义的消歧方法 249

9.3.2基于义类辞典的消歧方法 250

9.3.3基于双语词典的消歧方法 250

9.3.4 Yarowsky算法及其相关研究 251

9.4无监督的词义消歧方法 252

9.5词义消歧系统评价 254

9.6语义角色标注概述 255

9.7语义角色标注基本方法 257

9.7.1自动语义角色标注的基本流程 257

9.7.2基于短语结构树的语义角色标注方法 257

9.7.3基于依存关系树的语义角色标注方法 259

9.7.4基于语块的语义角色标注方法 261

9.7.5语义角色标注的融合方法 262

9.8语义角色标注的领域适应性问题 264

9.9双语联合语义角色标注方法 267

9.9.1基本思路 267

9.9.2系统实现 269

9.9.3实验 272

第10章 篇章分析 276

10.1基本概念 276

10.2基本理论 277

10.2.1言语行为理论 278

10.2.2中心理论 279

10.2.3修辞结构理论 281

10.2.4脉络理论 283

10.2.5篇章表示理论 284

10.3篇章衔接性研究 286

10.3.1基于指代消解的衔接性相关研究 286

10.3.2基于词汇衔接的衔接性相关研究 289

10.4篇章连贯性研究 290

10.4.1基于信息性的连贯性相关研究 290

10.4.1基于意图性的连贯性相关研究 292

10.5篇章标注语料库 293

10.6关于汉语篇章分析 294

第11章 统计机器翻译 297

11.1机器翻译概述 298

11.1.1机器翻译的发展 298

11.1.2机器翻译方法 298

11.1.3机器翻译研究现状 300

11.2基于噪声信道模型的统计机器翻译原理 301

11.3 IBM的5个翻译模型 304

11.3.1模型1 304

11.3.2模型2 307

11.3.3模型3 308

11.3.4模型4 313

11.3.5模型5 315

11.4基于HMM的词对位模型 317

11.5基于短语的翻译模型 319

11.5.1模型演变 319

11.5.2短语对抽取方法 321

11.6基于柱搜索的解码算法 325

11.7基于最大熵的翻译框架 329

11.7.1模型介绍 329

11.7.2对位模型与最大近似 331

11.7.3对位模板 332

11.7.4特征函数 332

11.7.5参数训练 333

11.8基于层次短语的翻译模型 333

11.8.1概述 333

11.8.2模型描述 335

11.8.3参数训练 336

11.8.4解码方法 337

11.9树翻译模型 339

11.9.1树到树的翻译模型 339

11.9.2树到串的翻译模型 342

11.9.3串到树的翻译模型 345

11.10树模型的相关改进 349

11.10.1源语言句法增强的串到树翻译模型 349

11.10.2基于无监督树结构的翻译模型 351

11.11句法模型解码算法 354

11.12基于谓词论元结构转换的翻译模型 355

11.13各种翻译模型的分析 358

11.14集外词翻译 361

11.14.1数字和时间表示的识别与翻译 362

11.14.2命名实体翻译 363

11.14.3普通集外词的翻译 370

11.15统计翻译系统实现 371

11.16系统融合 374

11.16.1句子级系统融合 374

11.16.2短语级系统融合 375

11.16.3词汇级系统融合 376

11.16.4构建混淆网络的词对齐方法 379

11.17译文质量评估方法 383

11.17.1概述 383

11.17.2技术指标 384

11.17.3相关评测 392

11.17.4有关自动评测方法的评测 396

第12章 语音翻译 399

12.1语音翻译的基本原理和特点 399

12.1.1语音翻译的基本原理 399

12.1.2语音翻译的特点 400

12.2语音翻译的研究现状 401

12.3 C-STAR、A-STAR和U-STAR 404

12.3.1 C-STAR概况 404

12.3.2 A-STAR和U-STAR 405

12.4系统与项目介绍 406

12.5口语翻译方法 411

12.5.1基于对话行为分析的口语翻译方法 412

12.5.2基于句子类型的口语翻译方法 413

第13章 文本分类与情感分类 416

13.1文本分类概述 416

13.2文本表示 417

13.3文本特征选择方法 419

13.3.1基于文档频率的特征提取法 419

13.3.2信息增益法 420

13.3.3X2统计量 420

13.3.4互信息法 421

13.4特征权重计算方法 422

13.5分类器设计 424

13.5.1朴素贝叶斯分类器 424

13.5.2基于支持向量机的分类器 425

13.5.3 k-最近邻法 426

13.5.4基于神经网络的分类器 426

13.5.5线性最小平方拟合法 426

13.5.6决策树分类器 427

13.5.7模糊分类器 427

13.5.8 Rocchio分类器 427

13.5.9基于投票的分类方法 428

13.6文本分类性能评测 428

13.6.1评测指标 428

13.6.2相关评测 430

13.7情感分类 431

第14章 信息检索与问答系统 434

14.1信息检索概要 434

14.1.1背景概述 434

14.1.2基本方法和模型 435

14.1.3倒排索引 439

14.1.4文档排序 440

14.2隐含语义标引模型 440

14.2.1隐含语义标引模型 440

14.2.2概率隐含语义标引模型 441

14.2.3弱指导的统计隐含语义标引模型 443

14.3检索系统评测 445

14.3.1检索系统评测指标 445

14.3.2信息检索评测活动 446

14.4问答系统 448

14.4.1概述 448

14.4.2系统构成 450

14.4.3基本方法 451

14.4.4 QA系统评测 453

第15章 自动文摘与信息抽取 455

15.1自动文摘技术概要 455

15.2多文档摘要 456

15.2.1问题与方法 456

15.2.2文摘评测 458

15.3信息抽取 460

15.3.1概述 460

15.3.2传统的信息抽取技术 461

15.3.3开放式信息抽取 463

15.4情感信息抽取 467

15.5情感分析技术评测 468

第16章 口语信息处理与人机对话系统 471

16.1汉语口语现象分析 471

16.1.1概述 471

16.1.2口语语言现象分析 472

16.1.3冗余现象分析 474

16.1.4重复现象分析 475

16.2口语句子情感信息分析 476

16.2.1情感词汇分类 476

16.2.2口语句子情感信息分析 477

16.3面向中间表示的口语解析方法 479

16.3.1概述 479

16.3.2中间表示格式 480

16.3.3基于规则和HMM的统计解析方法 481

16.3.4基于语义决策树的口语解析方法 486

16.4基于MDP的对话行为识别 487

16.5基于中间表示的口语生成方法 488

16.5.1基本思路 488

16.5.2微观规划器 489

16.5.3表层生成器 490

16.6人机对话系统 491

16.6.1系统组成 491

16.6.2相关研究 492

参考文献 495

自然语言处理及其相关领域的国际会议 551

名词术语索引 553