当前位置:首页 > 工业技术
多语自然语言处理  从原理到实践
多语自然语言处理  从原理到实践

多语自然语言处理 从原理到实践PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:(美)DanielM.Bikel,(美)ImedZitouni编
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2015
  • ISBN:9787111484912
  • 页数:448 页
图书介绍:本书是第一本全面阐述如何构建健壮和准确多语种自然语言处理系统的图书,由两位资深专家编辑,集合了该领域众多尖端进展以及从广泛的研究和产业实践中总结的实用解决方案。第一部分介绍现代自然语言处理的核心概念和理论基础,展示了现今理解单词和文件结构、分析语法、建模语言、识别蕴含和检测冗余。第二部分彻底阐述与构建真实应用有关的实际考量,包括信息抽取、机器翻译、信息检索/搜索,总结、问答、提炼、处理流水线等。
《多语自然语言处理 从原理到实践》目录

第一部分 理论 2

第1章 找出词的结构 2

1.1 词及其部件 2

1.1.1 词元 2

1.1.2 词形 3

1.1.3 词素 4

1.1.4 类型学 5

1.2 问题和挑战 6

1.2.1 不规则性 6

1.2.2 歧义性 7

1.2.3 能产性 9

1.3 形态模型 10

1.3.1 查词典 11

1.3.2 有限状态形态 11

1.3.3 基于合一的形态 13

1.3.4 函数式形态 13

1.3.5 形态归纳 14

1.4 总结 15

第2章 找出文档的结构 21

2.1 概述 21

2.1.1 句子边界检测 22

2.1.2 主题边界检测 23

2.2 方法 24

2.2.1 生成序列分类方法 25

2.2.2 判别性局部分类方法 26

2.2.3 判别性序列分类方法 28

2.2.4 混合方法 28

2.2.5 句子分割的全局建模扩展 29

2.3 方法的复杂度 29

2.4 方法的性能 30

2.5 特征 30

2.5.1 同时用于文本与语音的特征 30

2.5.2 只用于文本的特征 32

2.5.3 语音特征 33

2.6 处理阶段 35

2.7 讨论 35

2.8 总结 36

第3章 句法 42

3.1 自然语言分析 42

3.2 树库:句法分析的数据驱动方法 43

3.3 句法结构的表示 46

3.3.1 使用依存图的句法分析 46

3.3.2 使用短语结构树的句法分析 49

3.4 分析算法 52

3.4.1 移进归约分析 53

3.4.2 超图和线图分析 53

3.4.3 最小生成树和依存分析 58

3.5 分析中的歧义消解模型 59

3.5.1 概率上下文无关文法 59

3.5.2 句法分析的生成模型 61

3.5.3 句法分析的判别模型 62

3.6 多语言问题:什么是词元 65

3.6.1 词元切分、实例和编码 65

3.6.2 分词 66

3.6.3 形态学 67

3.7 总结 68

第4章 语义分析 71

4.1 概述 71

4.2 语义解释 72

4.2.1 结构歧义 72

4.2.2 词义 72

4.2.3 实体与事件消解 73

4.2.4 谓词-论元结构 73

4.2.5 意义表示 73

4.3 系统范式 74

4.4 词义 74

4.4.1 资源 76

4.4.2 系统 77

4.4.3 软件 85

4.5 谓词-论元结构 85

4.5.1 资源 86

4.5.2 系统 89

4.5.3 软件 106

4.6 意义表示 106

4.6.1 资源 107

4.6.2 系统 108

4.6.3 软件 109

4.7 总结 109

4.7.1 词义消歧 110

4.7.2 谓词-论元结构 110

4.7.3 意义表示 111

第5章 语言模型 122

5.1 概述 122

5.2 n元模型 122

5.3 语言模型评价 123

5.4 参数估计 123

5.4.1 最大似然估计和平滑 123

5.4.2 贝叶斯参数估计 125

5.4.3 大规模语言模型 126

5.5 语言模型适应 127

5.6 语言模型的类型 128

5.6.1 基于类的语言模型 128

5.6.2 变长语言模型 129

5.6.3 判别式语言模型 129

5.6.4 基于句法的语言模型 130

5.6.5 最大熵语言模型 131

5.6.6 因子化语言模型 132

5.6.7 其他基于树的语言模型 133

5.6.8 基于主题的贝叶斯语言模型 134

5.6.9 神经网络语言模型 135

5.7 特定语言建模问题 136

5.7.1 形态丰富语言的建模 136

5.7.2 亚词单元的选择 138

5.7.3 形态类别建模 139

5.7.4 无分词语言 140

5.7.5 口语与书面语言 140

5.8 多语言和跨语言建模 141

5.8.1 多语言建模 141

5.8.2 跨语言建模 141

5.9 总结 143

第6章 文本蕴涵识别 151

6.1 概述 151

6.2 文本识别蕴涵任务 151

6.2.1 问题定义 152

6.2.2 RTE的挑战 153

6.2.3 评估文本蕴涵系统性能 154

6.2.4 文本蕴涵解决方案的应用 155

6.2.5 其他语言中的RTE研究 157

6.3 文本蕴涵识别的框架 158

6.3.1 要求 158

6.3.2 分析 159

6.3.3 有用的组件 159

6.3.4 通用模型 162

6.3.5 实现 164

6.3.6 对齐 168

6.3.7 推理 171

6.3.8 训练 172

6.4 案例分析 172

6.4.1 抽取语篇约束 172

6.4.2 基于编辑距离的RTE 173

6.4.3 基于转换的方法 174

6.4.4 逻辑表示及推理 176

6.4.5 独立于蕴涵学习对齐 176

6.4.6 在RTE中利用多对齐 177

6.4.7 自然逻辑 177

6.4.8 句法树核 178

6.4.9 使用有限依存上下文的全局相似度 178

6.4.10 RTE的潜在对齐推理 179

6.5 RTE的进一步研究 179

6.5.1 改进分析器 179

6.5.2 发明或解决新问题 180

6.5.3 开发知识库 180

6.5.4 更好的RTE评价 181

6.6 有用资源 182

6.6.1 文献 182

6.6.2 知识库 182

6.6.3 自然语言处理包 182

6.7 总结 183

第7章 多语情感与主观性分析 188

7.1 概述 188

7.2 定义 188

7.3 英语中的情感及主观性分析 190

7.3.1 词典 190

7.3.2 语料库 191

7.3.3 工具 191

7.4 词级和短语级标注 192

7.4.1 基于字典的方法 192

7.4.2 基于语料库的方法 194

7.5 句子级标注 196

7.5.1 基于字典 196

7.5.2 基于语料库 197

7.6 文档级标注 198

7.6.1 基于字典 198

7.6.2 基于语料库 199

7.7 什么有效,什么无效 200

7.7.1 最佳情况:已有人工标注的语料库 200

7.7.2 次优情形:基于语料库的跨语言映射 200

7.7.3 第三优情形:孳衍词典 201

7.7.4 第四优情形:翻译词典 201

7.7.5 各种可行方法的比较 201

7.8 总结 202

第二部分 实践 208

第8章 实体检测和追踪 208

8.1 概述 208

8.2 提及检测 209

8.2.1 数据驱动的分类 210

8.2.2 搜索提及 211

8.2.3 提及检测特征 213

8.2.4 提及检测实验 215

8.3 共指消解 216

8.3.1 Bell树的构建 217

8.3.2 共指模型:链接和引入模型 218

8.3.3 最大熵链接模型 219

8.3.4 共指消解实验 220

8.4 总结 221

第9章 关系和事件 225

9.1 概述 225

9.2 关系与事件 225

9.3 关系类别 226

9.4 将关系抽取视为分类 227

9.4.1 算法 227

9.4.2 特征 228

9.4.3 分类器 230

9.5 关系抽取的其他方法 231

9.5.1 无监督和半监督方法 231

9.5.2 核方法 232

9.5.3 实体和关系检测的联合方法 233

9.6 事件 233

9.7 事件抽取方法 234

9.8 超句 235

9.9 事件匹配 235

9.10 事件抽取的未来方向 237

9.11 总结 237

第10章 机器翻译 241

10.1 机器翻译现状 241

10.2 机器翻译评测 241

10.2.1 人工评测 242

10.2.2 自动评测 243

10.2.3 WER、BLEU、METEOR等 244

10.3 词对齐 246

10.3.1 共现 246

10.3.2 IBM模型1 247

10.3.3 期望最大化 247

10.3.4 对齐模型 248

10.3.5 对称化 248

10.3.6 作为机器学习问题的词对齐 250

10.4 基于短语的翻译模型 250

10.4.1 模型 251

10.4.2 训练 251

10.4.3 解码 252

10.4.4 立方剪枝 254

10.4.5 对数线性模型和参数调节 254

10.4.6 控制模型的大小 255

10.5 基于树的翻译模型 256

10.5.1 层次短语翻译模型 256

10.5.2 线图解码 257

10.5.3 基于句法的模型 258

10.6 语言学挑战 259

10.6.1 译词选择 259

10.6.2 形态学 260

10.6.3 词序 260

10.7 工具和数据资源 261

10.7.1 基本工具 261

10.7.2 机器翻译系统 262

10.7.3 平行语料 262

10.8 未来的方向 262

10.9 总结 263

第11章 跨语言信息检索 267

11.1 概述 267

11.2 文档预处理 268

11.2.1 文档句法和编码 268

11.2.2 词元化 270

11.2.3 规范化 271

11.2.4 预处理最佳实践 272

11.3 单语信息检索 272

11.3.1 文档表示 272

11.3.2 索引结构 273

11.3.3 检索模型 274

11.3.4 查询扩展 275

11.3.5 文档先验模型 276

11.3.6 模型选择的最佳实践 276

11.4 CLIR 277

11.4.1 基于翻译的方法 277

11.4.2 机器翻译 278

11.4.3 中间语言文档表示 279

11.4.4 最佳实践 280

11.5 多语言信息检索 280

11.5.1 语言识别 280

11.5.2 MLIR的索引建立 281

11.5.3 翻译查询串 281

11.5.4 聚合模型 282

11.5.5 最佳实践 282

11.6 信息检索的评价 283

11.6.1 建立实验环境 283

11.6.2 相关性评估 284

11.6.3 评价指标 284

11.6.4 已有数据集 285

11.6.5 最佳实践 286

11.7 工具、软件和资源 287

11.8 总结 288

第12章 多语自动文摘 291

12.1 概述 291

12.2 自动文摘方法 293

12.2.1 传统方法 293

12.2.2 基于图的方法 294

12.2.3 学习如何做摘要 297

12.2.4 多语自动摘要 300

12.3 评测 302

12.3.1 人工评价 302

12.3.2 自动评价 304

12.3.3 自动文摘评测系统的近期发展 306

12.3.4 多语自动文摘的自动评测方法 307

12.4 如何搭建自动文摘系统 307

12.4.1 材料 309

12.4.2 工具 309

12.4.3 说明 310

12.5 评测竞赛和数据集 311

12.5.1 评测竞赛 311

12.5.2 数据集 311

12.6 总结 312

第13章 问答系统 317

13.1 概述和历史 317

13.2 架构 318

13.3 源获取和预处理 320

13.4 问题分析 322

13.5 搜索及候选抽取 324

13.5.1 非结构化资源搜索 324

13.5.2 非结构化源文本的候选抽取 326

13.5.3 结构化源文本的候选抽取 329

13.6 回答评分 330

13.6.1 方法概述 330

13.6.2 证据结合 331

13.6.3 扩展到列表型问题 332

13.7 跨语言问答 332

13.8 案例研究 334

13.9 评测 337

13.9.1 评测任务 337

13.9.2 判断答案正确性 338

13.9.3 性能度量 339

13.10 当前和未来的挑战 340

13.11 总结和进一步阅读 341

第14章 提炼 348

14.1 概述 348

14.2 示例 349

14.3 相关性和冗余性 349

14.4 Rosetta Consortium提炼系统 351

14.4.1 文档和语料库准备 351

14.4.2 索引 354

14.4.3 查询回答 354

14.5 其他提炼方法 357

14.5.1 系统架构 357

14.5.2 相关度 357

14.5.3 冗余 358

14.5.4 多模态提炼 358

14.5.5 跨语言提炼 359

14.6 评测和指标 360

14.7 总结 362

第15章 口语对话系统 364

15.1 概述 364

15.2 口语对话系统 364

15.2.1 语音识别和理解 365

15.2.2 语音生成 367

15.2.3 对话管理器 367

15.2.4 语音用户接口 369

15.3 对话形式 371

15.4 自然语言呼叫路由选择 372

15.5 三代对话应用 372

15.6 持续的改进循环 373

15.7 口语句子的转录和标注 374

15.8 口语对话系统的本地化 374

15.8.1 呼叫流程本地化 375

15.8.2 提示本地化 375

15.8.3 文法的本地化 376

15.8.4 源端数据 376

15.8.5 训练 377

15.8.6 测试 377

15.9 总结 379

第16章 聚合自然语言处理引擎 381

16.1 概述 381

16.2 聚合语音和NLP引擎架构的期望属性 382

16.2.1 灵活的分布式组件化 382

16.2.2 计算效率 382

16.2.3 数据操作功能 383

16.2.4 鲁棒性处理 383

16.3 聚合的架构 383

16.3.1 UIMA 384

16.3.2 GATE 385

16.3.3 InfoSphere Streams 386

16.4 案例研究 386

16.4.1 GALE互操作性演示系统 387

16.4.2 跨语言自动语言开发系统 391

16.4.3 实时翻译服务 393

16.5 经验教训 393

16.5.1 分割涉及延迟和精度之间的权衡 393

16.5.2 联合优化与互操作性 393

16.5.3 数据模型需要使用约定 394

16.5.4 性能评估的挑战 394

16.5.5 引擎的前向波训练 394

16.6 总结 394

16.7 UIMA样本代码 395

索引 401

相关图书
作者其它书籍
返回顶部