《OREILLY精品图书系列 面向机器学习的自然语言标注》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)普斯特若夫斯基(James Pustejovsky),(美)斯塔布斯(Amber Stubbs)著;邱立坤,金澎,王萌译
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111555155
  • 页数:294 页
图书介绍:自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对最新研究进展的综述,同时还结合了作者(James Pustejovsky,生成词库理论的创始人)多年的研究成果。本书内容全面、详略得当,结合实例讲解,使读者更易理解。

前言 1

第1章基础知识 7

1.1语言标注的重要性 7

1.1.1语言学描述的层次 8

1.1.2什么是自然语言处理 9

1.2语料库语言学简史 10

1.2.1什么是语料库 13

1.2.2语料库的早期应用 15

1.2.3当今的语料库 17

1.2.4标注类型 18

1.3语言数据和机器学习 24

1.3.1分类 25

1.3.2聚类 25

1.3.3结构化模式归纳 26

1.4标注开发循环 26

1.4.1现象建模 27

1.4.2按照规格说明进行标注 30

1.4.3在语料库上训练和测试算法 31

1.4.4对结果进行评价 32

1.4.5修改模型和算法 33

总结 34

第2章确定目标与选择数据 36

2.1定义目标 36

2.1.1目标陈述 37

2.1.2提炼目标:信息量与正确性 38

2.2背景研究 43

2.2.1语言资源 44

2.2.2机构与会议 44

2.2.3自然语言处理竞赛 45

2.3整合数据集 46

2.3.1理想的语料库:代表性与平衡性 47

2.3.2从因特网上收集数据 47

2.3.3从人群中获取数据 48

2.4语料库的规模 49

2.4.1现有语料库 50

2.4.2语料库内部的分布 51

总结 53

第3章语料库分析 54

3.1语料库分析中的基本概率知识 55

3.1.1联合概率分布 56

3.1.2贝叶斯定理 58

3.2计算出现次数 58

3.2.1齐普夫定律(Zip’s Law) 61

3.2.2 n元语法 62

3.3语言模型 63

总结 65

第4章建立模型与规格说明 66

4.1模型和规格说明示例 66

4.1.1电影题材分类 69

4.1.2添加命名实体 70

4.1.3语义角色 71

4.2采用(或不采用)现有模型 73

4.2.1创建模型和规格说明:一般性与特殊性 74

4.2.2使用现有模型和规格说明 76

4.2.3使用没有规格说明的模型 78

4.3各种标准 78

4.3.1 ISO标准 78

4.3.2社区驱动型标准 81

4.3.3影响标注的其他标准 81

总结 82

第5章选择并应用标注标准 84

5.1元数据标注:文档分类 85

5.1.1单标签标注:电影评论 85

5.1.2多标签标注:电影题材 87

5.2文本范围标注:命名实体 90

5.2.1内嵌式标注 90

5.2.2基于词例的分离式标注 92

5.2.3基于字符位置的分离式标注 95

5.3链接范围标注:语义角色 96

5.4 ISO标准和你 97

总结 97

第6章标注与审核 99

6.1标注项目的基本结构 99

6.2标注规格说明与标注指南 101

6.3准备修改 102

6.4准备用于标注的数据 103

6.4.1元数据 103

6.4.2数据预处理 104

6.4.3为标注工作分割文件 104

6.5撰写标注指南 105

6.5.1例1:单标签标注——电影评论 106

6.5.2例2:多标签标注——电影题材 108

6.5.3例3:范围标注——命名实体 111

6.5.4例4:链接范围标注——语义角色 112

6.6标注人员 114

6.7选择标注环境 116

6.8评价标注结果 117

6.8.1 Cohen的Карра(к)算法 118

6.8.2 Fleiss的Карра(к)算法 119

6.8.3解释Kappa系数 122

6.8.4在其他上下文中计算к值 123

6.9创建黄金标准(审核) 125

总结 126

第7章训练:机器学习 129

7.1何谓学习 130

7.2定义学习任务 132

7.3分类算法 133

7.3.1决策树学习 135

7.3.2朴素贝叶斯学习 140

7.3.3最大熵分类器 145

7.3.4其他需要了解的分类器 147

7.4序列归纳算法 148

7.5聚类和无监督学习 150

7.6半监督学习 150

7.7匹配标注与算法 153

总结 154

第8章测试与评价 156

8.1测试算法 157

8.2评价算法 157

8.2.1混淆矩阵 157

8.2.2计算评价得分 159

8.2.3解释评价得分 163

8.3可能影响算法评价的问题 164

8.3.1数据集太小 164

8.3.2算法过于适合开发数据 166

8.3.3标注中的信息过多 166

8.4最后测试得分 167

总结 167

第9章修改与报告 169

9.1修改项目 170

9.1.1语料库分布和内容 170

9.1.2模型和规格说明 170

9.1.3标注 171

9.1.4训练和测试 172

9.2报告工作 173

9.2.1关于语料库 174

9.2.2关于模型和规格说明 175

9.2.3关于标注任务和标注人员 175

9.2.4关于ML算法 176

9.2.5关于修改 177

总结 177

第10章标注:TimeML 179

10.1 TimeML的设计目标 180

10.2相关研究 181

10.3建设语料库 182

10.4模型:初步的标注规格说明 183

10.4.1时间 183

10.4.2信号 184

10.4.3事件 184

10.4.4链接 184

10.5标注:最初的尝试 185

10.6模型:TimeBank中的TimeML标注规格说明 185

10.6.1时间表达式 185

10.6.2事件 186

10.6.3信号 187

10.6.4链接 187

10.6.5可信度 189

10.7标注:TimeBank的产生 189

10.8 TimeML成为ISO-TimeML 192

10.9对未来建模:TimeML的发展方向 193

10.9.1叙事容器 194

10.9.2将TimeML扩展到其他领域 195

10.9.3事件结构 196

总结 197

第11章自动标注:生成TimeML 199

11.1 TARSQI组件 200

11.1.1 GUTime:时间标志识别 201

11.1.2 EVITA:事件识别及分类 201

11.1.3 GUTenLINK 202

11.1.4 Slinket 204

11.1.5 SputLink 204

11.1.6 TARSQI组件中的机器学习 205

11.2 TTK的改进 206

11.2.1结构变化 206

11.2.2时间实体识别改进:BTime 207

11.2.3时间关系识别 207

11.2.4时间关系验证 208

11.2.5时间关系可视化 209

11.3 TimeML竞赛:TempEval-2 209

11.3.1 TempEval-2:系统概述 210

11.3.2成果综述 213

11.4 TTK的未来 213

11.4.1新的输入格式 213

11.4.2叙事容器/叙事时间 214

11.4.3医学文档 215

11.4.4跨文档分析 216

总结 216

第12章后记:标注的未来发展趋势 217

12.1众包标注 217

12.1.1亚马逊土耳其机器人 218

12.1.2有目的的游戏 219

12.1.3用户生成内容 220

12.2处理大数据 220

12.2.1 Boosting算法 221

12.2.2主动学习 221

12.2.3半监督学习 223

12.3 NLP在线和在云端 223

12.3.1分布式计算 223

12.3.2语言资源共享 224

12.3.3语言应用共享 224

结语 225

附录A可利用的语料库与标注规格说明列表 227

附录B软件资源列表 249

附录C MAE用户指南 269

附录D MAI用户指南 276

附录E参考文献 282