智能信息处理 汉语语料库加工技术及应用PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:郑家恒等著
- 出 版 社:北京:科学出版社
- 出版年份:2010
- ISBN:9787030291356
- 页数:318 页
第1章 绪论 1
1.1 语料库的定义和作用 1
1.1.1 什么是语料库 1
1.1.2 语料库的作用 2
1.2 语料库的建立 3
1.2.1 什么是语料库标注 4
1.2.2 语料库标注的原则 5
1.2.3 建立语料库需要考虑的几个问题 6
1.2.4 语料库标注和建立的方法 10
1.2.5 语料库的质量检验 15
1.3 本书的编排 16
参考文献 17
第2章 自动分词 20
2.1 自动分词概述 20
2.1.1 自动分词的意义 20
2.1.2 自动分词的主要难点 21
2.1.3 自动分词方法简介 23
2.1.4 自动分词评测 26
2.2 分词规范 27
2.2.1 制定分词规范的目的和意义 27
2.2.2 几种典型的分词规范介绍 28
2.3 歧义字段的切分技术 31
2.3.1 歧义字段现象分析 31
2.3.2 基于统计的歧义字段排歧 33
2.4 未登录词识别 40
2.4.1 专有名词识别 41
2.4.2 新词语识别 66
2.5 缩略语识别 73
2.5.1 缩略语特征分析 75
2.5.2 缩略语资源库的建立 78
2.5.3 缩略语识别模型 79
2.5.4 缩略语的还原 82
2.6 分词一致性检验 86
2.6.1 分词不一致性现象分析 87
2.6.2 基于规则的分词一致性检验方法 90
2.6.3 基于统计的分词一致性检验方法 95
2.6.4 分词一致性检验系统 99
参考文献 102
第3章 词性标注 105
3.1 词性标注概述 106
3.1.1 词性标注的意义 106
3.1.2 词性标注的难点 107
3.1.3 词性标注方法简介 109
3.1.4 常用语料库 120
3.2 词性标注规范 122
3.2.1 制定词性标注规范的目的和意义 122
3.2.2 几种典型的词性标注规范介绍 123
3.3 兼类词的标注 130
3.3.1 什么是兼类词 130
3.3.2 典型的兼类词标注方法 133
3.4 词性标注一致性检验 139
3.4.1 问题描述和分析 139
3.4.2 一致性检验模型的建立 140
3.4.3 实验结果和分析 145
3.4.4 方法评价 145
3.5 词性标注自动校对 146
3.5.1 基于分类的词性标注自动校对 146
3.5.2 基于决策表的词性标注自动校对 148
参考文献 152
第4章 句法分析 155
4.1 完全句法分析 155
4.1.1 完全句法分析概述 155
4.1.2 形式语法体系 156
4.1.3 树库资源的建设 162
4.1.4 汉语句法分析的特点 167
4.1.5 句法分析方法 169
4.1.6 相关会议及评测 178
4.1.7 句法分析模型的评价方法 178
4.2 浅层句法分析 180
4.2.1 浅层句法分析概述 180
4.2.2 组块库的获取 181
4.2.3 组块的类型及其标注规范 185
4.2.4 组块分析方法 191
4.2.5 相关会议及评测 196
4.2.6 评价参数 197
4.3 句法树库的一致性检验 197
4.3.1 不一致现象分析 198
4.3.2 不一致的发现和消解 201
参考文献 203
第5章 语义标注语料库 206
5.1 语义标注范围 206
5.1.1 词义标注 206
5.1.2 句义标注 207
5.1.3 篇章级的语义标注 209
5.2 语义标注语料库的建立方法 209
5.2.1 传统的以人工标注为主的方法 209
5.2.2 自动构建语义标注语料库 210
5.3 主要的语义标注语料库 212
5.3.1 词义标注语料库 212
5.3.2 句义标注语料库 215
5.3.3 语篇关系标注语料库 216
5.3.4 时间关系标注语料库 218
5.3.5 信息抽取方面的语料库 223
5.3.6 生物医药领域中的语义标注语料库 224
参考文献 225
第6章 语料库评测 229
6.1 语料库评测的意义 229
6.2 语料库分词质量评价 230
6.2.1 评价样本的抽样 230
6.2.2 抽样样本的聚类及评价 231
6.2.3 实验及分析 239
6.3 语料库可用性评价 242
6.3.1 可用性评价体系 243
6.3.2 可用性评价计算 247
6.3.3 评价结果分析 250
参考文献 251
第7章 基于语料库的应用研究 253
7.1 网页信息处理 253
7.1.1 重复网页分析 253
7.1.2 基于语义的网页去重 255
7.1.3 基于网页文本结构的网页去重 260
7.2 特殊领域的信息抽取 265
7.2.1 基于HMM的农业信息抽取 266
7.2.2 基于NLP的土壤污染数据抽取 270
7.2.3 基于Bootstrapping的交通工具名识别 275
7.3 基于大规模语料库的汉语韵律边界研究 279
7.3.1 基于统计语言模型建立二叉树结构 282
7.3.2 基于树结构的汉语韵律边界预测 292
7.4 基于大规模语料库的欺骗行为检测 296
7.4.1 欺骗性语料库的建设 297
7.4.2 欺骗检测的特征线索 300
7.4.3 文本特征抽取 306
7.4.4 欺骗行为检测方法 312
7.4.5 实验结果和分析 314
参考文献 316
- 《激光加工实训技能指导理实一体化教程 下》王秀军,徐永红主编;刘波,刘克生副主编 2017
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《先进激光加工技能实训》肖海兵主编 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《智能时代的教育智慧》魏忠著 2019
- 《菜籽油加工技术》罗质主编 2019
- 《蔬菜腌制加工技术》闫广金著 2019
- 《烧结法处理非常规含铁资源研究》王哲著 2018
- 《高分子材料与加工实验教程》刘昕责任编辑;(中国)胡扬剑,舒友,罗琼林 2019
- 《无机元素原子光谱分析样品预处理技术》吴瑶庆 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019