中文信息抽取原理与应用PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:程显毅,朱倩,王进编著
- 出 版 社:北京:科学出版社
- 出版年份:2010
- ISBN:9787030266231
- 页数:304 页
原理篇 3
第1章 绪论 3
1.1 信息抽取产生的背景 3
1.2 信息抽取概念 4
1.3 信息抽取任务 5
1.4 信息抽取和相关概念之间的关系 6
1.5 信息抽取的意义 10
1.6 信息抽取的研究现状 12
1.6.1 国外研究现状 12
1.6.2 国内研究现状 14
1.7 存在的问题及解决策略 15
1.8 信息抽取的挑战和趋势 16
第2章 信息抽取评估 19
2.1 信息抽取评估一般原则 19
2.2 国际测评会议 20
2.2.1 MUC测评会议 21
2.2.2 ACE测评会议 21
2.2.3 MET测评会议 26
2.2.4 DUC测评会议 27
第3章 信息抽取原理 28
3.1 信息抽取系统体系结构 28
3.2 信息抽取方法分类 30
3.3 文本表示 31
3.3.1 向量空间模型 31
3.3.2 N-gram模型 33
3.3.3 类短语串模型 33
3.3.4 概念模型 37
3.3.5 事件模型 39
3.3.6 图模型 40
3.4 词法分析 41
3.4.1 自动分词 41
3.4.2 词性标注 44
3.5 语义标注及其角色 45
3.5.1 语义标注 45
3.5.2 语义角色精细等级 47
3.5.3 框架网及其语义角色 49
3.5.4 命题库及其语义角色 52
3.5.5 中文网库及其语义角色 56
3.5.6 问句问点的语义角色 60
3.5.7 语义标注方法及步骤 61
3.6 语料库建设 62
3.6.1 语料库在信息抽取研究中的地位 63
3.6.2 大型现代汉语语料库简介 64
3.6.3 语料库系统 66
3.6.4 语料库标注 70
第4章 基于NLP的信息抽取 71
4.1 经典系统 71
4.2 相关技术 72
第5章 基于规则的信息抽取 77
5.1 原理 77
5.2 规则的建立 80
5.3 规则抽取系统 84
5.4 自由文本规则抽取系统讨论 89
5.5 规则抽取系统比较 91
5.6 规则抽取的困难 92
第6章 基于统计模型的信息抽取 94
6.1 原理 94
6.2 N元模型 94
6.2.1 基本思想 94
6.2.2 数据平滑方法 95
6.3 基于隐马尔可夫模型的信息抽取 96
6.3.1 马尔可夫模型 96
6.3.2 隐马尔可夫模型 97
6.3.3 隐马尔可夫模型的三个基本问题 98
6.3.4 基于隐马尔可夫模型的信息抽取 102
6.4 最大熵模型 104
6.4.1 形式化描述 104
6.4.2 模型求解 105
6.5 条件随机场模型 106
6.5.1 形式化描述 106
6.5.2 参数估计 107
6.5.3 特征选择 108
6.6 支持向量机模型 109
6.6.1 线性SVM 110
6.6.2 线性SVM构造 111
6.6.3 非线性SVM 112
6.6.4 非线性SVM构造 113
6.6.5 SVM学习算法 113
6.7 统计模型的局限性 114
第7章 基于认知模型的信息抽取 116
7.1 原理 116
7.2 基于本体的信息抽取 116
7.2.1 本体的概念 116
7.2.2 本体建模 117
7.2.3 本体描述 119
7.2.4 基于本体的信息抽取逻辑结构 121
7.2.5 应用实例 123
7.3 基于知网的信息抽取 126
7.3.1 引言 126
7.3.2 义原 128
7.3.3 概念表示 130
7.3.4 基于知网的中文信息结构抽取研究 132
7.4 基于HNC理论的信息抽取 135
7.4.1 HNC理论的研究目标和研究内容 135
7.4.2 HNC理论的语言概念空间 138
7.4.3 HNC理论的概念表述模式 141
7.4.4 HNC理论的语句表述模式 143
7.4.5 语句相似度计算 145
7.4.6 基于NC的语境框架抽取 146
7.5 基于混合模型的信息抽取 150
第8章 中文命名实体识别 151
8.1 命名实体 151
8.2 中文人名识别 152
8.2.1 中文姓名用字特点 152
8.2.2 中文姓名前后文规律 153
8.2.3 基于规则的识别模型 153
8.2.4 基于统计的识别模型 154
8.3 中文地名识别 157
8.3.1 地名识别知识库的建造 157
8.3.2 地名识别规则库建造 162
8.3.3 地名识别推理机制 163
8.3.4 地名自动识别系统的实现 164
8.3.5 示例和实验结果 168
8.4 中文机构名识别 169
8.4.1 机构名特点 169
8.4.2 模型概述 170
8.4.3 标注体系 171
8.4.4 后界判断 172
8.4.5 前部标注 175
8.4.6 机构名识别过程 180
8.5 数量结构识别 181
8.5.1 数量结构的类型及自动识别的意义 181
8.5.2 程序的算法设计及总流程 182
第9章 共指消解 185
9.1 指代的解析 185
9.2 歧义问题 186
9.3 测评标准 187
9.4 相关技术 188
9.4.1 国外的相关技术 188
9.4.2 国内的相关技术 191
9.5 中文的共指消解 193
第10章 信息抽取模板 195
10.1 模板的定义和结构 195
10.2 信息结构抽取 195
10.3 事件探测 196
10.4 模板生成 196
10.4.1 模板元素(TE)的构建 197
10.4.2 模板关系(TR)的构建 198
10.4.3 场景模板(ST)的产生 200
10.5 模板填充 201
第11章 Web信息抽取 203
11.1 概述 203
11.2 语义Web 203
11.2.1 基本概念 203
11.2.2 本体描述语言 205
11.3 格式转换 206
11.4 信息解析 206
11.5 基于DOM子树的抽取规则抽取算法 207
11.5.1 DOM 207
11.5.2 XPath 208
11.5.3 XSLT 210
11.5.4 NE-DOM分析 210
11.5.5 基于DOM子树的抽取规则抽取算法 212
应用篇 219
第12章 信息抽取工具GATE 219
12.1 概述 219
12.1.1 GATE的组件 219
12.1.2 GATE的作用 221
12.1.3 GATE的应用 221
12.1.4 GATE系统的整体架构 225
12.2 英文信息抽取 226
12.2.1 信息抽取插件ANNIE 226
12.2.2 抽取规则插件JAPE 226
12.2.3 GATE中的标注集的数据结构分析 228
12.2.4 批量的英文信息抽取 229
12.3 中文信息抽取 230
12.3.1 中文信息抽取的困难 230
12.3.2 基于GATE的中文信息抽取系统的解决思路 231
12.4 GATE组件扩展 233
第13章 信息抽取工具WHISK 235
13.1 WHISK的规则表示 235
13.1.1 结构化和半结构化文本的规则 235
13.1.2 语法文本的扩展规则 236
13.2 WHISK算法 238
13.2.1 人工标记训练样本 238
13.2.2 从种子例子中创建一条规则 239
13.2.3 槽的抽取 240
13.2.4 增加术语到建议的规则上 242
13.2.5 爬山和地平线效应 243
13.2.6 预删除和后删除的规则 243
13.3 训练集合构造 244
13.3.1 选择样本 244
13.3.2 何时停止标注 245
13.4 实验分析 245
13.4.1 问题描述 245
13.4.2 方法和指标 247
13.4.3 实验及分析 247
13.5 关于WIHSK的讨论 252
第14章 IE在自然语言查询接口中的应用 254
14.1 自然语言查询接口的背景 254
14.2 自然语言查询接口的逻辑结构 254
14.3 信息抽取模型 257
14.4 信息抽取算法 258
第15章 IE在国民经济中的应用 260
15.1 面向电子交易的信息抽取模型 260
15.1.1 总体框架 260
15.1.2 基于DOM树的抽取规则 262
15.2 城市道路交通的信息抽取 265
15.2.1 城市道路交通信息抽取的技术内涵 265
15.2.2 城市道路交通信息抽取技术框架 267
15.3 IE在竞争情报研究中的应用 268
第16章 基于自然语言处理的研究主题抽取 271
16.1 问题描述 271
16.2 研究主题抽取 273
16.3 多语环境下的关键词语抽取 274
16.4 研究主题聚类 276
16.5 研究主题分析的实验结果 278
第17章 IE在自动文摘中的应用 285
17.1 问题描述 285
17.2 单文档自动文摘 285
17.2.1 自动文摘过程 285
17.2.2 自动文摘方法 286
17.3 多文档自动文摘 288
17.4 自动文摘系统的测评 291
第18章 IE在问答系统中的应用 294
18.1 概述 294
18.1.1 研究背景 294
18.1.2 问答系统分类 295
18.1.3 研究现状 295
18.2 问答系统关键问题研究 297
18.2.1 问题分析 297
18.2.2 问题理解 297
18.2.3 信息检索 299
18.2.4 答案抽取 299
参考文献 303
结束语 304
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《管理信息系统习题集》郭晓军 2016
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019