《文本挖掘原理》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:程显毅,朱倩著
  • 出 版 社:北京:科学出版社
  • 出版年份:2010
  • ISBN:9787030293060
  • 页数:216 页
图书介绍:在信息时代存储大量数据是容易的,通过Web、企业内部网、电传新闻获得的文本数量在急剧增加,因而导致了信息过载。然而,数据量虽然增加了,但可用的信息在减少。文本挖掘是一个新的令人振奋的研究领域,它试图通过综合数据挖掘、机器学习、自然语言处理、信息检索和知识管理等技术来解决信息过载问题。文本挖掘包括文本集合的预处理(文本分类、信息抽取),中间结果存储,中间结果分析技术(分布分析,聚类,趋势分析,关联规则抽取)和最终结果的可视化。它与关联分析类似,为人们提供了分析海量文本数据的新工具,并且通过学习模式来指导抽取、发现和实体关系。本书首先讨论了文本挖掘的总体结构,文本挖掘预处理算法。其次,比较深入地研究了文本挖掘核心操作,最后,探讨真实世界中文本挖掘的主要应用和DIAL语言,弥补了理论和实践的脱节。

第1章 文本挖掘概述 1

1.1 文本挖掘的产生背景 1

1.2 文本 2

1.2.1 文本格式 2

1.2.2 动态文本集 3

1.3 文本挖掘的概念 3

1.4 文本挖掘的任务 4

1.4.1 文本挖掘预处理 4

1.4.2 文本模式挖掘 4

1.4.3 挖掘结果可视化 5

1.5 文本挖掘系统的通用体系结构 6

第2章 文本表示 9

2.1 向量空间模型 9

2.1.1 权值计算 9

2.1.2 向量相似度度量 11

2.2 概率模型 11

2.3 概念模型 12

2.3.1 概念 12

2.3.2 概念词典 12

2.3.3 概念距离 13

2.3.4 概念相似度 13

2.3.5 基于概念的文本表示模型的构建 14

2.3.6 计算概念特征权值 14

2.4 特征生成 14

2.4.1 常用的文本特征 15

2.4.2 各种特征比较 16

2.4.3 特征维数 17

2.4.4 领域知识和背景知识 17

2.5 特征选择 18

2.6 特征抽取 18

2.6.1 潜在语义分析 19

2.6.2 同义项合并 20

第3章 文本挖掘预处理——文本分类 21

3.1 文本分类的种类 21

3.1.1 单标签分类与多标签分类 21

3.1.2 文本主元与类别主元分类 21

3.1.3 硬分类和软分类 22

3.2 文本分类的应用 22

3.2.1 文本索引 22

3.2.2 文本过滤 23

3.2.3 网页分类 23

3.3 文本分类的知识工程方法 23

3.4 文本分类的机器学习方法 24

3.4.1 概率分类器 24

3.4.2 贝叶斯回归分析 25

3.4.3 决策树分类器 26

3.4.4 决策规则分类器 27

3.4.5 Rocchio分类器 27

3.4.6 神经网络分类器 27

3.4.7 支持向量机 28

3.4.8 分类器融合 28

3.4.9 Boosting分类器 29

3.5 Bootstrapping算法 29

3.5.1 AutoSlog-TS系统 29

3.5.2 交互式Bootstrapping算法 31

3.5.3 Metabootstrapping算法 32

3.5.4 基于句法启发式的Bootstrapping算法 33

3.5.5 Basilisk算法 34

3.5.6 基于术语类别的Bootstrapping算法 36

3.6 文本分类器的评价 36

3.6.1 性能度量 37

3.6.2 标准数据集 37

3.6.3 分类器比较 37

第4章 文本挖掘预处理——文本聚类 39

4.1 聚类的任务 39

4.1.1 检索召回率的改进 39

4.1.2 检索正确率的改进 39

4.1.3 分割/聚合 40

4.1.4 特殊查询的聚类 40

4.2 聚类的基本问题 40

4.2.1 问题描述 40

4.2.2 相似度量 41

4.3 聚类算法 41

4.3.1 K均值算法 42

4.3.2 基于EM的概率模糊聚类算法 42

4.3.3 层次聚类法 43

4.3.4 其他聚类算法 43

4.4 文本聚类 44

4.4.1 文本聚类描述 44

4.4.2 文本聚类中的特征选择 44

4.4.3 文本聚类测试 45

第5章 文本挖掘核心操作——信息抽取 46

5.1 信息抽取简介 46

5.2 信息抽取任务 48

5.2.1 命名实体识别 48

5.2.2 模板元素 49

5.2.3 模板关系 50

5.2.4 背景模板 50

5.2.5 共指任务 50

5.3 信息抽取实例 51

5.3.1 事件框架抽取 51

5.3.2 小情报类型的信息抽取 52

5.3.3 信息抽取过程 54

5.4 信息抽取系统的体系结构 55

5.5 指代消解 59

5.5.1 回指和共指 59

5.5.2 代词消解方法 61

5.6 规则学习 63

5.6.1 WHISK 63

5.6.2 BWI 64

5.6.3 (LP)2算法 65

5.6.4 实验评价 65

5.7 视觉信息抽取 66

5.7.1 视觉信息的概念 66

5.7.2 视觉信息抽取任务 66

5.7.3 视觉元素感知 67

5.7.4 基于O-型树的视觉信息相似计算 68

5.7.5 基于模板的视觉信息相似计算 71

5.7.6 实验结果 71

第6章 文本挖掘核心操作——关系抽取 74

6.1 实体关系抽取 74

6.1.1 实体关系 74

6.1.2 实体关系抽取方法 74

6.1.3 实体关系标注 76

6.1.4 实体关系特征信息 77

6.2 Web中的实体关系发现 78

6.2.1 先确定关系模式的方法 78

6.2.2 后确定关系模式的方法 83

6.3 实体关系发现的难点 84

6.3.1 实体关系对的确定 84

6.3.2 实体关系描述文本的筛选与扩展 84

6.3.3 实体关系对的验证 85

6.3.4 实体关系体系的发现 85

6.4 基于社会网络的实体关系发现 86

6.4.1 社会网络概念 86

6.4.2 社会网络构建 86

6.4.3 实体关系发现 87

6.5 实体包含关系的抽取 89

6.5.1 特征选择 89

6.5.2 实验结果及分析 92

6.6 基于全信息的隐含的多实体关系抽取 94

6.6.1 全信息的自然语言理解方法 94

6.6.2 语法知识的自动抽取 96

6.6.3 语义知识的自动抽取 99

6.6.4 语用知识的自动抽取 99

6.6.5 基于全信息的实体关系分析方法 100

6.7 基于核函数的实体关系抽取 102

6.7.1 相关工作 102

6.7.2 引入先验知识的核函数 103

6.7.3 Convolution核函数 104

6.7.4 基于语义核函数的KNN机器学习算法 106

6.8 基于混合概率模型的实体关系抽取系统——TEG 110

6.8.1 混合模型概述 110

6.8.2 TEG文法说明 111

6.8.3 TEG训练 112

6.8.4 额外特征 114

6.8.5 规则抽取实例 115

6.8.6 TEG实验评估 117

第7章 文本挖掘核心操作——关联分析 120

7.1 实例——“9.11”劫机者 120

7.2 网络的自动布局算法 121

7.2.1 Kamada和Kawai(KK)方法 121

7.2.2 Fruchterman-Reingold(FR)方法 122

7.3 实体之间的关联路径 123

7.4 中心性 124

7.4.1 顶点中心性 124

7.4.2 网络中心性 131

7.4.3 概要图 131

7.5 网络的分割 132

7.5.1 基于核的分割算法 133

7.5.2 经典图分隔算法 134

7.5.3 基于实体之间等价的分割算法 135

7.5.4 基于实体之间等价的分割算法 138

7.6 网络中的模式匹配 144

7.7 关联分析软件包 145

7.7.1 Pajek 145

7.7.2 UCINET 145

7.7.3 NetMiner 145

第8章 文本挖掘结果的可视化 146

8.1 浏览器 146

8.1.1 概念分布的显示和浏览 148

8.1.2 关联的显示和搜索 149

8.1.3 利用概念分层方法进行的导航和搜索 150

8.2 表示层 151

8.2.1 表示层编辑器 151

8.2.2 表示层的访问约束和简单的过滤规范 152

8.3 文本知识发现语言KDTL 153

8.3.1 KDTL概述 154

8.3.2 KDTL查询实例 155

8.3.3 KDTL查询界面实现 156

8.4 可视化方法 158

8.4.1 可视化组件在文本挖掘系统中的位置 158

8.4.2 文本挖掘的通用可视化方法 159

第9章 文本挖掘的应用 172

9.1 行业分析器 172

9.1.1 基本架构和功能 173

9.1.2 应用背景 179

9.2 专利分析解决方案 184

9.2.1 基础构架和功能 185

9.2.2 应用背景 190

9.3 生物学路径信息挖掘 192

9.3.1 基本架构和功能 193

9.3.2 应用背景 195

第10章 专门用于文本挖掘的信息抽取语言——DIAL 199

10.1 文本模式定义 199

10.2 基于DIAL的信息抽取 200

10.3 文本标注 201

10.4 概念和规则结构 202

10.5 模式匹配 204

10.6 模板元素 205

10.6.1 字符串常量 205

10.6.2 字词类名称 205

10.6.3 同义词名称 206

10.6.4 概念名称 206

10.6.5 字符级规则表达式 207

10.6.6 字符类 207

10.6.7 视觉属性 208

10.6.8 词例模式元素 208

10.7 规则约束和概念保护 208

10.7.1 规则约束 208

10.7.2 概念保护 209

10.8 DIAL实例 210

10.8.1 基于标题/职位的人名抽取 210

10.8.2 基于前驱动词的抽取人名列表 211

10.8.3 同义词抽取位置名称 211

10.8.4 创建本地人名词典 212

10.8.5 一个简化的解决人称代词的指代消解规则 212

10.8.6 家庭关系抽取 213

参考文献 215