目录 1
第1章 网络信息挖掘概论 1
1.1 知识发现的基本概念 2
1.1.1 知识发现的基本定义 2
1.1.2 知识发现的类型 2
1.1.3 网络信息知识发现的特点 3
1.1.4 相关概念的辨析 4
1.2 相关研究的发展 6
1.2.1 知识发现的研究背景 6
1.2.2 知识发现的产生和发展 7
1.2.3 网络信息知识发现的研究现状 8
1.3.1 实际意义 10
1.3 网络信息知识发现的意义 10
1.3.2 理论意义 13
本章小结 15
思考题1 15
本章参考文献 16
第2章 网络信息的挖掘系统 17
2.1 网络信息知识发现系统的基本要求 18
2.2 网络信息知识发现的基本功能 19
2.2.1 知识发现的知识类型 19
2.2.2 网络信息知识发现的主要任务 20
2.3 知识发现的过程 21
2.3.1 知识发现的过程模型 21
2.3.2 知识发现的实现过程 21
2.4.1 数据挖掘的基本方法及其特点 23
2.4 数据挖掘的基本方法 23
2.4.2 网络信息知识发现方法的适用性分析 25
2.5 数据挖掘语言 27
2.5.1 数据挖掘语言的意义 27
2.5.2 数据挖掘语言的设计原则 27
2.5.3 数据挖掘语言的类型 27
2.5.4 基于Web的挖掘语言 28
2.6 网络信息知识发现系统的结构 31
2.6.1 知识发现系统的一般结构 32
2.6.2 基于网络的知识发现系统 34
2.7 网络信息知识发现系统的评价 36
本章小结 37
思考题2 37
本章参考文献 38
第3章 网络信息的集成 41
3.1 网络信息集成的基本问题 42
3.1.1 网络信息的特点 42
3.1.2 网络信息集成的作用 43
3.2 基于虚拟数据库的网络信息集成 45
3.2.1 虚拟数据库的含义 45
3.2.2 虚拟数据库的特征 45
3.2.3 虚拟数据库的体系结构 46
3.2.4 构建网络信息的虚拟数据库 48
3.3 基于XML的网络信息集成 49
3.3.1 XML的数据集成意义 49
3.3.2 利用XML进行异构数据集成 50
3.3.3 XML文档与数据库的数据交换 51
3.4.1 Web数据仓库的特征 52
3.4 基于Web数据仓库的网络信息集成 52
3.4.2 基于Web数据仓库的体系结构 53
3.4.3 多层次的Web数据仓库 54
3.5 基于智能代理的网络信息集成 56
3.5.1 智能代理的特点 56
3.5.2 移动智能代理和多智能代理系统 57
3.5.3 基于多智能代理的网络信息集成 58
3.5.4 智能代理网络信息集成的特点 59
本章小结 59
思考题3 60
本章参考文献 60
第4章 网络信息的结构挖掘 63
4.1.1 超文本的构成 64
4.1 超文本结构的特点 64
4.1.2 超文本链接的基本方式 65
4.1.3 XML链接与HTML链接的比较 66
4.2 Web结构挖掘 67
4.2.1 Web结构挖掘的含义 67
4.2.2 相关研究分析 68
4.2.3 Web链接挖掘研究的意义 69
4.2.4 Web链接机制分析的局限性 70
4.3 网页排序挖掘法 71
4.3.1 PageRank算法 71
4.3.2 HITS算法 72
4.3.3 PageRank和HITS的比较 73
4.4.2 解决迷路问题的主要途径 74
4.4 基于链接挖掘的迷路问题解决方法 74
4.4.1 迷路问题的原因 74
4.5 基于链接挖掘的超文本结构优化 77
4.5.1 网站内链接的结构优化 77
4.5.2 网站外链接的结构优化 78
4.5.3 超文本链接的动态优化 79
本章小结 80
思考题4 80
本章参考文献 81
第5章 网络信息的内容挖掘 83
5.1 半结构化数据的挖掘 84
5.1.1 半结构化数据的特点 84
5.1.2 半结构化数据模型 85
5.2.1 HTML的主要特点 87
5.2 基于HTML的数据挖掘 87
5.2.2 HTML网页内容的抽取 88
5.3 基于XML的数据挖掘 90
5.3.1 XML的主要特点 90
5.3.2 XML在Web数据挖掘中的应用 92
5.4 HTML向XML的转换 93
5.4.1 转换的必要性 93
5.4.2 转换的原理 93
5.4.3 转换的方法 94
5.4.4 转换的工具 94
5.5 非结构化数据的挖掘 95
5.5.1 非结构化数据 95
5.5.2 非结构化数据库的特点及其在信息资源数字化中的应用 96
5.5.3 非结构化数据的挖掘 98
5.6 文本挖掘 99
5.6.1 文本挖掘概述 99
5.6.2 文本挖掘的内容和方法 99
5.6.3 文本挖掘的工具 106
5.7 多媒体数据的挖掘 108
5.7.1 多媒体数据挖掘的特点 108
5.7.2 多媒体数据的特征提取 109
5.7.3 多媒体数据挖掘系统的功能模块 111
5.7.4 多媒体数据挖掘的过程 111
5.7.5 多媒体数据的挖掘方式 112
思考题5 114
本章小结 114
本章参考文献 115
第6章 网络信息的使用记录挖掘 117
6.1 使用记录挖掘的特点 118
6.2 使用记录挖掘的作用 118
6.3 使用记录挖掘的方式 120
6.4 使用记录挖掘的数据源 121
6.4.1 Web服务器日志 121
6.4.2 注册信息 123
6.4.3 曲奇(Cookie)数据记录 123
6.5 使用记录挖掘的过程 124
6.5.1 数据预处理阶段 124
6.5.2 模式识别阶段 125
6.6.1 相关研究分析 126
6.6 使用记录挖掘的方法 126
6.5.3 模式的分析 126
6.6.2 序列模式挖掘法 127
6.6.3 文本挖掘法 128
6.6.4 概率分布分析法 128
6.6.5 关联规则分析法 129
6.6.6 聚类算法 130
本章小结 132
思考题6 132
本章参考文献 133
第7章 网络信息的挖掘策略 135
7.1 元数据的挖掘 136
7.1.1 元数据的基本问题 136
7.1.2 元数据的挖掘意义 140
7.2.2 引文数据挖掘的数据源 141
7.2 引文数据库的挖掘 141
7.2.1 引文分析的特点 141
7.2.3 引文数据的挖掘策略 145
7.2.4 引文数据挖掘应注意的问题 148
7.3 网络电子出版物的挖掘 149
7.3.1 网络电子出版物的类型 149
7.3.2 网络电子出版物的特点 149
7.3.3 网络电子出版物的挖掘策略 151
7.4 数字图书馆的挖掘 151
7.4.1 数字图书馆的特点 151
7.4.2 数字图书馆知识发现的内容 153
7.4.3 数字图书馆的挖掘的特点 155
思考题7 156
本章小结 156
本章参考文献 157
第8章 网络信息挖掘的应用 159
8.1 网络信息挖掘在电子商务中的应用 160
8.1.1 网络信息挖掘在电子商务中应用的必要性 160
8.1.2 网络信息挖掘在电子商务中的主要应用 162
8.1.3 电子商务中网络信息挖掘的主要方式 164
8.1.4 实例:网络信息挖掘在网上书店的应用[3] 167
8.2 网络信息挖掘在网络广告分析中的应用 170
8.2.1 网络广告的优势 171
8.2.2 网络广告的分类 172
8.2.3 网络广告的发展趋势 174
8.2.4 网络信息挖掘在网络广告中的作用 175
8.2.5 网络广告传播效果的挖掘分析 176
8.3 网络信息挖掘在客户关系管理的应用 177
8.3.1 客户关系管理的含义与意义 177
8.3.2 网络数据挖掘在客户关系管理中的应用 178
8.3.3 客户档案的数据挖掘方法 183
8.4 网络信息挖掘在电子政务中的应用 185
8.4.1 电子政务概述 185
8.4.2 电子政务信息管理与开发利用的意义 186
8.4.3 网络信息挖掘在电子政务中的应用 186
8.4.4 民意信息的挖掘分析 188
8.4.5 政府公共服务信息的挖掘分析 189
8.5 网络信息挖掘在网络信息管理中的应用 189
8.5.1 在电子邮件管理中的应用 189
8.5.2 在BBS管理中的应用 191
8.5.3 在搜索引擎中的应用 192
8.5.4 在网络知识检索与管理中的应用 193
8.5.5 在网络入侵检测中的应用 195
8.5.6 在网络个性化服务中的运用 198
8.6 网络信息挖掘在竞争情报工作中的应用 200
8.6.1 网络信息挖掘在竞争情报工作中的作用 200
8.6.2 网络竞争情报信息的特点 201
8.6.3 网络信息挖掘在竞争情报搜集和处理中的应用 202
8.6.4 竞争信息管理系统实现策略 203
8.6.5 竞争情报软件 204
8.6.6 实例:TRS网络信息雷达系统 206
8.6.7 基于网络专利信息的竞争情报挖掘分析 209
本章小结 211
思考题8 212
本章参考文献 213
第9章 网络信息挖掘的研究方向 215
9.1 网络信息挖掘存在的问题 216
9.2 知识发现的发展趋势 218
9.3 网络信息挖掘的研究方向 221
9.4 关于我国网络信息知识发现问题的思考 224
9.4.1 我国网络信息资源建设的现状 224
9.4.2 对我国网络信息知识发现问题的思考 225
本章小结 226
思考题9 227
本章参考文献 227
参考文献 228