第1章XML与数据挖掘概述 1
1.1 XML 1
1.1.1 XML的发展与特点 1
1.1.2 XML文档的结构 4
1.1.3 DTD和Schema 6
1.1.4 Namespace 7
1.1.5 CSS、XSL与XPath 8
1.1.6 XLink、XPointer和XBase 9
1.1.7应用程序接口DOM与SAX 10
1.2数据挖掘概述 11
1.2.1数据挖掘对象 11
1.2.2数据挖掘功能 12
1.2.3数据挖掘方法 13
第2章XML数据预处理 16
2.1 XML文档解析 16
2.2 XML文档标记语义消歧 19
2.2.1 WordNet简介 20
2.2.2基于WordNet的XML文档标记语义消歧 22
第3章XML聚类 26
3.1 XML聚类概述 26
3.1.1基于划分的聚类算法 26
3.1.2层次聚类算法 28
3.1.3基于遗传算法的聚类算法 32
3.1.4聚类质量的评价 34
3.2 XML文档相似度计算 35
3.2.1传统XMLL文档相似度计算方法 36
3.2.2 XML文档标记语义相似度计算 41
3.2.3基于语义的XML文档相似度计算 47
3.3 XML文档聚类 49
3.3.1相似度矩阵 50
3.3.2最近邻聚类算法 51
3.3.3聚类实验结果与分析 52
第4章XML分类 54
4.1相关定义 54
4.2权重计算 56
4.2.1层次权重的计算 56
4.2.2结构权重的计算 56
4.2.3相关参数的设置 59
4.3相似性计算 59
4.4 XML文档分类 61
第5章XML文档间结构挖掘 62
5.1 XML链接 62
5.1.1 XML链接和HTML链接的比较 62
5.1.2 XML简单链接 63
5.1.3 XML扩展链接 64
5.2 Web结构挖掘算法 65
5.2.1 PageRank算法 65
5.2.2 HITS算法 66
5.3基于XML链接的文档间结构挖掘 68
第6章XML查询与信息提取 70
6.1 XML查询语言 70
6.1.1 XML查询语言简介 70
6.1.2 XQuery的数据模型 72
6.1.3 XQuery语言 74
6.1.4 XML查询语言的进一步发展 78
6.2特征提取 79
6.2.1名字特征提取 79
6.2.2数字特征的提取与转换 79
6.2.3 XML文档中的特征提取 80
6.3主题提取 80
6.3.1关键词提取 80
6.3.2主题概念的提取 82
6.3.3主题句的提取 82
6.3.4 XML文档的主题提取 83
6.4自动摘要 83
6.4.1自动摘录 83
6.4.2基于理解的自动摘要 85
6.4.3信息抽取 85
6.4.4基于结构的自动摘要 86
6.4.5 XML文档的自动摘要 87
第7章 基于XML的数据挖掘建模和知识表示 89
7.1基于XML的数据挖掘建模 89
7.1.1 PMML概述 90
7.1.2 PMML的结构 92
7.1.3 PMML在数据挖掘系统中的实际应用 96
7.2基于XML的知识表示 99
7.2.1元数据 99
7.2.2资源描述框架 101
7.2.3资源描述框架模式 103
7.2.4知识表示方法的XML描述 104
第8章 基于XML的Web使用挖掘 110
8.1基于XML的Web使用挖掘体系结构 110
8.2 XGMML 111
8.3 LOGML文档的结构 113
8.3.1 LOGML中的日志基本信息 113
8.3.2 LOGML中的日志统计信息 114
8.3.3 LOGML中的用户会话信息 115
8.4 LOGML文档的生成 116
8.5基于LOGML的数据挖掘 118
8.5.1频繁集发现 118
8.5.2 LOGML频繁结构的挖掘 120
附录一:基于语义的XML文档相似度计算源程序 123
附录二:XML文档聚类算法源程序 133
参考文献 136