《XML挖掘 聚类、分类与信息提取》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:潘有能编
  • 出 版 社:杭州:浙江大学出版社
  • 出版年份:2012
  • ISBN:9787308102544
  • 页数:152 页
图书介绍:XML自发布之日起就以其良好的可扩展性受到业界的普遍欢迎和支持,逐渐成为Web上的通用语言,在数据交换、Web服务、内容管理、Web集成等方面得到了重要应用。随着XML应用的日益广泛,XML文档的内容和XML文档之间的关系结构也日趋复杂。数据挖掘是当前信息科学的研究热点之一,用于从数据库、数据仓库或其他信息库的大量数据中提取有用信息。将聚类、分类与信息提取等数据挖掘技术应用于XML中有利于网络信息资源的搜集、整理及检索,为基于XML的数据交换和电子商务提供支持。国内目前尚无XML挖掘方面的图书,而只有数据挖掘或是XML技术方面的相关书籍,且均为当前计算机科学、信息科学领域的热点。本书将聚类、分类与信息提取等数据挖掘技术应用到Web 2.0及下一代互联网的基础技术—XML中,但可以增强网络中XML文档的组织性,从而为网络信息资源的搜集、整理及检索利用提供良好的技术支持,还可以在海量网络信息中发现XML文档间隐含的知识,确定XML文档内部标记的真实语义信息,为本体论和语义网的发展奠定坚实基础。

第1章XML与数据挖掘概述 1

1.1 XML 1

1.1.1 XML的发展与特点 1

1.1.2 XML文档的结构 4

1.1.3 DTD和Schema 6

1.1.4 Namespace 7

1.1.5 CSS、XSL与XPath 8

1.1.6 XLink、XPointer和XBase 9

1.1.7应用程序接口DOM与SAX 10

1.2数据挖掘概述 11

1.2.1数据挖掘对象 11

1.2.2数据挖掘功能 12

1.2.3数据挖掘方法 13

第2章XML数据预处理 16

2.1 XML文档解析 16

2.2 XML文档标记语义消歧 19

2.2.1 WordNet简介 20

2.2.2基于WordNet的XML文档标记语义消歧 22

第3章XML聚类 26

3.1 XML聚类概述 26

3.1.1基于划分的聚类算法 26

3.1.2层次聚类算法 28

3.1.3基于遗传算法的聚类算法 32

3.1.4聚类质量的评价 34

3.2 XML文档相似度计算 35

3.2.1传统XMLL文档相似度计算方法 36

3.2.2 XML文档标记语义相似度计算 41

3.2.3基于语义的XML文档相似度计算 47

3.3 XML文档聚类 49

3.3.1相似度矩阵 50

3.3.2最近邻聚类算法 51

3.3.3聚类实验结果与分析 52

第4章XML分类 54

4.1相关定义 54

4.2权重计算 56

4.2.1层次权重的计算 56

4.2.2结构权重的计算 56

4.2.3相关参数的设置 59

4.3相似性计算 59

4.4 XML文档分类 61

第5章XML文档间结构挖掘 62

5.1 XML链接 62

5.1.1 XML链接和HTML链接的比较 62

5.1.2 XML简单链接 63

5.1.3 XML扩展链接 64

5.2 Web结构挖掘算法 65

5.2.1 PageRank算法 65

5.2.2 HITS算法 66

5.3基于XML链接的文档间结构挖掘 68

第6章XML查询与信息提取 70

6.1 XML查询语言 70

6.1.1 XML查询语言简介 70

6.1.2 XQuery的数据模型 72

6.1.3 XQuery语言 74

6.1.4 XML查询语言的进一步发展 78

6.2特征提取 79

6.2.1名字特征提取 79

6.2.2数字特征的提取与转换 79

6.2.3 XML文档中的特征提取 80

6.3主题提取 80

6.3.1关键词提取 80

6.3.2主题概念的提取 82

6.3.3主题句的提取 82

6.3.4 XML文档的主题提取 83

6.4自动摘要 83

6.4.1自动摘录 83

6.4.2基于理解的自动摘要 85

6.4.3信息抽取 85

6.4.4基于结构的自动摘要 86

6.4.5 XML文档的自动摘要 87

第7章 基于XML的数据挖掘建模和知识表示 89

7.1基于XML的数据挖掘建模 89

7.1.1 PMML概述 90

7.1.2 PMML的结构 92

7.1.3 PMML在数据挖掘系统中的实际应用 96

7.2基于XML的知识表示 99

7.2.1元数据 99

7.2.2资源描述框架 101

7.2.3资源描述框架模式 103

7.2.4知识表示方法的XML描述 104

第8章 基于XML的Web使用挖掘 110

8.1基于XML的Web使用挖掘体系结构 110

8.2 XGMML 111

8.3 LOGML文档的结构 113

8.3.1 LOGML中的日志基本信息 113

8.3.2 LOGML中的日志统计信息 114

8.3.3 LOGML中的用户会话信息 115

8.4 LOGML文档的生成 116

8.5基于LOGML的数据挖掘 118

8.5.1频繁集发现 118

8.5.2 LOGML频繁结构的挖掘 120

附录一:基于语义的XML文档相似度计算源程序 123

附录二:XML文档聚类算法源程序 133

参考文献 136