《海量数据挖掘技术研究》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:刘君强著
  • 出 版 社:杭州:浙江工商大学出版社
  • 出版年份:2010
  • ISBN:9787811402582
  • 页数:176 页
图书介绍:本书把高性能的海量数据挖掘技术作为研究重点,创新性地提出了伺机挖掘的思想;在数据挖掘的基础算法上取得了新突破;探讨了协同挖掘、基于网格挖掘以及数据挖掘应用系统设计等问题。

第一章 概论 1

第一节 数据挖掘技术的兴起 1

第二节 数据挖掘的主要问题 2

一、数据挖掘任务与知识类型 2

二、数据挖掘的过程 3

三、数据挖掘的对象 4

四、数据挖掘的应用 4

五、数据挖掘面临的挑战 4

第三节 本书的工作 5

第四节 本书的结构 5

第二章 数据挖掘技术综述 7

第一节 频繁模式与关联规则挖掘 7

一、单层单维布尔型关联规则挖掘与Apriori算法 7

二、对Apriori算法的改进 10

三、频繁模式与关联规则挖掘研究的新发展 11

第二节 闭合模式挖掘与A-Close算法 11

一、闭合模式挖掘与A-Close算法 11

二、其他闭合模式挖掘算法 14

第三节 最大模式挖掘与Pincer-Search算法 15

一、最大模式挖掘与Pincer-Search算法 15

二、其他最大模式挖掘算法 17

第四节 多层多维关联规则挖掘 19

一、多层关联规则挖掘问题 19

二、多维关联规则挖掘问题 19

第五节 对关联规则挖掘的其他扩展 20

一、顺序模式挖掘 20

二、基于约束的关联规则挖掘 20

三、并行挖掘问题 20

四、复杂检索问题 21

五、关联规则与相关性 21

六、其他问题 21

第六节 数据挖掘软件系统 21

第七节 保护隐私的数据挖掘技术 23

一、全局概化技术 23

二、全消隐技术 23

三、局部概化技术 24

四、带宽矩阵方法 24

五、其他相关工作 24

第八节 数据挖掘技术的应用 25

一、数据挖掘的应用领域 25

二、企业营销应用数据挖掘技术 27

第三章 伺机投影策略的挖掘算法 29

第一节 引言 29

第二节 问题的描述 30

第三节 频繁模式树的构造 32

第四节 模式支持集的表示与投影 34

一、稀疏型PTS的基于数组表示及其投影 34

二、密集型PTS的基于树表示及虚拟投影 36

第五节 伺机投影策略与OpportuneProject算法 39

一、伺机投影的启发式原则 39

二、估计TVLA和TTF的大小 41

三、OpportuneProject算法 41

第六节 性能评价 43

一、数据集及其特性 43

二、基本实验结果 44

三、可伸缩性试验 47

第七节 小结 48

第四章 闭合模式与最大模式挖掘 49

第一节 引言 49

第二节 问题的描述 51

第三节 复合型频繁模式树及其生成 52

一、复合型频繁模式树CFIST 52

二、CFIST结点的合并 53

三、CFIST的生成算法 53

第四节 CFIST的剪裁与包含关系的检查 54

一、高效的CFIST局部剪裁 54

二、分枝包容关系的快速检查 55

三、快速杂凑法 55

第五节 CROP:挖掘闭合模式的高性能算法 56

一、平衡CFIST生成与剪裁效率 56

二、CROP算法 58

第六节 CROP性能测评 59

一、CROP与CHARM效率对比 59

二、CROP与CLOSET效率对比 61

三、CROP与MAFIA效率对比 61

四、可伸缩性实验 62

第七节 挖掘最大频繁模式的新算法MOP 63

一、最大频繁模式集及其剪裁 63

二、MOP算法 64

三、MOP的性能评价 65

第八节 小结 67

第五章 多维多层关联规则、分类规则与空间关联规则 68

第一节 关联规则与无冗余关联规则 69

第二节 多层频繁模式挖掘 72

一、问题的描述 72

二、逆字典树与多层频繁模式 74

三、层次标记技术与模式支持集 78

四、高性能多层频繁模式挖掘算法 80

五、性能测评 81

第三节 多维多层多数据类型关联规则挖掘 84

一、多维多层多数据类型关联规则挖掘问题 84

二、MDML-PP算法 85

三、性能测评 87

第四节 挖掘多支持率分类规则 88

一、分类规则挖掘与TTF扩展 88

二、多支持率剪裁 90

三、分类规则及其单阶段挖掘算法 91

四、对比实验 92

第五节 空间关联规则的挖掘 94

一、空间关联规则 94

二、两阶段挖掘策略 94

三、基于辅存分而治之的方法 95

第六节 提高挖掘算法可伸缩性的技术 96

一、海量数据挖掘策略 96

二、缓冲管理技术 97

三、挖掘算法改进及其性能分析 98

第七节 小结 100

第六章 智能型数据挖掘工具设计与实现 101

第一节 引言 101

第二节 数据仓库及其管理 102

一、数据仓库模型与OLAP 103

二、数据仓库的框架描述 103

三、数据仓库管理器 104

第三节 数据挖掘任务的描述、管理及执行机制 105

一、数据挖掘作业Job的描述 105

二、挖掘任务模型Scenario的定义 107

三、挖掘任务模型的管理与执行 108

第四节 智能型数据挖掘引擎 109

一、算法描述库与算法模块 109

二、知识库与引擎管理器 111

第五节 SmartMiner体系结构 112

第六节 关键技术与SmartMiner原型实现 113

第七节 小结 117

第七章 网络海量数据协同挖掘 118

第一节 引言 118

第二节 分布式黑板控制 119

一、问题求解的黑板系统 119

二、分布式问题求解与黑板控制 120

第三节 形式化描述语言 120

一、黑板的描述 120

二、知识源的描述 121

三、知识交换格式 122

第四节 实现分布式黑板控制的一般智能代理 122

一、智能代理GA的结构设计 122

二、智能代理软件DBC-MA的实现 124

第五节 分布式数据挖掘系统DistributedMiner 125

一、分布式知识发现功能 126

二、DistributedMiner的黑板设计 126

三、挖掘平台体系结构 127

四、DistributedMiner的实现与应用 128

第六节 从分布计算到移动计算 129

一、什么是智能代理 129

二、智能代理的特征 130

三、移动型智能代理 131

四、典型mobile agent系统 132

第七节 移动式数据挖掘系统模型 135

一、移动型智能代理服务器 135

二、DBC-MA变型 137

三、MobileMiner工作流程 137

第八节 小结 138

第八章 挖掘事务型数据过程中的隐私保护 139

第一节 引言 139

第二节 隐私保护与匿名化模型 142

第三节 集成概化与消隐技术的基本方法 144

一、割集栅格的自顶向下贪婪法搜索 144

二、为割集寻找一个好的消隐方案 145

三、算法描述 146

第四节 解决效率与可伸缩性瓶颈的关键技术 147

一、最小隐私威胁 147

二、多轮次求解策略 148

第五节 信息损失与性能的实验评估 149

一、信息损失评估 150

二、效率评估 152

三、可伸缩性评估 153

第六节 小结 154

参考文献 155

后记 176