高性能数据挖掘 快速项集挖掘算法及性能研究PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:屈俊峰著
- 出 版 社:北京:中国水利水电出版社
- 出版年份:2018
- ISBN:9787517066910
- 页数:161 页
第1章 概述 1
1.1 项集:数据挖掘研究领域的焦点之一 3
1.2 频繁项集挖掘问题的研究历史 5
1.3 高可用项集挖掘问题的研究历史 7
1.4 本书的主要内容 9
第2章 频繁项集挖掘问题 11
2.1 概述 12
2.1.1 问题形式化定义 12
2.1.2 搜索空间与方法 13
2.2 基础频繁项集挖掘算法介绍 14
2.2.1 经典的候选生成Apriori算法 15
2.2.2 以垂直视角处理数据库的Eclat算法 16
2.2.3 基于前缀树结构的FP-growth算法 17
2.3 性能测试的软硬件环境 19
2.3.1 数据库描述 19
2.3.2 参照算法介绍 20
2.3.3 其他软硬件设施 22
2.4 实验一:三种基础算法的性能测试 23
2.4.1 实验结果 23
2.4.2 性能评价 24
第3章 BFP-growth:快速模式增长算法 27
3.1 经典模式增长算法的性能分析 28
3.1.1 影响 FP-growth性能的三个因素 28
3.1.2 ICDM最佳算法:FPgrowth 28
3.2 批量模式增长算法:BFP-growth 30
3.2.1 性能提升的途径 30
3.2.2 核心步骤:两次前缀树遍历 31
3.2.3 算法伪代码 34
3.3 BFP-growth算法的性能分析 35
3.3.1 更少的遍历花费 35
3.3.2 FP-array技术应该集成在BFP-growth中吗 36
3.3.3 无修饰的前缀树结构 37
3.4 实验二:BFP-growth的性能测试及讨论 38
3.4.1 BFP-growth 及FPgrowth*与基础算法的对比 38
3.4.2 实验结果讨论 38
3.5 小结 40
第4章 基于结点集合结构的NS算法 41
4.1 Eclat及FP-growth算法的优缺点 42
4.2 结点集合结构(Node-set) 43
4.2.1 条件结点 44
4.2.2 结点拓扑序号 45
4.2.3 使用结点集合结构表示前缀树 46
4.3 NS算法 47
4.3.1 映射前缀树到结点集合结构 47
4.3.2 从结点集合结构中挖掘频繁项集 48
4.3.3 一个例子 50
4.3.4 NS算法的原子操作 51
4.4 实验三:NS算法与其他快速挖掘算法的性能对比 51
4.4.1 实验结果 52
4.4.2 结果讨论:NS算法的性能优势 53
4.5 小结 54
第5章 用Patricia结构挖掘频繁项集 55
5.1 研究动机 56
5.2 Patricia*结构 57
5.2.1 单孩子结点 58
5.2.2 构造Patricia*结构 59
5.3 用Patricia*结构挖掘频繁项集 60
5.3.1 先前的挖掘流程 60
5.3.2 改进的挖掘流程 61
5.3.3 PatriciaMine*算法 62
5.4 实验结果 63
5.4.1 结点数量统计 64
5.4.2 性能对比 65
5.5 小结 66
第6章 频繁项集挖掘算法的内存耗费 68
6.1 BFP-growth算法内存使用情况分析 69
6.2 NS算法内存使用情况分析 69
6.3 实验四:快速挖掘算法的内存耗费 70
6.4 SP算法 71
6.4.1 研究动机 71
6.4.2 基础知识 72
6.4.3 挖掘频繁项集 76
6.4.4 实验结果与结论 79
第7章 高可用项集挖掘问题 80
7.1 从频繁项集到高可用项集 81
7.2 问题的形式化定义 82
7.3 已有挖掘算法概述 83
第8章 非候选生成高可用项集挖掘算法 87
8.1 项集有用性列表结构 88
8.1.1 初始有用性列表 88
8.1.2 2-项集的有用性列表 90
8.1.3 k-项集有用性列表(k≥3) 91
8.2 HUI-Miner算法 92
8.2.1 剪枝策略 93
8.2.2 算法伪代码 94
8.3 HUI-Miner算法的实现细节 95
8.3.1 有用性列表表头 95
8.3.2 重新标注tid 95
8.3.3 交易权重有用性增加的顺序 96
8.4 实验五:HUI-Miner性能测试 97
8.4.1 实验设置 97
8.4.2 HUI-Miner及对比算法的运行时间 98
8.4.3 HUI-Miner 及对比算法的内存耗费 99
8.4.4 项处理顺序对HUI-Miner性能的影响 100
8.4.5 可扩展性 101
8.4.6 实验结果讨论 102
8.5 小结 103
第9章 快速识别高可用项集 105
9.1 先前算法的性能瓶颈 106
9.2 基本识别算法(BIA) 107
9.3 基于候选树的快速识别算法(FIA) 110
9.3.1 候选树结构 110
9.3.2 快速识别算法 111
9.4 算法分析:BIA与FIA 114
9.5 实验六:BIA与FIA的性能对比 115
9.5.1 高可用项集识别时间 116
9.5.2 候选项集生成时间 117
9.5.3 内存耗费 117
9.5.4 实验结果分析 117
9.6 实验七:FIA-UP-Growth+和 HUI-Miner的性能对比 118
9.6.1 运行时间&内存耗费 118
9.6.2 实验结果分析 119
9.7 小结 120
第10章 最大频繁项集挖掘 122
10.1 介绍 122
10.2 基本概念 124
10.3 MAFIA算法 125
10.3.1 深度优先遍历 125
10.3.2 搜索空间剪枝 126
10.3.3 有效的MFI超集检查 130
10.4 挖掘非最大频繁项集 131
10.4.1 挖掘所有的频繁项集 132
10.4.2 挖掘所有的频繁闭项集 132
10.5 实施细节 133
10.6 结论 134
第11章 频繁闭项集挖掘 135
11.1 介绍 135
11.2 频繁项集挖掘 137
11.2.1 基本定义 137
11.2.2 先前的解决方案 138
11.3 项集—记录标识符集合搜索树与等价类 139
11.4 CHARM算法设计与实现 141
11.4.1 快速的闭项集子集合检查 144
11.4.2 使用差异集合快速进行频繁计数 145
11.4.3 其他优化及正确性 147
11.5 实验结果 148
11.6 结论 149
参考文献 150
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《NiFe2O4基惰性阳极材料的烧结行为及应用性能》杜金晶,王斌著 2019
- 《深筋膜徒手松解疗法》盛德峰著 2019
- 《高校教师胜任力与工作绩效关系研究》曹志峰著 2019
- 《新媒体运营实战指南 社群运营 短视频运营 直播运营 微信运营》陈政峰著 2019
- 《Visual Basic程序设计教程》胡俊峰 2018
- 《如何成为学习高手》林泰峰著 2019
- 《中国学术思想研究辑刊 二十编 第9册 欧阳修《诗本义》研究新探 重估汉宋《诗经》学的转变与意义 上》陈战峰著 2015
- 《Python数据可视化 基于Bokeh的可视化绘图》屈希峰著 2020
- 《信息时代的哲学新问题=NEW PHILOSOPHICAL ISSUES IN THE INFORMATION AGE》肖峰著 2020
- 《中国学术思想研究辑刊 二十编 第7册 宋代《诗经》学与理学 上》陈战峰著 2015
- 《不器:我只是个生活家》何越峰著 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018