第1章 绪论 1
1.1 背景概述 1
1.1.1 数据挖掘 1
1.1.2 数据流挖掘 2
1.2 商业数据流挖掘主要研究概况 3
1.2.1 国外研究现状 3
1.2.2 国内研究现状 5
1.3 商业数据流挖掘的基本概念 6
1.3.1 商业数据流的基本定义 6
1.3.2 商业数据流挖掘的基本流程 7
1.3.3 商业数据流挖掘的主要模型和方法 7
1.4 商业数据流挖掘的典型应用 8
1.4.1 分布式零售数据流挖掘应用 9
1.4.2 网购数据流挖掘应用 9
1.5 本书的主要内容和结构 10
参考文献 11
第2章 商业数据流管理模型 14
2.1 商业数据流特点 14
2.2 商业数据流管理模型 15
2.2.1 商业数据流描述模型 15
2.2.2 商业数据流分层管理模型 16
2.3 商业数据流预处理模型 17
2.3.1 商业数据流降维模型 18
2.3.2 商业数据流噪声处理模型 21
2.4 本章小结 22
参考文献 23
第3章 商业数据流概念漂移模型 24
3.1 商业数据流概念漂移描述模型 24
3.1.1 商业数据流中的概念漂移概述 24
3.1.2 基于粒计算的商业数据流概念模型 25
3.2 商业数据流概念漂移特征提取模型 27
3.2.1 商业数据流概念漂移特征发现模型 27
3.2.2 商业数据流概念漂移特征提取模型 28
3.3 商业数据流概念漂移检测模型 32
3.3.1 基于概念格的数据流漂移检测模型 32
3.3.2 基于HSMM的用户兴趣漂移检测模型 35
3.3.3 融入簇强度的数据流漂移检测模型 38
3.4 本章小结 43
参考文献 43
第4章 面向商业数据流的关联规则方法 45
4.1 Web数据流最大频繁项集挖掘算法 45
4.1.1 A-MFI算法相关定义 45
4.1.2 算法描述 46
4.1.3 算法小结 50
4.2 基于时序轮盘模型的数据流频繁模式挖掘算法 50
4.2.1 时序轮盘TTLC算法 50
4.2.2 MFS-HT算法 51
4.2.3 实验结果及分析 55
4.2.4 算法小结 57
4.3 分布式关联规则同步算法和异步算法 57
4.3.1 网状分布式环境下同步算法NDMA 57
4.3.2 星形分布式环境下异步算法SDMA 62
4.3.3 算法小结 71
4.4 分布式无冗余数据流关联规则异步算法 71
4.4.1 相关概念和定理 71
4.4.2 算法描述与分析 73
4.4.3 实验结果及分析 79
4.4.4 算法小结 81
4.5 本章小结 81
参考文献 81
第5章 面向商业数据流的分类方法 83
5.1 基于模糊积分融合的数据流分类挖掘算法 83
5.1.1 模糊测度与模糊积分理论 83
5.1.2 基于Choquet模糊积分融合的多模糊ID3数据流分类算法 85
5.1.3 算法描述及分析 86
5.1.4 算法小结 87
5.2 基于增量存储树的集成贝叶斯分类数据流挖掘算法 87
5.2.1 集成贝叶斯分类器构建 88
5.2.2 构建CMCD-ST算法模型 89
5.2.3 实验结果及分析 91
5.2.4 算法小结 93
5.3 基于相关度的数据流关联分类算法 93
5.3.1 基于相关度关联分类算法的设计思想 93
5.3.2 基于相关度的关联分类算法 94
5.3.3 实验结果及分析 99
5.3.4 算法小结 101
5.4 基于情景特征的数据流前馈动态集成分类算法 102
5.4.1 问题描述 102
5.4.2 基于情景特征的前馈动态集成分类思想 102
5.4.3 实验结果及分析 106
5.4.4 算法小结 109
5.5 基于信息熵差异性度量的数据流增量集成分类算法 110
5.5.1 问题描述 110
5.5.2 基于信息熵差异性度量的增量集成分类算法 111
5.5.3 算法小结 115
5.6 基于MAPREDUCE技术的数据流并行集成分类算法 116
5.6.1 问题描述 116
5.6.2 相关理论研究 116
5.6.3 基于云计算的并行集成分类器 118
5.6.4 实验结果及分析 121
5.6.5 算法小结 124
5.7 本章小结 124
参考文献 124
第6章 面向商业数据流的聚类方法 127
6.1 基于密度的数据流聚类算法 127
6.1.1 问题描述 127
6.1.2 数据流管理模型及算法架构 128
6.1.3 主成分和密度融合的数据流聚类模型 130
6.1.4 PDStream算法设计 132
6.1.5 实验结果及分析 136
6.1.6 算法小结 137
6.2 基于小波网络的多维时间序列耦合特征聚类算法 138
6.2.1 相关工作 138
6.2.2 基于小波网络的数据压缩 138
6.2.3 多维时间序列耦合特征提取 139
6.2.4 聚类算法描述 141
6.2.5 实验结果及分析 142
6.2.6 算法小结 145
6.3 并行Web数据流聚类算法 145
6.3.1 研究进展及相关模型 145
6.3.2 JPStream算法描述 147
6.3.3 实验结果及分析 149
6.3.4 算法小结 149
6.4 融入簇存在强度的数据流聚类方法 150
6.4.1 融入不确定性的Web用户分析模型 150
6.4.2 簇存在强度 151
6.4.3 融入簇存在强度的数据流聚类算法 152
6.4.4 实验结果及分析 155
6.4.5 算法小结 159
6.5 本章小结 159
参考文献 159
第7章 商业数据流挖掘应用——分布式零售数据 162
7.1 实验数据来源与实验环境 162
7.1.1 实验数据来源 162
7.1.2 挖掘实验环境 163
7.2 基于多支持向量机的分布式客户流失预测应用 165
7.2.1 单站点客户流失预测分析 165
7.2.2 多站点客户流失预测分析 169
7.2.3 结果分析 171
7.3 基于分布式关联分类的连锁零售业客户细分应用 174
7.3.1 数据准备 174
7.3.2 模型的训练与测试 176
7.3.3 结果分析 177
7.4 本章小结 179
参考文献 179
第8章 商业数据流挖掘应用——网购数据 181
8.1 实验数据来源与实验环境 181
8.1.1 实验数据来源 181
8.1.2 挖掘实验环境 182
8.2 基于行为特征分析的用户聚类算法的应用分析 182
8.2.1 聚类步骤 183
8.2.2 聚类评估方法 184
8.2.3 用户聚类结果与分析 184
8.3 概念漂移约束驱动的关联规则挖掘算法的应用分析 189
8.3.1 概念漂移约束驱动的关联规则挖掘 189
8.3.2 情境强度约束的模式挖掘与推荐 192
8.3.3 基于推荐系统的算法评测与分析 194
8.4 用户兴趣挖掘模型的应用分析 197
8.4.1 用户情境本体模型构建 197
8.4.2 用户兴趣特征提取实验分析 198
8.4.3 用户兴趣漂移检测实验 200
8.5 本章小结 204
参考文献 204
第9章 总结与展望 206
9.1 本书总结 206
9.2 未来展望 207