第1章 绪论 1
1.1 商业智能 1
1.1.1 商业智能概述 1
1.1.2 商业智能的发展 4
1.2 数据挖掘 6
1.2.1 数据挖掘的定义 6
1.2.2 数据挖掘的重要性 7
1.2.3 数据挖掘的功能 8
1.2.4 数据挖掘的方法和经典算法 9
1.3 数据仓库 12
1.3.1 数据仓库的产生与发展 12
1.3.2 数据仓库的定义 13
1.3.3 数据仓库与数据挖掘的关系 13
第2章 数据仓库与联机分析 15
2.1 数据仓库 15
2.1.1 数据仓库的基本概念 15
2.1.2 数据仓库的体系结构 20
2.1.3 数据仓库的数据模型 21
2.2 数据仓库的设计步骤 23
2.2.1 概念模型设计 24
2.2.2 逻辑模型设计 26
2.2.3 物理模型设计 28
2.2.4 数据仓库的生成 31
2.2.5 数据仓库的运行与维护 33
2.3 联机分析技术 34
2.3.1 OLAP概述 34
2.3.2 OLAP多维分析 37
2.3.3 MOLAP与ROLAP 38
第3章 数据挖掘运用的理论和技术 41
3.1 回归分析 41
3.1.1 简单线性回归分析 42
3.1.2 多元回归分析 44
3.1.3 岭回归分析 46
3.1.4 logistic回归分析 46
3.2 关联规则 47
3.2.1 关联规则概述 47
3.2.2 Apriori算法 50
3.2.3 FP-Growth算法 53
3.3 聚类分析 55
3.3.1 聚类概述 55
3.3.2 聚类中的相异度计算 57
3.3.3 基于划分的聚类 60
3.3.4 基于层次的聚类 61
3.4 决策树分析 63
3.4.1 信息论的基本原理 63
3.4.2 ID3算法 65
3.4.3 C4.5 算法 67
3.5 其他分析方法 68
第4章 用Excel 2010进行数据分析 71
4.1 安装前的准备 71
4.1.1 下载表分析工具 71
4.1.2 系统要求 71
4.2 安装表分析工具 72
4.3 配置表分析工具 75
4.4 使用表分析工具的要求 79
4.5 分析关键影响因素 82
4.5.1 影响因素主报表 84
4.5.2 影响因素对比报表 86
4.6 检测类别 86
4.7 从示例填充 90
4.8 预测 93
4.9 突出显示异常值 94
4.10 应用场景分析 98
4.10.1 目标查找 98
4.10.2 假设 101
4.11 预测计算器及可打印计算器 104
4.11.1 预测报表 104
4.11.2 预测计算器 106
4.11.3 可打印计算器 107
4.12 购物篮分析 108
4.12.1 购物篮捆绑销售商品 108
4.12.2 购物篮推荐 109
4.12.3 高级参数设置 110
第5章 用Excel 2010进行数据挖掘 111
5.1 数据挖掘简介 111
5.1.1 业务理解 111
5.1.2 数据理解 112
5.1.3 数据准备 112
5.1.4 建立模型 112
5.1.5 评价 112
5.1.6 实施 112
5.1.7 Excel的数据挖掘过程 113
5.2 获取外部数据 113
5.3 数据准备 114
5.3.1 浏览数据 114
5.3.2 清除数据 118
5.3.3 示例数据 124
5.4 数据建模 127
5.4.1 分类 127
5.4.2 估计 132
5.4.3 聚类分析 136
5.4.4 关联 141
5.4.5 预测 145
5.4.6 高级 148
5.5 准确性和验证 153
5.5.1 准确性图表 153
5.5.2 分类矩阵 156
5.5.3 利润图 158
5.5.4 交叉验证 161
5.6 模型用法 164
5.6.1 浏览 164
5.6.2 文档模型 166
5.6.3 查询 168
5.7 管理和连接 171
5.7.1 管理模型 172
5.7.2 连接与跟踪 173
第6章 SQL Server 2012数据挖掘 174
6.1 SSDT(SQL Server Data Tools)简介 174
6.1.1 下载SSDT 174
6.1.2 系统要求 174
6.2 安装SSDT-BI 175
6.3 安装示例数据库 180
6.4 SSDT-BI用户界面 182
6.5 创建挖掘项目 183
6.6 设置数据源 185
6.7 设置数据源视图 188
6.7.1 新建数据源视图 188
6.7.2 使用数据源视图 190
6.8 设置挖掘结构 193
6.9 处理挖掘模型 198
6.10 查看挖掘模型 199
6.11 挖掘准确性图表 201
6.11.1 输入选择 201
6.11.2 提升图 202
6.11.3 利润图 203
6.11.4 分类矩阵 203
6.11.5 交叉验证 204
6.12 挖掘模型预测 205
第7章 Microsoft数据挖掘算法 208
7.1 背景知识 208
7.1.1 功能选择 208
7.1.2 功能选择的方法 209
7.1.3 兴趣性分数 209
7.1.4 Shannon平均信息量 209
7.1.5 贝叶斯K2算法 209
7.1.6 贝叶斯BDE算法 210
7.2 Microsoft决策树算法 210
7.2.1 使用决策树算法 210
7.2.2 决策树算法的原理 210
7.2.3 决策树算法参数 212
7.3 Microsoft聚类算法 214
7.3.1 使用聚类算法 214
7.3.2 聚类算法的原理 214
7.3.3 聚类算法参数 216
7.4 Microsoft关联规则算法 218
7.4.1 使用关联规则算法 218
7.4.2 关联规则算法的原理 218
7.4.3 关联规则算法参数 220
7.5 Microsoft时序算法 221
7.5.1 使用时序算法 221
7.5.2 时序算法的原理 222
7.5.3 时序算法参数 224
7.6 Microsoft朴素贝叶斯算法 226
7.6.1 使用朴素贝叶斯算法 226
7.6.2 贝叶斯算法的原理 227
7.6.3 贝叶斯算法参数 228
7.7 Microsoft神经网络算法 229
7.7.1 使用神经网络算法 229
7.7.2 神经网络算法的原理 229
7.7.3 神经网络算法参数 232
第8章 SPSS数据挖掘基础 234
8.1 SPSS发展简史 234
8.2 SPSS操作入门 235
8.2.1 SPSS的启动 235
8.2.2 SPSS的退出 236
8.3 SPSS的界面 236
8.3.1 SPSS的窗口 236
8.3.2 SPSS的菜单 237
8.4 建立SPSS文件 237
8.4.1 SPSS文件类型 237
8.4.2 数据录入 238
8.4.3 文件的保存与导出 238
8.5 SPSS数据的变量属性定义 239
8.5.1 变量名称 239
8.5.2 变量类型 239
8.5.3 变量宽度和小数 240
8.5.4 标签和值 240
8.5.5 变量缺失值 241
8.5.6 变量显示列、对齐方式 241
8.5.7 变量测量方式 242
8.5.8 变量角色 242
8.6 SPSS数据管理 242
8.6.1 插入或删除个案 242
8.6.2 插入或删除变量 243
8.6.3 数据排序 243
8.6.4 数据的行列转置 245
8.6.5 选取个案 245
8.6.6 数据合并 246
8.6.7 拆分数据文件 248
8.7 SPSS数据转换 249
8.7.1 计算产生变量 249
8.7.2 对个案内的值计数 250
8.7.3 重新编码 251
第9章 SPSS数据挖掘常用的统计分析方法 254
9.1 基本描述统计 254
9.1.1 频数分析 254
9.1.2 描述分析 257
9.1.3 探索分析 259
9.1.4 交叉表分析 263
9.2 T检验 268
9.2.1 单样本T检验 268
9.2.2 独立样本T检验 269
9.2.3 配对样本T检验 271
9.3 方差分析 272
9.3.1 单因素方差分析 273
9.3.2 多因素方差分析 276
9.3.3 重复测量方差分析 282
9.4 多元回归分析 286
9.4.1 多元线性回归 286
9.4.2 Logistic回归 292
9.5 聚类分析 297
9.5.1 两步聚类分析 298
9.5.2 K-平均值聚类分析 301
9.5.3 系统聚类分析 304
9.6 相关分析 309
9.6.1 线性相关分析 309
9.6.2 偏相关分析 311
9.7 因子分析 313
第10章 数据挖掘实验 319
10.1 SQL Server 2012数据挖掘实验 319
10.1.1 实践关联规则挖掘方法 319
10.1.2 实践聚类挖掘方法 331
10.1.3 实践贝叶斯分类方法 338
10.2 SPSS数据挖掘实验 341
10.2.1 SPSS基本数据管理与数据转换操作 341
10.2.2 SPSS均值比较与回归分析操作 351
10.2.3 SPSS聚类、相关、因子分析操作 356
参考文献 361