Clementine数据挖掘方法及应用PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:薛微,陈欢歌编著
- 出 版 社:北京:电子工业出版社
- 出版年份:2010
- ISBN:9787121117787
- 页数:303 页
第1章 数据挖掘和Clementine概述 1
1.1 数据挖掘的产生背景 1
1.1.1 海量数据的分析需求催生数据挖掘 1
1.1.2 应用对理论的挑战催生数据挖掘 3
1.2 什么是数据挖掘 6
1.2.1 数据挖掘的概念 6
1.2.2 数据挖掘能做什么 8
1.2.3 数据挖掘得到的知识形式 9
1.2.4 数据挖掘的算法分类 11
1.3 Clementine软件概述 14
1.3.1 Clementine的窗口 14
1.3.2 数据流的基本管理和执行 17
1.3.3 数据流的其他管理 19
1.3.4 从一个示例看Clementine的使用 21
第2章 Clementine数据的读入 30
2.1 变量的类型 30
2.1.1 从数据挖掘角度看变量类型 30
2.1.2 从数据存储角度看变量类型 31
2.2 读入数据 31
2.2.1 读自由格式的文本文件 32
2.2.2 读Excel电子表格数据 36
2.2.3 读SPSS格式文件 37
2.2.4 读数据库文件 38
2.3 生成实验方案数据 40
2.4 合并数据 42
2.4.1 数据的纵向合并 42
2.4.2 数据的横向合并 44
第3章 Clementine变量的管理 47
3.1 变量说明 47
3.1.1 取值范围和缺失值的说明 48
3.1.2 变量取值有效性检查和修正 49
3.1.3 变量角色的说明 50
3.2 变量值的重新计算 51
3.2.1 CLEM表达式 52
3.2.2 变量值重新计算示例 55
3.3 变量类别值的调整 57
3.4 生成新变量 58
3.5 变量值的离散化处理 62
3.5.1 常用的分箱方法 62
3.5.2 变量值的离散化处理示例 66
3.6 生成样本集分割变量 69
3.6.1 样本集分割的意义和常见方法 69
3.6.2 生成样本集分割变量的示例 71
第4章 Clementine样本的管理 73
4.1 样本的排序 73
4.2 样本的条件筛选 74
4.3 样本的随机抽样 75
4.4 样本的浓缩处理 76
4.5 样本的分类汇总 77
4.6 样本的平衡处理 78
4.7 样本的其他管理 79
4.7.1 数据转置 79
4.7.2 数据的重新组织 81
第5章 Clementine数据的基本分析 83
5.1 数据质量的探索 84
5.1.1 数据的基本描述与质量探索 84
5.1.2 离群点和极端值的修正 87
5.1.3 缺失值的替补 88
5.1.4 数据质量管理的其他功能 89
5.2 基本描述分析 90
5.2.1 计算基本描述统计量 91
5.2.2 绘制散点图 93
5.3 变量分布的探索 94
5.4 两分类变量相关性的研究 97
5.4.1 两分类变量相关性的图形分析 97
5.4.2 两分类变量相关性的数值分析 100
5.5 两总体的均值比较 105
5.5.1 两总体均值比较的图形分析 105
5.5.2 独立样本的均值检验 107
5.5.3 配对样本的均值检验 111
5.6 变量重要性的分析 113
5.6.1 变量重要性分析的一般方法 113
5.6.2 变量重要性分析的应用示例 116
第6章 分类预测:Clementine的决策树 119
6.1 决策树算法概述 119
6.1.1 什么是决策树 119
6.1.2 决策树的几何理解 121
6.1.3 决策树的核心问题 121
6.2 Clementine的C5.0算法及应用 124
6.2.1 信息熵和信息增益 124
6.2.2 C5.0的决策树生长算法 126
6.2.3 C5.0的剪枝算法 130
6.2.4 C5.0的推理规则集 132
6.2.5 C5.0的基本应用示例 136
6.2.6 C5.0的损失矩阵和Boosting技术 140
6.2.7 C5.0的模型评价 145
6.2.8 C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树 147
6.3 Clementine的分类回归树及应用 148
6.3.1 分类回归树的生长过程 149
6.3.2 分类回归树的剪枝过程 151
6.3.3 损失矩阵对分类树的影响 154
6.3.4 分类回归树的基本应用示例 155
6.3.5 分类回归树的交互建模 159
6.3.6 分类回归树的模型评价 160
6.4 Clementine的CHAID算法及应用 168
6.4.1 CHAID分组变量的预处理和选择策略 168
6.4.2 Exhaustive CHAID算法 170
6.4.3 CHAID的剪枝 171
6.4.4 CHAID的应用示例 171
6.5 Clementine的QUEST算法及应用 173
6.5.1 QUEST算法确定最佳分组变量和分割点的方法 174
6.5.2 QUEST算法的应用示例 176
6.6 决策树算法评估的图形比较 177
6.6.1 不同模型的误差对比 177
6.6.2 不同模型收益的对比 178
第7章 分类预测:Clementine的人工神经网络 181
7.1 人工神经网络算法概述 181
7.1.1 人工神经网络的概念和种类 181
7.1.2 人工神经网络中的节点和意义 183
7.1.3 人工神经网络建立的一般步骤 185
7.2 Clementine的B-P反向传播网络 187
7.2.1 感知机模型 188
7.2.2 B-P反向传播网络的特点 190
7.2.3 B-P反向传播算法 193
7.2.4 B-P反向传播网络的其他问题 196
7.3 Clementine的B-P反向传播网络的应用 199
7.3.1 基本操作说明 200
7.3.2 计算结果说明 202
7.3.3 提高模型预测精度 204
7.4 Clementine的径向基函数网络及应用 204
7.4.1 径向基函数网络中的隐节点和输出节点 204
7.4.2 径向基函数网络的学习过程 205
7.4.3 径向基函数网络的应用示例 207
第8章 分类预测:Clementine的统计方法 209
8.1 Clementine的Logistic回归分析及应用 209
8.1.1 二项Logistic回归方程 210
8.1.2 二项Logistic回归方程系数的含义 212
8.1.3 二项Logistic回归方程的检验 214
8.1.4 二项Logistic回归分析的应用示例 218
8.1.5 多项Logistic回归分析的应用示例 224
8.2 Clementine的判别分析及应用 226
8.2.1 距离判别法 226
8.2.2 Fisher判别法 228
8.2.3 贝叶斯判别法 231
8.2.4 判别分析的应用示例 233
第9章 探索内部结构:Clementine的关联分析 242
9.1 简单关联规则及其有效性 242
9.1.1 简单关联规则的基本概念 243
9.1.2 简单关联规则的有效性和实用性 245
9.2 Clementine的Apriori算法及应用 249
9.2.1 产生频繁项集 249
9.2.2 依据频繁项集产生简单关联规则 251
9.2.3 Apriori算法的应用示例 251
9.3 Clementine的GRI算法及应用 256
9.3.1 GRI算法基本思路 256
9.3.2 GRI算法的具体策略 257
9.3.3 GRI算法的应用示例 259
9.4 Clementine的序列关联及应用 260
9.4.1 序列关联中的基本概念 261
9.4.2 Sequence算法 262
9.4.3 序列关联的时间约束 266
9.4.4 序列关联分析的应用示例 266
第10章 探索内部结构:Clementine的聚类分析 270
10.1 聚类分析的一般问题 270
10.1.1 聚类分析的提出 270
10.1.2 聚类分析的算法 271
10.2 Clementine的K-Means聚类及应用 271
10.2.1 K-Means对“亲疏程度”的测度 271
10.2.2 K-Means聚类过程 272
10.2.3 K-Means聚类的应用示例 275
10.3 Clementine的两步聚类及应用 279
10.3.1 两步聚类对“亲疏程度”的测度 279
10.3.2 两步聚类过程 281
10.3.3 聚类数目的确定 282
10.3.4 两步聚类的应用示例 284
10.4 Clementine的Kohonen网络聚类及应用 286
10.4.1 Kohonen网络的聚类机理 286
10.4.2 Kohonen网络的聚类过程 288
10.4.3 Kohonen网络聚类的示例 290
10.5 基于聚类分析的离群点探索及应用 295
10.5.1 多维空间基于聚类的诊断方法 296
10.5.2 多维空间基于聚类的诊断方法应用示例 299
参考文献 302
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017