CDA数据分析师系列丛书 SPSS Modeler+Weka数据挖掘从入门到实战PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:经管之家主编
- 出 版 社:北京:电子工业出版社
- 出版年份:2019
- ISBN:9787121319112
- 页数:268 页
第1篇 理论篇 1
第1章 数据挖掘简介 1
1.1 数据挖掘的起源、定义及目标 2
1.2 数据挖掘的发展历程 2
1.3 SPSS Modeler和Weka基础操作 4
1.3.1 SPSS Modeler软件简介 4
1.3.2 建立一个SPSS Modeler项目 5
1.3.3 Weka软件环境简介 8
1.3.4 Weka简单操作实例 9
第2章 数据挖掘方法论 15
2.1 数据挖掘方法论 16
2.1.1 CRISP-DM 16
2.1.2 SEMMA 16
2.2 数据库中的知识挖掘步骤 17
2.2.1 字段选择 17
2.2.2 数据清洗 18
2.2.3 字段扩充 18
2.2.4 数据编码 19
2.2.5 数据挖掘 20
2.2.6 结果呈现 21
2.3 案例:运用SPSS Modeler和Weka做客户的信用风险评分模型 22
2.3.1 案例说明 22
2.3.2 案例实操 23
2.3.3 运用SPSS Modeler进行初步的数据挖掘 28
2.3.4 运用Weka进行数据汇入 34
2.3.5 Weka自有数据存储格式arff简介 36
第3章 基本的数据挖掘技术 38
3.1 描述性统计 39
3.1.1 案例:通过数据判断客户是否需要新增电话线路 39
3.1.2 案例:运用描述性统计分析杂志社的客户特征 40
3.2 可视化技术 42
3.3 KNN原理及实例 44
3.3.1 KNN(K最近邻)算法 44
3.3.2 使用KNN算法计算距离 45
3.3.3 案例:使用KNN算法向用户推荐电影 49
3.4 案例:运用Weka的KNN算法对诊断结果进行预测 52
3.4.1 案例说明 52
3.4.2 运用Weka中的IBk模型进行预测 53
3.5 案例:运用SPSS Modeler的KNN算法预测客户是否接受人寿保险推销 58
3.5.1 案例说明 58
3.5.2 案例实操 59
第4章 数据挖掘进阶技术 68
4.1 数据挖掘的功能分类 69
4.1.1 描述型数据挖掘(无监督数据挖掘) 69
4.1.2 预测型数据挖掘(有监督数据挖掘) 70
4.2 数据挖掘的绩效增益 72
4.2.1 数据挖掘模型评估指标:正确率、响应率、查全率、F值 72
4.2.2 数据挖掘模型评估指标:Gain Chart 74
4.2.3 数据挖掘模型评估指标:Lift Chart 75
4.2.4 数据挖掘模型评估指标:Profit Chart 76
4.3 数据挖掘网站 77
4.3.1 KDnuggets 77
4.3.2 Kaggle 80
4.4 案例:评估新产品的促销活动效果 82
4.4.1 案例说明 83
4.4.2 数据及字段描述 83
4.4.3 效能评估方式 85
4.4.4 比赛结果排名 85
第2篇 准备篇 87
第5章 数据预处理 87
5.1 字段选择 88
5.1.1 数据整合 88
5.1.2 数据过滤 88
5.1.3 案例:运用SPSS Modeler过滤数据 89
5.2 数据清洗 92
5.2.1 错误值的检测及处理 92
5.2.2 案例:运用SPSS Modeler进行错误值的检测及处理 92
5.2.3 离群值的检测及处理 96
5.2.4 案例:运用SPSS Modeler进行离群值的检测及处理 96
5.2.5 缺失值的检测及处理 100
5.2.6 案例:运用SPSS Modeler进行缺失值的检测及处理 101
5.3 字段扩充 110
5.3.1 案例说明 110
5.3.2 案例:运用SPSS Modeler进行字段扩充及评估对效能的提升 111
5.4 数据编码 118
5.4.1 数据转换 118
5.4.2 数据精简 128
5.4.3 数据集的切割 129
第6章 关键变量挖掘技术 137
6.1 无效变量 138
6.2 统计方式的变量选择 138
6.2.1 卡方检验 138
6.2.2 方差分析(ANOVA检验)及t检验 138
6.2.3 案例:运用SPSS Modeler进行关键变量挖掘 139
6.3 模型方式的变量选择 141
6.3.1 决策树 141
6.3.2 Logistic回归 141
第7章 贝叶斯网络 143
7.1 朴素贝叶斯 144
7.1.1 独立性假设 145
7.1.2 概率的离散化 147
7.2 什么是贝叶斯网络 147
第8章 线性回归 150
8.1 简单线性回归 151
8.2 多元回归 152
8.3 相关系数 152
8.4 回归分析案例 153
8.5 线性回归模型评估 156
8.5.1 线性回归模型评估指标:MAE、MSE和RMSE 156
8.5.2 线性回归模型评估指标:R2 156
8.6 案例:运用SPSS Modeler建立线性回归模型 157
8.6.1 案例说明 157
8.6.2 案例实操 157
第9章 决策树 161
9.1 ID3决策树模型 162
9.2 ID3算法 165
9.2.1 ID3算法的字段选择方式 165
9.2.2 使用决策树进行分类 168
9.2.3 决策树与决策规则之间的关系 168
9.2.4 ID3算法的缺点 169
9.3 C5.0算法 170
9.3.1 C5.0算法的字段选择方式 170
9.3.2 C5.0算法的数值型字段处理方式 170
9.3.3 C5.0算法的剪枝方法 172
9.4 CART算法 173
9.4.1 分类树与回归树 174
9.4.2 CART分类树的字段选择方式 174
9.4.3 CART分类树的剪枝作法 177
9.5 CHAID算法 177
9.6 案例:运用SPSS Modeler和Weka建立决策树模型 177
9.6.1 案例说明 177
9.6.2 案例实操 178
9.6.3 运用SPSS Modeler建立交互式分类树模型 179
9.6.4 运用Weka建立交互式分类树模型 180
9.7 CART回归树算法 186
9.7.1 CART回归树的字段选择方式 186
9.7.2 利用模型树提升CART回归树的效率 187
9.8 案例:运用SPSS Modeler和Weka建立回归树模型 188
9.8.1 案例说明 188
9.8.2 案例实操 188
9.8.3 使用Weka对比“剪枝”前后的模型 189
第10章 神经网络 194
10.1 BP神经网络模型 195
10.1.1 BP神经网络模型的概念 195
10.1.2 BP神经网络模型的架构方式 195
10.2 神经元的组成 198
10.3 神经网络模型如何传递信息 199
10.4 修正神经网络模型的权重值及常数项 200
10.5 BP神经网络模型与Logistic回归、线性回归及非线性回归之间的关系 201
10.6 案例:运用SPSS Modeler建立类神经网络模型 202
第11章 Logistic回归 208
11.1 Logistic回归与BP神经网络的关系 210
11.2 Logistic回归的字段选择方式 211
11.2.1 前向法 211
11.2.2 后向法 212
11.2.3 逐步法 212
11.3 案例:运用SPSS Modeler建立Logistic回归模型 213
11.3.1 案例说明 213
11.3.2 案例实操 213
第12章 支持向量机 215
12.1 数据是线性可分的支持向量机 217
12.2 数据是线性不可分的支持向量机 219
12.3 案例:运用SPSS Modeler建立SVM模型 221
第3篇 关系篇 230
第13章 聚类分析 230
13.1 相似性度量 232
13.1.1 二元变量的相似性度量 232
13.1.2 类别型变量的相似性度量 234
13.1.3 数值型变量的相似性度量 234
13.2 聚类算法 234
13.2.1 互斥聚类与非互斥聚类算法 234
13.2.2 分层聚类算法 235
13.2.3 分割式聚类算法 236
13.3 分层聚类算法 236
13.3.1 单一连接法 236
13.3.2 完全连接法 237
13.3.3 平均连接法 238
13.3.4 中心法 238
13.3.5 Ward's法(华德法) 239
13.4 分割式聚类算法 240
13.4.1 K-Means算法 240
13.4.2 K-Medoids算法 243
13.4.3 SOM算法 243
13.4.4 两步法 243
13.5 集群判断 244
13.5.1 集群判断方法:R2 244
13.5.2 集群判断方法:半径R2 245
13.5.3 集群判断方法:均方根标准差(RMSSTD) 245
13.6 案例:运用SPSS Modeler建立聚类模型 246
13.6.1 案例说明 246
13.6.2 案例实操 246
第14章 关联规则 252
14.1 关联规则的概念 253
14.2 关联规则的评估指标 253
14.2.1 支持度 253
14.2.2 置信度 254
14.3 Apriori算法 254
14.3.1 暴力法的问题 254
14.3.2 Apriori算法的理论基础 255
14.4 Apriori算法实例说明 255
14.4.1 候选项目组合的产生 255
14.4.2 候选项目组合的删除 256
14.5 再谈评估指标 256
14.5.1 支持度与置信度的问题 256
14.5.2 提升度指标 257
14.6 关联规则的延伸 257
14.6.1 虚拟商品的加入 257
14.6.2 负向关联规则 257
14.7 案例:运用SPSS Modeler建立关联规则模型 258
14.7.1 案例说明 258
14.7.2 案例实操 258
第15章 序列模型 263
15.1 序列模型的概念 264
15.2 案例:运用SPSS Modeler建立序列模型 266
15.2.1 案例说明 266
15.2.2 案例实操 266
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017