当前位置:首页 > 社会科学
CDA数据分析师系列丛书  SPSS Modeler+Weka数据挖掘从入门到实战
CDA数据分析师系列丛书  SPSS Modeler+Weka数据挖掘从入门到实战

CDA数据分析师系列丛书 SPSS Modeler+Weka数据挖掘从入门到实战PDF电子书下载

社会科学

  • 电子书积分:11 积分如何计算积分?
  • 作 者:经管之家主编
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2019
  • ISBN:9787121319112
  • 页数:268 页
图书介绍:本书所采用的分析工具为目前颇受好评的IBM SPSS Modeler及开源软件Weka。IBM SPSS Modeler有很好的用户接口,也有不错的分析功能,但缺乏最前沿的分析模块及很难与现有的信息系统结合,而Weka恰能弥补其缺憾。同时,这两个软件都不需要编程,对初入分析领域的读者而言是一个很好的进入点。本书由三位活跃在数据挖掘教学和项目开发一线的人员完成,内容侧重软件的实际操作。本书力图将复杂的技术以浅显的方式加以介绍,尽量避免涉及过多的数学内容。每章都根据所涉及的知识点的不同,本书选取了实用的案例,并为读者准备了相应的思考和练习题。本书适合数据挖掘建模分析初学者学习使用,适合各培训机构作为SPSS Modeler的培训教材,适合大中专院校选为SPSS Modeler教材。
上一篇:统计学基础下一篇:相处不累
《CDA数据分析师系列丛书 SPSS Modeler+Weka数据挖掘从入门到实战》目录

第1篇 理论篇 1

第1章 数据挖掘简介 1

1.1 数据挖掘的起源、定义及目标 2

1.2 数据挖掘的发展历程 2

1.3 SPSS Modeler和Weka基础操作 4

1.3.1 SPSS Modeler软件简介 4

1.3.2 建立一个SPSS Modeler项目 5

1.3.3 Weka软件环境简介 8

1.3.4 Weka简单操作实例 9

第2章 数据挖掘方法论 15

2.1 数据挖掘方法论 16

2.1.1 CRISP-DM 16

2.1.2 SEMMA 16

2.2 数据库中的知识挖掘步骤 17

2.2.1 字段选择 17

2.2.2 数据清洗 18

2.2.3 字段扩充 18

2.2.4 数据编码 19

2.2.5 数据挖掘 20

2.2.6 结果呈现 21

2.3 案例:运用SPSS Modeler和Weka做客户的信用风险评分模型 22

2.3.1 案例说明 22

2.3.2 案例实操 23

2.3.3 运用SPSS Modeler进行初步的数据挖掘 28

2.3.4 运用Weka进行数据汇入 34

2.3.5 Weka自有数据存储格式arff简介 36

第3章 基本的数据挖掘技术 38

3.1 描述性统计 39

3.1.1 案例:通过数据判断客户是否需要新增电话线路 39

3.1.2 案例:运用描述性统计分析杂志社的客户特征 40

3.2 可视化技术 42

3.3 KNN原理及实例 44

3.3.1 KNN(K最近邻)算法 44

3.3.2 使用KNN算法计算距离 45

3.3.3 案例:使用KNN算法向用户推荐电影 49

3.4 案例:运用Weka的KNN算法对诊断结果进行预测 52

3.4.1 案例说明 52

3.4.2 运用Weka中的IBk模型进行预测 53

3.5 案例:运用SPSS Modeler的KNN算法预测客户是否接受人寿保险推销 58

3.5.1 案例说明 58

3.5.2 案例实操 59

第4章 数据挖掘进阶技术 68

4.1 数据挖掘的功能分类 69

4.1.1 描述型数据挖掘(无监督数据挖掘) 69

4.1.2 预测型数据挖掘(有监督数据挖掘) 70

4.2 数据挖掘的绩效增益 72

4.2.1 数据挖掘模型评估指标:正确率、响应率、查全率、F值 72

4.2.2 数据挖掘模型评估指标:Gain Chart 74

4.2.3 数据挖掘模型评估指标:Lift Chart 75

4.2.4 数据挖掘模型评估指标:Profit Chart 76

4.3 数据挖掘网站 77

4.3.1 KDnuggets 77

4.3.2 Kaggle 80

4.4 案例:评估新产品的促销活动效果 82

4.4.1 案例说明 83

4.4.2 数据及字段描述 83

4.4.3 效能评估方式 85

4.4.4 比赛结果排名 85

第2篇 准备篇 87

第5章 数据预处理 87

5.1 字段选择 88

5.1.1 数据整合 88

5.1.2 数据过滤 88

5.1.3 案例:运用SPSS Modeler过滤数据 89

5.2 数据清洗 92

5.2.1 错误值的检测及处理 92

5.2.2 案例:运用SPSS Modeler进行错误值的检测及处理 92

5.2.3 离群值的检测及处理 96

5.2.4 案例:运用SPSS Modeler进行离群值的检测及处理 96

5.2.5 缺失值的检测及处理 100

5.2.6 案例:运用SPSS Modeler进行缺失值的检测及处理 101

5.3 字段扩充 110

5.3.1 案例说明 110

5.3.2 案例:运用SPSS Modeler进行字段扩充及评估对效能的提升 111

5.4 数据编码 118

5.4.1 数据转换 118

5.4.2 数据精简 128

5.4.3 数据集的切割 129

第6章 关键变量挖掘技术 137

6.1 无效变量 138

6.2 统计方式的变量选择 138

6.2.1 卡方检验 138

6.2.2 方差分析(ANOVA检验)及t检验 138

6.2.3 案例:运用SPSS Modeler进行关键变量挖掘 139

6.3 模型方式的变量选择 141

6.3.1 决策树 141

6.3.2 Logistic回归 141

第7章 贝叶斯网络 143

7.1 朴素贝叶斯 144

7.1.1 独立性假设 145

7.1.2 概率的离散化 147

7.2 什么是贝叶斯网络 147

第8章 线性回归 150

8.1 简单线性回归 151

8.2 多元回归 152

8.3 相关系数 152

8.4 回归分析案例 153

8.5 线性回归模型评估 156

8.5.1 线性回归模型评估指标:MAE、MSE和RMSE 156

8.5.2 线性回归模型评估指标:R2 156

8.6 案例:运用SPSS Modeler建立线性回归模型 157

8.6.1 案例说明 157

8.6.2 案例实操 157

第9章 决策树 161

9.1 ID3决策树模型 162

9.2 ID3算法 165

9.2.1 ID3算法的字段选择方式 165

9.2.2 使用决策树进行分类 168

9.2.3 决策树与决策规则之间的关系 168

9.2.4 ID3算法的缺点 169

9.3 C5.0算法 170

9.3.1 C5.0算法的字段选择方式 170

9.3.2 C5.0算法的数值型字段处理方式 170

9.3.3 C5.0算法的剪枝方法 172

9.4 CART算法 173

9.4.1 分类树与回归树 174

9.4.2 CART分类树的字段选择方式 174

9.4.3 CART分类树的剪枝作法 177

9.5 CHAID算法 177

9.6 案例:运用SPSS Modeler和Weka建立决策树模型 177

9.6.1 案例说明 177

9.6.2 案例实操 178

9.6.3 运用SPSS Modeler建立交互式分类树模型 179

9.6.4 运用Weka建立交互式分类树模型 180

9.7 CART回归树算法 186

9.7.1 CART回归树的字段选择方式 186

9.7.2 利用模型树提升CART回归树的效率 187

9.8 案例:运用SPSS Modeler和Weka建立回归树模型 188

9.8.1 案例说明 188

9.8.2 案例实操 188

9.8.3 使用Weka对比“剪枝”前后的模型 189

第10章 神经网络 194

10.1 BP神经网络模型 195

10.1.1 BP神经网络模型的概念 195

10.1.2 BP神经网络模型的架构方式 195

10.2 神经元的组成 198

10.3 神经网络模型如何传递信息 199

10.4 修正神经网络模型的权重值及常数项 200

10.5 BP神经网络模型与Logistic回归、线性回归及非线性回归之间的关系 201

10.6 案例:运用SPSS Modeler建立类神经网络模型 202

第11章 Logistic回归 208

11.1 Logistic回归与BP神经网络的关系 210

11.2 Logistic回归的字段选择方式 211

11.2.1 前向法 211

11.2.2 后向法 212

11.2.3 逐步法 212

11.3 案例:运用SPSS Modeler建立Logistic回归模型 213

11.3.1 案例说明 213

11.3.2 案例实操 213

第12章 支持向量机 215

12.1 数据是线性可分的支持向量机 217

12.2 数据是线性不可分的支持向量机 219

12.3 案例:运用SPSS Modeler建立SVM模型 221

第3篇 关系篇 230

第13章 聚类分析 230

13.1 相似性度量 232

13.1.1 二元变量的相似性度量 232

13.1.2 类别型变量的相似性度量 234

13.1.3 数值型变量的相似性度量 234

13.2 聚类算法 234

13.2.1 互斥聚类与非互斥聚类算法 234

13.2.2 分层聚类算法 235

13.2.3 分割式聚类算法 236

13.3 分层聚类算法 236

13.3.1 单一连接法 236

13.3.2 完全连接法 237

13.3.3 平均连接法 238

13.3.4 中心法 238

13.3.5 Ward's法(华德法) 239

13.4 分割式聚类算法 240

13.4.1 K-Means算法 240

13.4.2 K-Medoids算法 243

13.4.3 SOM算法 243

13.4.4 两步法 243

13.5 集群判断 244

13.5.1 集群判断方法:R2 244

13.5.2 集群判断方法:半径R2 245

13.5.3 集群判断方法:均方根标准差(RMSSTD) 245

13.6 案例:运用SPSS Modeler建立聚类模型 246

13.6.1 案例说明 246

13.6.2 案例实操 246

第14章 关联规则 252

14.1 关联规则的概念 253

14.2 关联规则的评估指标 253

14.2.1 支持度 253

14.2.2 置信度 254

14.3 Apriori算法 254

14.3.1 暴力法的问题 254

14.3.2 Apriori算法的理论基础 255

14.4 Apriori算法实例说明 255

14.4.1 候选项目组合的产生 255

14.4.2 候选项目组合的删除 256

14.5 再谈评估指标 256

14.5.1 支持度与置信度的问题 256

14.5.2 提升度指标 257

14.6 关联规则的延伸 257

14.6.1 虚拟商品的加入 257

14.6.2 负向关联规则 257

14.7 案例:运用SPSS Modeler建立关联规则模型 258

14.7.1 案例说明 258

14.7.2 案例实操 258

第15章 序列模型 263

15.1 序列模型的概念 264

15.2 案例:运用SPSS Modeler建立序列模型 266

15.2.1 案例说明 266

15.2.2 案例实操 266

返回顶部