《IBM SPSS Modeler 18.0数据挖掘权威指南》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:张浩彬,周伟珠编著
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2019
  • ISBN:9787115507594
  • 页数:456 页
图书介绍:本书将详尽的介绍IBM SPSS Modeler,主要涵盖基本软件操作,基本数据分析,高级数据挖掘,以及开发进阶使用等内容,力求帮助大家全面掌握Modeler工具。此外,本书也尽可能地把专业晦涩的数据科学知识及商业应用内容,以通俗易懂的方式传递给大家,同时结合实例,方便大家学习。

第1章 IBM SPSS Modeler基本介绍 1

1.1 SPSS简介 1

1.2 SPSS Modeler的特点 1

1.3 CRISP-DM方法论 4

1.4 SPSS Modeler下载与安装 6

1.5 SPSS Modeler的主界面及基本操作 9

1.5.1 主界面介绍 9

1.5.2 鼠标基本操作 15

1.6 SPSS Modeler连接服务器端 15

1.7 从SPSS Modeler中获取帮助 17

1.8 实战技巧 20

第2章 数据读取——源节点 24

2.1 数据的身份(存储类型、测量级别和角色) 24

2.1.1 变量的存储类型 24

2.1.2 变量的测量级别 25

2.1.3 变量的角色 26

2.2 数据读取 26

2.2.1 读取Excel文件数据 27

2.2.2 读取变量文件数据 30

2.2.3 读取SPSS(.sav)文件数据 32

2.2.4 读取数据库数据 36

2.3 实战技巧 40

第3章 数据整理——关于数据的基本设定与集成 43

3.1 字段的“类型”功能 43

3.2 字段的“过滤器”功能 44

3.3 数据集成 46

3.3.1 数据的记录集成:追加节点 46

3.3.2 数据的字段集成:合并节点 49

3.4 实战技巧 51

第4章 数据整理——关于行的处理 53

4.1 数据“选择”功能 53

4.1.1 功能介绍 53

4.1.2 实战技巧 55

4.2 使用参数及全局变量实现数据选择功能 56

4.2.1 参数功能 56

4.2.2 使用参数实例介绍 57

4.2.3 使用全局变量功能介绍 59

4.2.4 使用全局变量实例介绍 59

4.3 数据排序 62

4.4 数据区分 63

4.5 数据汇总 68

4.5.1 功能介绍 68

4.5.2 实战技巧 72

第5章 数据整理——关于列的处理 73

5.1 导出 73

5.1.1 功能介绍 73

5.1.2 实例介绍 81

5.2 填充 84

5.3 重新分类 86

5.4 匿名化 89

5.5 分级化 92

5.6 设为标志 100

5.6.1 功能介绍 100

5.6.2 实例介绍 100

5.7 重建 103

5.7.1 功能介绍 103

5.7.2 实例介绍 104

5.8 转置 107

5.8.1 功能介绍 107

5.8.2 实例介绍 107

5.9 历史记录 109

5.9.1 功能介绍 109

5.9.2 实例介绍 109

5.10 字段重排 113

5.11 时间间隔 116

5.11.1 功能介绍 116

5.11.2 实例介绍 116

5.12 自动数据准备 121

第6章 图形可视化——图形节点 128

6.1 “散点图”节点 128

6.1.1 散点图 128

6.1.2 线图 139

6.1.3 多重散点图 142

6.1.4 时间散点图 143

6.2 “条形图”节点 145

6.2.1 简单条形图 145

6.2.2 堆积条形图 147

6.3 “直方图”节点 148

6.3.1 直方图 148

6.3.2 堆积直方图 149

6.4 “网络”节点 151

6.5 “图形板”节点 154

6.5.1 气泡图 155

6.5.2 散点图矩阵 156

6.5.3 箱图 157

6.5.4 聚类箱图 159

6.5.5 热图 161

6.6 实战技巧:图形的编辑模式 162

第7章 描述性统计分析 164

7.1 描述性统计分析概述 164

7.2 数据审核,一键输出描述性统计分析结果 169

7.3 缺失值的定义、检查和处理 173

7.3.1 缺失值的定义和检查 173

7.3.2 缺失值的自动化处理 177

7.4 实战技巧 182

第8章 常用的统计检验分析 184

8.1 两个连续型变量的关系分析——相关分析 184

8.1.1 相关分析 184

8.1.2 相关分析实践——“Statistics”节点 185

8.2 两个分类型变量的关系分析——卡方检验 187

8.2.1 列联表与卡方检验 188

8.2.2 卡方检验实践——“矩阵”节点 190

8.3 连续型变量与分类型变量间的关系分析——t检验及卡方分析 193

8.3.1 两组独立样本均值比较 193

8.3.2 两组配对样本均值比较 194

8.3.3 方差分析 194

8.3.4 均值比较实践——“平均值”节点 195

8.4 实战技巧:相关分析的注意事项 199

第9章 回归分析 200

9.1 一元线性回归分析 200

9.2 一元线性回归实践 203

9.3 多元线性回归分析 206

9.4 多元线性回归实践 210

9.5 逐步回归分析 216

9.6 逐步回归实践 218

9.7 实战技巧 220

第10章 Logistic回归分析 222

10.1 Logistic回归理论概要 222

10.2 Logistic回归中的检验 225

10.2.1 方程的显著性检验 225

10.2.2 系数显著性检验 225

10.2.3 拟合优度检验 227

10.3 Logistic回归实践案例 228

10.4 实战技巧 237

第11章 建模前的优化及准备工作 241

11.1 样本管理与分区 241

11.1.1 数据抽样 241

11.1.2 数据分区 244

11.1.3 数据平衡 245

11.2 特征选择 247

11.3 数据变换 253

11.4 实战技巧:分区与平衡的顺序 255

第12章 RFM分析 257

第13章 决策树 264

13.1 决策树概述 264

13.1.1 决策树的直观理解 264

13.1.2 决策树的生长 265

13.1.3 决策树的剪枝 266

13.2 C5.0算法 267

13.2.1 C5.0算法的决策树生长 267

13.2.2 C5.0算法的决策树剪枝 270

13.2.3 代价敏感学习 270

13.2.4 C5.0算法实践案例 271

13.3 CART算法 277

13.3.1 CART算法的决策树生长 277

13.3.2 CART算法的决策树剪枝 279

13.3.3 先验概率 280

13.3.4 CART算法实践案例 281

13.4 实战技巧 287

13.4.1 生成规则集 287

13.4.2 跟踪规则 289

第14章 神经网络 291

14.1 感知机 292

14.2 多层感知机与误差反向传播算法 295

14.2.1 隐藏层 295

14.2.2 反向传播算法 296

14.3 神经网络实践 299

14.4 实战技巧:生成“报告” 305

第15章 集成学习算法 311

15.1 Bagging 311

15.2 Boosting 312

15.3 随机森林 314

15.4 集成学习算法实践 314

15.4.1 Bagging和Boosting实践 315

15.4.2 随机森林实践 320

15.4.3 各个集成学习算法的结果比较 324

15.5 异质集成——“整体”节点 325

第16章 聚类分析 330

16.1 聚类方法概述 330

16.2 聚类方法的关键:距离 330

16.3 K-means算法 331

16.3.1 K-means算法原理 331

16.3.2 K-means的其他注意事项 332

16.4 K-means聚类实践 335

16.5 实践技巧:使用平行图进行比较分析 341

第17章 KNN分类器 343

17.1 KNN学习方法原理 343

17.2 KNN分类实践 345

17.2.1 分类预测 346

17.2.2 最近邻识别 353

第18章 关联分析 356

18.1 关联分析的基本概念 356

18.2 关联规则的有效性指标 357

18.2.1 关联规则的基础评价性指标 358

18.2.2 关联规则的实用性指标 359

18.2.3 其他的关联规则评估指标 360

18.3 Apriori算法 361

18.3.1 生成频繁项集 361

18.3.2 生成关联规则 362

18.4 Apriori关联分析实践 363

18.5 实战技巧:导出生成的关联规则 367

第19章 自动建模 368

19.1 自动分类 368

19.1.1 功能介绍 368

19.1.2 实例介绍 368

19.2 自动聚类 375

19.2.1 功能介绍 375

19.2.2 实例介绍 376

19.3 自动数值 381

19.3.1 功能介绍 381

19.3.2 实例介绍 381

第20章 蒙特卡罗模拟法 386

20.1 模拟生成 386

20.1.1 功能介绍 386

20.1.2 实例介绍 389

20.2 模拟拟合 393

20.2.1 功能介绍 393

20.2.2 实例介绍 394

20.3 模拟求值 396

20.3.1 功能介绍 396

20.3.2 实例介绍 396

第21章 SPSS Modeler的集成与扩展 404

21.1 SPSS Modeler与R、 Python集成 404

21.1.1 概述 404

21.1.2 SPSS Modeler与R的集成环境准备 404

21.1.3 与R的集成功能介绍 407

21.1.4 实例介绍 408

21.2 定制对话框实现与R、 Python的集成 416

21.2.1 定制对话框简介 416

21.2.2 安装配置自定义节点 422

21.3 SPSS Modeler扩展功能 422

21.3.1 功能介绍 422

21.3.2 获取天气数据的应用分析案例 425

第22章 SPSS Modeler模型部署 434

22.1 产品架构 434

22.2 通过批处理任务定时运行模型 435

22.2.1 功能介绍 435

22.2.2 实例介绍 436

22.3 SPSS Modeler服务器安装及管理(For Linux) 438

22.3.1 正常维护SPSS Modeler服务器 438

22.3.2 SPSS Modeler服务器如何在Linux上安装及配置 439

22.3.3 配置ODBC连接数据库 440

22.4 SPSS Modeler官方支持的数据库和Hadoop平台 443

第23章 性能优化 448

23.1 功能介绍 448

23.2 客户端SQL性能优化 451

23.3 数据库内建模 453

23.3.1 功能介绍 453

23.3.2 实例介绍 453

23.4 使用外部程序批量加载 456