小白学数据挖掘与机器学习 SPSS Modeler案例篇PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:张浩彬著
- 出 版 社:北京:电子工业出版社
- 出版年份:2018
- ISBN:9787121338434
- 页数:216 页
第1章 数据挖掘那些事儿 1
1.1当我们在谈数据挖掘时,其实在讨论什么 2
1.2从CRISP-DM开启数据挖掘实践 7
第2章 数据挖掘之利器:SPSS Modeler 17
2.1 SPSS Modeler简介 18
2.2 SPSS Modeler的下载与安装 21
2.3 SPSS Modeler的主界面及基本操作 23
2.3.1 SPSS Modeler主界面介绍 23
2.3.2鼠标基本操作 31
2.4将SPSS Modeler连接到服务器端 31
第3章 巧妇难为无米之炊:数据,数据! 34
3.1数据的身份 35
3.1.1变量的测量级别 35
3.1.2变量的角色 36
3.2数据的读取 37
3.2.1读取Excel文件数据 37
3.2.2读取变量文件数据 38
3.2.3读取SPSS Statistics(.sav)文件数据 40
3.2.4读取数据库数据 42
3.3数据的基本设定 45
3.3.1变量角色的设定 45
3.3.2字段的筛选及命名 46
3.4数据的集成 47
3.4.1数据的变量集成:合并节点 47
3.4.2数据的记录集成:追加节点 50
第4章 一点都不简单的描述性统计分析 53
4.1分类变量的基本分析:“矩阵”节点 54
4.2连续变量的基本分析:数据审核节点 57
4.2.1连续变量基本分析指标介绍 57
4.2.2“数据审核”节点 63
第5章 何为足够大的差异:常用的统计检验 67
5.1假设检验 68
5.1.1假设检验的基本原理 68
5.1.2假设检验的一般步骤 69
5.2连续变量与分类变量之间的关系:t检验 70
5.2.1两组独立样本均值比较 71
5.2.2两组配对样本均值比较 72
5.2.3使用t检验的前提条件 73
5.2.4案例:使用均值比较分析电信客户的流失情况 73
5.3两个连续变量之间的关系:相关分析 75
5.3.1相关分析理论 76
5.3.2案例:使用相关分析研究居民消费水平与国内生产总值的相关关系 77
5.4两个分类变量之间的关系:卡方检验 80
5.4.1卡方检验的原理 80
5.4.2卡方检验的前提条件 82
5.4.3案例:使用卡方检验研究两个分类字段之间的关系 82
第6章 从身高和体重的关系谈起:回归分析 84
6.1一元线性回归分析 85
6.1.1分析因变量与自变量的关系,构建回归模型 85
6.1.2估计模型系数,求解回归模型 87
6.1.3对模型系数进行检验,确认模型有效性 88
6.1.4拟合优度检验,判断模型解释能力 89
6.1.5借助回归模型进行预测 90
6.2多元线性回归分析 90
6.2.1估计模型系数,求解回归模型 91
6.2.2对模型参数进行检验,确认模型有效性 92
6.2.3拟合优度检验,判断模型解释能力 94
6.2.4模型的变量选择 95
6.3使用线性回归分析的注意事项 97
6.4案例:使用回归分析研究影响房屋价格的重要因素 98
第7章 回归岂止这么简单:回归模型的进一步扩展 102
7.1曲线回归 103
7.2 Logistic回归 110
7.2.1 Logistic回归理论 110
7.2.2案例:使用Logistic回归模型分析个人收入水平影响因素 112
第8章 模型评估那些事儿:过拟合与欠拟合 117
8.1过拟合与欠拟合 118
8.2留出法与交叉验证 122
8.2.1留出法与分层抽样 122
8.2.2交叉验证 124
第9章 从看电影的思考到决策树的生成 126
9.1决策树概述 127
9.2决策树生成 129
9.2.1从ID3算法到C5.0算法 131
9.2.2 CART算法 134
9.3决策树的剪枝 136
9.3.1预剪枝策略 137
9.3.2后剪枝策略 137
9.3.3代价敏感学习 138
9.4案例:用决策树分析客户违约情况 140
9.5关于信息熵的扩展 147
第10章 人工神经网络:从人脑神经元开始 151
10.1从人脑神经元到人工神经网络 152
10.2感知机 154
10.3人工神经网络 159
10.3.1隐藏层的作用 159
10.3.2人工神经网络算法 160
10.4案例:利用人工神经网络分析某电信运营商的客户流失情况 164
第11章 物以类聚,人以群分:聚类分析 172
11.1聚类思想的概述 173
11.2聚类方法的关键:距离 175
11.3 K-Means算法 176
11.3.1 K-Means算法原理 176
11.3.2轮廓系数(Silhouette coefficient) 177
11.4案例:利用K-Means算法对不同型号汽车的属性进行聚类分群研究 179
第12章 啤酒+尿布=关联分析? 186
12.1一个关于关联分析的传说 187
12.2关联分析的基本概念 188
12.3关联规则的有效性指标 190
12.4 Apriori算法 192
12.4.1生成频繁项集 193
12.4.2生成关联规则 195
12.5案例:利用Apriori算法对顾客的个人信息及购买记录进行关联分析 195
第13章 三个臭皮匠,赛过诸葛亮:集成学习算法 199
13.1集成学习算法概述 200
13.2 3种不同的集成学习算法 201
13.2.1 Bagging算法 201
13.2.2 Boosting算法 203
13.2.3随机森林 204
13.3集成学习算法实践 205
13.3.1 Bagging算法和Boosting算法 205
13.3.2随机森林 211
13.3.3集成学习算法结果比较 214
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《中学语文教学案例研究》贺卫东主编 2019
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《Cinema 4D电商美工与视觉设计案例教程》樊斌 2019
- 《骨鲠集》宋云彬著 1942
- 《东单栖凤楼》芮法彬著 2018
- 《《易纬》占术研究》刘彬著 2014
- 《其实数学很好玩儿 冬季篇》(美)Highligts出版社著;张浩译 2019
- 《农民抗战丛书要目》杨村彬著
- 《中国现代新诗的语言与形式》赵彬著 2020
- 《清宫外史 第二部 光绪变政记》杨村彬著 1946
- 《秦良玉 四幕历史剧》杨林彬著 1941
- 《明清以来福建区域社会史论》徐文彬著 2019
- 《创新集群的演化机制与效率》乔彬著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017