数据挖掘 商业数据分析技术与实践PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:(美)盖丽特·徐茉莉(Galit Shmueli)著
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302497660
- 页数:399 页
第一部分 预备知识 2
1 导论 2
1.1 什么是商业分析? 2
1.2 什么是数据挖掘? 4
1.3 数据挖掘及相关用语 4
1.4 大数据 5
1.5 数据科学 6
1.6 为什么会有这么多不同的方法? 7
1.7 术语和符号 7
1.8 本书框架 9
2 数据挖掘概述 13
2.1 引言 13
2.2 数据挖掘的核心思想 14
2.3 数据挖掘步骤 16
2.4 初步步骤 18
2.5 预测能力和过拟合 24
2.6 用JMP Pro建立预测模型 29
2.7 用JMP Pro进行数据挖掘 36
2.8 自动化数据挖掘解决方案 37
第二部分 数据探索与降维 46
3 数据可视化 46
3.1 数据可视化的用途 46
3.2 数据实例 47
3.3 基本图形:条形图、折线图和散点图 49
3.4 多维可视化 56
3.5 特殊可视化 68
3.6 基于数据挖掘目标的主要可视化方案和操作概要 72
4 降维 76
4.1 引言 76
4.2 维度灾难 77
4.3 实际考虑 77
4.4 数据汇总 78
4.5 相关分析 82
4.6 减少分类变量中的类别数量 82
4.7 将分类型变量转换为连续型变量 84
4.8 主成分分析 84
4.9 利用回归模型降维 94
4.10 利用分类和回归树降维 94
第三部分 性能评估 98
5 评估预测效果 98
5.1 引言 98
5.2 评价预测性能 99
5.3 评判分类效果 101
5.4 评判分类性能 112
5.5 过采样 115
第四部分 预测与分类方法 122
6 多元线性回归 122
6.1 引言 122
6.2 解释模型与预测模型 123
6.3 估计回归方程和预测 124
6.4 线性回归中的变量选择 129
7 k近邻法 142
7.1 k-NN分类(分类型结果变量) 142
7.2 数值型结果变量下的k-NN方法 147
7.3 k-NN算法的优点和缺点 149
8 朴素贝叶斯分类器 153
8.1 引言 153
8.2 使用完全(精确)贝叶斯分类器 155
8.3 朴素贝叶斯方法的优点和缺点 163
9 分类和回归树 168
9.1 引言 168
9.2 分类树 169
9.3 生成树 172
9.4 评估分类树的效果 176
9.5 避免过拟合 178
9.6 树中的分类准则 181
9.7 多分类的分类树 182
9.8 回归树 182
9.9 树的优点和缺点 184
9.10 预测方法的提高:组合多棵树 186
9.11 不纯度的提取和度量 188
10 逻辑回归 193
10.1 引言 193
10.2 逻辑回归模型 195
10.3 评价分类性能 202
10.4 完整分析案例:预测航班延误 205
10.5 附录:逻辑回归的概括 214
11 神经网络 225
11.1 引言 225
11.2 神经网络的概念和结构 226
11.3 拟合数据 226
11.4 JMP Pro用户输入 240
11.5 探索预测变量和响应变量的关系 242
11.6 神经网络的优点和缺陷 243
12 判别分析 247
12.1 引言 247
12.2 观测值到类的距离 249
12.3 从距离到倾向和分类 251
12.4 判别分析的分类性能 254
12.5 先验概率 255
12.6 多类别分类 256
12.7 优点和缺点 258
13 组合方法:集成算法和增量模型 263
13.1 集成算法 263
13.2 增量(说服)模型 268
13.3 总结 274
第五部分 挖掘记录之间的关系 280
14 聚类分析 280
14.1 引言 280
14.2 定义两个观测值之间的距离 284
14.3 定义两个类之间的距离 288
14.4 系统(凝聚)聚类 290
14.5 非系统聚类:k-means算法 299
第六部分 时间序列预测 310
15 时间序列处理 310
15.1 引言 310
15.2 描述性与预测性建模 311
15.3 商业中的主流预测方法 312
15.4 时间序列的构成 312
15.5 数据分割和性能评价 316
16 回归预测模型 321
16.1 趋势模型 321
16.2 季节模型 327
16.3 趋势和季节模型 330
16.4 自相关和ARIMA模型 331
17 平滑法 350
17.1 引言 350
17.2 移动平均法 351
17.3 简单指数平滑法 355
17.4 高级指数平滑法 358
第七部分 案例 372
18 案例 372
18.1 查尔斯图书俱乐部 372
18.2 德国信贷 378
18.3 太古软件编目 382
18.4 政治说教 385
18.5 出租车订单取消 388
18.6 浴皂的消费者细分 390
18.7 直邮筹款 393
18.8 破产预测 395
18.9 时间序列案例:预测公共交通需求 398
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《激光加工实训技能指导理实一体化教程 下》王秀军,徐永红主编;刘波,刘克生副主编 2017
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019