数据挖掘方法与模型PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:(美)拉罗斯著;刘燕权等译
- 出 版 社:北京:高等教育出版社
- 出版年份:2011
- ISBN:9787040309683
- 页数:287 页
第1章降维方法 1
1.1数据挖掘中降低维度的必要性 1
1.2主成分分析法 2
1.2.1主成分分析应用于房屋数据集 4
1.2.2应提取多少个主成分 9
1.3因子分析法 16
1.3.1因子分析法在成年人数据集中的应用 16
1.3.2因子旋转 19
1.4用户自定义合成 21
总结 23
参考文献 25
练习题 26
第2章回归模型 30
2.1简单线性回归实例 30
2.2最小二乘法估计 33
2.3决定系数 36
2.4估计值的标准误差 40
2.5相关系数 41
2.6方差分析表 43
2.7异常点、高杠杆点和强影响观测值 44
2.8回归模型 50
2.9回归推断 52
2.9.1x和y之间线性关系的t检验 53
2.9.2回归直线斜率的置信区间 54
2.9.3给定x条件下,y均值的置信区间 55
2.9.4给定x条件下,y随机选择值的预测区间 55
2.10回归假设检验 58
2.11实例:棒球数据集 62
2.12实例:加利福尼亚州数据集 68
2.13线性变换实现 72
总结 77
参考文献 79
练习题 79
第3章多元回归和建模 85
3.1多元回归实例 85
3.2多元回归模型 90
3.3多元回归推断 91
3.3.1y和xi之间关系的t检验 91
3.3.2营养级别和糖之间关系的t检验 92
3.3.3营养级别和纤维之间关系的t检验 92
3.3.4整体回归模型的显著性水平检验:F检验 93
3.3.5营养级别(糖和纤维)的综合因素的F检验 94
3.3.6特定回归系数的置信区间 95
3.3.7给定x1,x2,…,xm下,y均值的置信区间 95
3.3.8给定x1,x2,…,xm下,y随机选择值的预测区间 95
3.4含有分类预测变量的回归 96
3.4.1调整R2:对包含无用预测变量的惩罚模式 103
3.4.2序贯的误差平方和 104
3.5多重共线性 106
3.6变量选择方法 112
3.6.1偏F检验 113
3.6.2向前选择程序 114
3.6.3向后排除程序 114
3.6.4逐步选择程序 115
3.6.5最优子集程序 115
3.6.6所有可能的子集选择程序 115
3.7变量选择方法的应用 116
3.7.1向前选择程序应用于谷物数据集 116
3.7.2向后排除程序应用于谷物数据集 118
3.7.3逐步选择程序应用于谷物数据集 120
3.7.4最优子集程序应用于谷物数据集 120
3.8Mallows’Cp统计量 121
3.9变量选择标准 123
3.10用主成分作为预测变量 131
总结 136
参考文献 137
练习题 137
第4章逻辑回归 143
4.1逻辑回归的简单实例 143
4.2最大似然估计 146
4.3解读逻辑回归模型的输出 146
4.4推论:预测变量都显著吗 147
4.5解读逻辑回归模型 149
4.5.1解读一个两分预测变量的模型 150
4.5.2解读一个多分预测变量的模型 153
4.5.3解读一个连续预测变量的模型 157
4.6线性假设 161
4.7空值问题 164
4.8多元逻辑回归 166
4.9引入高阶项处理非线性问题 170
4.10验证逻辑回归模型 176
4.11WEKA:运用逻辑回归进行实际应用分析 180
总结 184
参考文献 186
练习题 186
第5章朴素贝叶斯估计和贝叶斯网络 191
5.1贝叶斯方法 191
5.2最大后验概率分类 193
5.2.1后验让步比 197
5.2.2平衡数据 198
5.3朴素贝叶斯分类 201
5.4WEKA:运用朴素贝叶斯进行实际应用分析 208
5.5贝叶斯信念网络 212
5.5.1购买服装实例 212
5.5.2使用贝叶斯网络寻找概率 214
5.6WEKA:运用贝叶斯网络分类器进行实际应用分析 216
总结 218
参考文献 220
练习题 220
第6章遗传算法 223
6.1遗传算法简介 223
6.2遗传算法的基本框架 224
6.3遗传算法运用简单实例 225
6.3.1第一次循环 225
6.3.2第二次循环 227
6.4修改和改进:选择 227
6.5修改和改进:交叉 228
6.6实值变量的遗传算法 230
6.7使用遗传算法训练神经网络 231
6.8WEKA:使用遗传算法进行实际操作分析 235
总结 242
参考文献 243
练习题 244
第7章案例研究:直邮营销的回应建模问题 246
7.1跨行业的数据挖掘标准流程 246
7.2业务理解阶段 248
7.2.1直邮营销回应问题 248
7.2.2建立成本/收益表 248
7.3数据理解和数据准备阶段 250
7.3.1服装店数据集 250
7.3.2变换以实现数据的正态性或对称性 252
7.3.3标准化和标志变量 254
7.3.4衍生新的变量 255
7.3.5探索预测变量和回应变量之间的关系 256
7.3.6对预测变量之间关联结构的考察 262
7.4建模和评估阶段 264
7.4.1主成分分析 266
7.4.2聚类分析:BIRCH聚类算法 268
7.4.3平衡训练数据集 271
7.4.4建立基线模型性能 272
7.4.5模型集A:使用主成分 273
7.4.6失衡作为错误分类成本的替代 275
7.4.7组合模型:投票 277
7.4.8模型集B:非主成分分析模型 279
7.4.9利用均值回应概率组合模型 281
总结 284
参考文献 287
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《数学物理方法与仿真 第3版》杨华军 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《习近平总书记教育重要论述讲义》本书编写组 2020
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《高等数学试题与详解》西安电子科技大学高等数学教学团队 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《教育学考研应试宝典》徐影主编 2019
- 《语文教育教学实践探索》陈德收 2018
- 《家庭音乐素养教育》刘畅 2018