第1章 引言 1
参考文献 5
第2章 处理信息与认识数据 6
2.1 例1:2006年出生数据 6
2.2 例2:校友捐赠 14
2.3 例3:橘子汁 24
参考文献 31
第3章 标准线性回归 32
3.1 用R函数估算线性回归模型 34
3.2 例1:汽车燃油效率 34
3.3 例2:丰田二手车价格 37
附录3.A 模型过度拟合对回归预测均方误差的影响 42
参考文献 43
第4章 局部多项式回归的非参数回归方法 44
4.1 模型的选择 45
4.2 密度估计和直方图平滑化的应用 46
4.3 多重回归模型的拓展 46
4.4 例题和软件 46
4.4.1 例1:老忠实喷泉 46
4.4.2 例2:NOx排放物 49
参考文献 53
第5章 简约在统计建模中的重要性 54
5.1 怎样防止低假阳率 54
参考文献 56
第6章 多参数回归模型中基于惩罚算法的变量选择 57
6.1 例1:前列腺癌 59
6.2 例2:橙汁 63
参考文献 66
第7章 Logistic回归 67
7.1 对二分类响应数据建立线性模型 67
7.2 Logistic回归模型中回归系数的解释 68
7.3 统计推断 69
7.4 对新样例的分类 69
7.5 用R语言估计 70
7.6 例1:死刑数据 70
7.6.1 二分类Logistic回归:Minitab程序输出 71
7.6.2 R语言输出结果的解释与分析 71
7.7 例2:延误的航班 74
7.8 例3:贷款验收 80
7.9 例4:德国信贷数据 83
参考文献 87
第8章 二元分类、概率和分类性能的评价 88
8.1 二元分类 88
8.2 使用概率作决策 88
8.3 灵敏度和特异度 88
8.4 例子:德国信贷数据 89
第9章 最近邻分析分类 93
9.1 k近邻算法 93
9.2 例1:玻璃碎片的法医分析 94
9.3 例2:德国信贷数据 99
参考文献 101
第10章 朴素贝叶斯分析:一种由以分类为主的变量对分类响应变量预测的模型 102
10.1 例:航班延误 102
参考文献 105
第11章 多项式Logistic回归 106
11.1 计算软件 107
11.2 例1:玻璃碎片的法医分析 107
11.3 例2:重温玻璃碎片的法医分析 112
附录11.A 简单三重矩阵的详述 117
参考文献 119
第12章 分类和判别分析的深入探讨 120
12.1 Fisher线性判别函数 122
12.2 例1:德国信用卡数据 123
12.3 例2:Fisher鸢尾花数据 124
12.4 例3:玻璃碎片的法医分析数据 125
12.5 例4:MBA申请数据 127
参考文献 128
第13章 决策树 129
13.1 例1:前列腺癌 133
13.2 例2:摩托车加速度 142
13.3 例3:回顾Fisher鸢尾花数据集 144
第14章 回归、分类树、计算软件及其他实用分类方法的深入探讨 146
14.1 有关树结构的R程序包 146
14.2 卡方自动交互检验 147
14.3 集成方法:Bagging算法、Boosting算法和随机森林 148
14.4 支持向量机 150
14.5 神经网络 151
14.6 R程序包:关于数据挖掘的一个有用的图形用户界面 151
参考文献 153
第15章 聚类 154
15.1 k均值聚类 154
15.2 另眼看聚类:将期望最大化算法应用于混合正态分布 161
15.2.1 E步 162
15.2.2 M步 162
15.3 层次聚类过程 167
参考文献 172
第16章 购物篮分析:关联规则和提升度 173
16.1 例1:在线广播 174
16.2 例2:收入预测 179
参考文献 184
第17章 降维:因子模型和主成分分析 185
17.1 例1:欧洲蛋白质的摄入数据 187
17.2 例2:月度失业率数据 191
第18章 带多重共线性输入的降维回归:主成分回归和偏最小二乘法 194
18.1 三个例子 195
18.1.1 例1:模拟数据 195
18.1.2 例2:基于50个州的历史失业率预测某州下个月的失业率 197
18.1.3 例3:预测下月失业率:比较不同方法样本外预测效果 199
参考文献 201
第19章 文本数据:文本挖掘和情感分析 202
19.1 逆多项式Logistic回归 203
19.2 例1:餐馆评论 204
19.3 例2:政治主张 208
附录19.A Gentzkow/Shapiro关于“slant”的估计和偏最小二乘的关系 210
参考文献 212
第20章 网络数据 214
20.1 例1:15世纪佛罗伦萨的婚姻与权力 214
20.2 例2:友谊网络的连接 218
参考文献 229
附录A 练习 230
附录B 参考文献 264