第1章 准备预测建模 1
1.1 模型 1
1.1.1 从数据中学习 2
1.1.2 模型的核心组成部分 5
1.1.3 我们的第一个模型:k近邻 5
1.2 模型的类型 7
1.2.1 有监督、无监督、半监督和强化学习模型 7
1.2.2 参数化和非参数化模型 8
1.2.3 回归和分类模型 8
1.2.4 实时和批处理机器学习模型 9
1.3 预测建模的过程 9
1.3.1 定义模型的目标 9
1.3.2 收集数据 10
1.3.3 选取模型 11
1.3.4 数据的预处理 12
1.3.5 特征工程和降维 19
1.3.6 训练和评估模型 22
1.3.7 重复尝试不同模型及模型的最终选择 25
1.3.8 部署模型 25
1.4 性能衡量指标 25
1.4.1 评估回归模型 26
1.4.2 评估分类模型 26
1.5 小结 30
第2章 线性回归 31
2.1 线性回归入门 31
2.2 简单线性回归 33
2.3 多元线性回归 36
2.3.1 预测CPU性能 37
2.3.2 预测二手汽车的价格 38
2.4 评估线性回归模型 40
2.4.1 残差分析 42
2.4.2 线性回归的显著性检验 45
2.4.3 线性回归的性能衡量指标 47
2.4.4 比较不同的回归模型 49
2.4.5 在测试集上的性能 50
2.5 线性回归的问题 51
2.5.1 多重共线性 51
2.5.2 离群值 52
2.6 特征选择 53
2.7 正则化 55
2.7.1 岭回归 55
2.7.2 最小绝对值收缩和选择算子 56
2.7.3 在R语言里实现正则化 57
2.8 小结 59
第3章 逻辑回归 61
3.1 利用线性回归进行分类 61
3.2 逻辑回归入门 63
3.2.1 广义线性模型 63
3.2.2 解释逻辑回归中的系数 64
3.2.3 逻辑回归的假设 65
3.2.4 最大似然估计 65
3.3 预测心脏病 66
3.4 评估逻辑回归模型 69
3.4.1 模型的偏差 70
3.4.2 测试集的性能 73
3.5 利用lasso进行正则化 73
3.6 分类指标 74
3.7 二元逻辑分类器的扩展 76
3.7.1 多元逻辑回归 76
3.7.2 有序逻辑回归 80
3.8 小结 83
第4章 神经网络 84
4.1 生物神经元 84
4.2 人工神经元 85
4.3 随机梯度下降 86
4.3.1 梯度下降和局部极小值 88
4.3.2 感知器算法 88
4.3.3 线性分离 91
4.3.4 逻辑神经元 92
4.4 多层感知器网络 92
4.5 预测建筑物的能源效率 95
4.6 重新进行玻璃类型预测 99
4.7 预测手写数字 102
4.8 小结 106
第5章 支持向量机 108
5.1 最大边缘分类 108
5.2 支持向量分类 111
5.3 核和支持向量机 113
5.4 预测化学品的生物降解 115
5.5 交叉验证 118
5.6 预测信用评分 120
5.7 用支持向量机进行多类别分类 123
5.8 小结 123
第6章 树形方法 124
6.1 树形模型的直观印象 124
6.2 训练决策树的算法 126
6.2.1 分类和回归树 126
6.2.2 回归模型树 131
6.2.3 CART分类树 131
6.2.4 C5.0 133
6.3 在合成的二维数据上预测类别归属关系 134
6.4 预测纸币的真实性 136
6.5 预测复杂的技能学习 138
6.5.1 在CART树里对模型参数进行调优 140
6.5.2 树模型中的变量重要性 141
6.5.3 回归模型树实用示例 142
6.6 小结 143
第7章 集成方法 144
7.1 装袋 144
7.1.1 边缘和袋外观测数据 145
7.1.2 用装袋预测复杂技能学习 146
7.1.3 用装袋预测心脏病 146
7.1.4 装袋的局限性 150
7.2 增强 151
7.3 预测大气中伽马射线的辐射 152
7.4 利用增强算法预测复杂技能学习 156
7.5 随机森林 157
7.6 小结 159
第8章 概率图模型 161
8.1 图论入门 161
8.2 贝叶斯定理 163
8.3 条件性独立 163
8.4 贝叶斯网络 164
8.5 朴素贝叶斯分类器 165
8.6 隐马尔可夫模型 172
8.7 预测启动子基因序列 174
8.8 预测英语单词里的字母特征 179
8.9 小结 182
第9章 时间序列分析 184
9.1 时间序列的基本概念 184
9.2 一些基本的时间序列 185
9.2.1 白噪声 185
9.2.2 随机漫步 187
9.3 平稳性 188
9.4 平稳时间序列模型 189
9.4.1 移动平均模型 189
9.4.2 自回归模型 192
9.4.3 自回归移动平均模型 193
9.5 非平稳时间序列模型 194
9.5.1 整合自回归移动平均模型 194
9.5.2 自回归条件异方差模型 195
9.5.3 广义自回归条件异方差模型 195
9.6 预测强烈地震 196
9.7 预测猞猁的诱捕 199
9.8 预测外汇汇率 200
9.9 其他时间序列模型 202
9.10 小结 203
第10章 主题建模 204
10.1 主题建模概况 204
10.2 隐含狄式分布 205
10.2.1 狄式分布 205
10.2.2 生成过程 208
10.2.3 拟合LDA模型 209
10.3 对在线新闻报道的主题进行建模 210
10.3.1 模型稳定性 215
10.3.2 找出主题数量 216
10.3.3 主题分布 217
10.3.4 单词分布 219
10.3.5 LDA扩展模型 220
10.4 小结 220
第11章 推荐系统 222
11.1 评分矩阵 222
11.2 协同过滤 225
11.2.1 基于用户的协同过滤 225
11.2.2 基于商品的协同过滤 228
11.3 奇异值分解 228
11.4 R语言和大数据 231
11.5 预测电影和笑话的推荐 232
11.6 加载和预处理数据 233
11.7 对数据进行探索 234
11.7.1 评估二元的top-N推荐 236
11.7.2 评估非二元的top-N推荐 239
11.7.3 评估每种预测方法 241
11.8 推荐系统的其他方法 242
11.9 小结 243