《预测分析 R语言实现》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:(希)鲁伊·米格尔·福特(Rui Miguel Forte)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111553540
  • 页数:243 页
图书介绍:R提供了一个免费、开源的环境,这对于学习预测建模以及在真实环境下部署解决方案是很理想的。随着不断增长的社区和大量扩展包的出现,R提供了一个应对一系列问题的切实解决方案。本书可以作为学习预测建模基础知识的指南和参考读物。本书的开篇是关于模型术语和预测建模过程的一个专门章节。后续的每个章节会讲解具体的一类模型(例如神经网络),并把重点放在三个重要问题上:模型如何工作,如何利用R语言训练模型,以及如何利用实际环境下的数据集来衡量和评估模型的性能。通过阅读本书,读者将利用实际环境下的数据集探讨和测试最流行的建模技术,并掌握多种预测分析领域的技术。

第1章 准备预测建模 1

1.1 模型 1

1.1.1 从数据中学习 2

1.1.2 模型的核心组成部分 5

1.1.3 我们的第一个模型:k近邻 5

1.2 模型的类型 7

1.2.1 有监督、无监督、半监督和强化学习模型 7

1.2.2 参数化和非参数化模型 8

1.2.3 回归和分类模型 8

1.2.4 实时和批处理机器学习模型 9

1.3 预测建模的过程 9

1.3.1 定义模型的目标 9

1.3.2 收集数据 10

1.3.3 选取模型 11

1.3.4 数据的预处理 12

1.3.5 特征工程和降维 19

1.3.6 训练和评估模型 22

1.3.7 重复尝试不同模型及模型的最终选择 25

1.3.8 部署模型 25

1.4 性能衡量指标 25

1.4.1 评估回归模型 26

1.4.2 评估分类模型 26

1.5 小结 30

第2章 线性回归 31

2.1 线性回归入门 31

2.2 简单线性回归 33

2.3 多元线性回归 36

2.3.1 预测CPU性能 37

2.3.2 预测二手汽车的价格 38

2.4 评估线性回归模型 40

2.4.1 残差分析 42

2.4.2 线性回归的显著性检验 45

2.4.3 线性回归的性能衡量指标 47

2.4.4 比较不同的回归模型 49

2.4.5 在测试集上的性能 50

2.5 线性回归的问题 51

2.5.1 多重共线性 51

2.5.2 离群值 52

2.6 特征选择 53

2.7 正则化 55

2.7.1 岭回归 55

2.7.2 最小绝对值收缩和选择算子 56

2.7.3 在R语言里实现正则化 57

2.8 小结 59

第3章 逻辑回归 61

3.1 利用线性回归进行分类 61

3.2 逻辑回归入门 63

3.2.1 广义线性模型 63

3.2.2 解释逻辑回归中的系数 64

3.2.3 逻辑回归的假设 65

3.2.4 最大似然估计 65

3.3 预测心脏病 66

3.4 评估逻辑回归模型 69

3.4.1 模型的偏差 70

3.4.2 测试集的性能 73

3.5 利用lasso进行正则化 73

3.6 分类指标 74

3.7 二元逻辑分类器的扩展 76

3.7.1 多元逻辑回归 76

3.7.2 有序逻辑回归 80

3.8 小结 83

第4章 神经网络 84

4.1 生物神经元 84

4.2 人工神经元 85

4.3 随机梯度下降 86

4.3.1 梯度下降和局部极小值 88

4.3.2 感知器算法 88

4.3.3 线性分离 91

4.3.4 逻辑神经元 92

4.4 多层感知器网络 92

4.5 预测建筑物的能源效率 95

4.6 重新进行玻璃类型预测 99

4.7 预测手写数字 102

4.8 小结 106

第5章 支持向量机 108

5.1 最大边缘分类 108

5.2 支持向量分类 111

5.3 核和支持向量机 113

5.4 预测化学品的生物降解 115

5.5 交叉验证 118

5.6 预测信用评分 120

5.7 用支持向量机进行多类别分类 123

5.8 小结 123

第6章 树形方法 124

6.1 树形模型的直观印象 124

6.2 训练决策树的算法 126

6.2.1 分类和回归树 126

6.2.2 回归模型树 131

6.2.3 CART分类树 131

6.2.4 C5.0 133

6.3 在合成的二维数据上预测类别归属关系 134

6.4 预测纸币的真实性 136

6.5 预测复杂的技能学习 138

6.5.1 在CART树里对模型参数进行调优 140

6.5.2 树模型中的变量重要性 141

6.5.3 回归模型树实用示例 142

6.6 小结 143

第7章 集成方法 144

7.1 装袋 144

7.1.1 边缘和袋外观测数据 145

7.1.2 用装袋预测复杂技能学习 146

7.1.3 用装袋预测心脏病 146

7.1.4 装袋的局限性 150

7.2 增强 151

7.3 预测大气中伽马射线的辐射 152

7.4 利用增强算法预测复杂技能学习 156

7.5 随机森林 157

7.6 小结 159

第8章 概率图模型 161

8.1 图论入门 161

8.2 贝叶斯定理 163

8.3 条件性独立 163

8.4 贝叶斯网络 164

8.5 朴素贝叶斯分类器 165

8.6 隐马尔可夫模型 172

8.7 预测启动子基因序列 174

8.8 预测英语单词里的字母特征 179

8.9 小结 182

第9章 时间序列分析 184

9.1 时间序列的基本概念 184

9.2 一些基本的时间序列 185

9.2.1 白噪声 185

9.2.2 随机漫步 187

9.3 平稳性 188

9.4 平稳时间序列模型 189

9.4.1 移动平均模型 189

9.4.2 自回归模型 192

9.4.3 自回归移动平均模型 193

9.5 非平稳时间序列模型 194

9.5.1 整合自回归移动平均模型 194

9.5.2 自回归条件异方差模型 195

9.5.3 广义自回归条件异方差模型 195

9.6 预测强烈地震 196

9.7 预测猞猁的诱捕 199

9.8 预测外汇汇率 200

9.9 其他时间序列模型 202

9.10 小结 203

第10章 主题建模 204

10.1 主题建模概况 204

10.2 隐含狄式分布 205

10.2.1 狄式分布 205

10.2.2 生成过程 208

10.2.3 拟合LDA模型 209

10.3 对在线新闻报道的主题进行建模 210

10.3.1 模型稳定性 215

10.3.2 找出主题数量 216

10.3.3 主题分布 217

10.3.4 单词分布 219

10.3.5 LDA扩展模型 220

10.4 小结 220

第11章 推荐系统 222

11.1 评分矩阵 222

11.2 协同过滤 225

11.2.1 基于用户的协同过滤 225

11.2.2 基于商品的协同过滤 228

11.3 奇异值分解 228

11.4 R语言和大数据 231

11.5 预测电影和笑话的推荐 232

11.6 加载和预处理数据 233

11.7 对数据进行探索 234

11.7.1 评估二元的top-N推荐 236

11.7.2 评估非二元的top-N推荐 239

11.7.3 评估每种预测方法 241

11.8 推荐系统的其他方法 242

11.9 小结 243