《应用回归及分类 基于R》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:吴喜之编著
  • 出 版 社:北京:中国人民大学出版社
  • 出版年份:2016
  • ISBN:9787300222875
  • 页数:236 页
图书介绍:回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

第一章 引言 1

1.1 作为科学的统计 1

1.1.1 统计是科学 1

1.1.2 模型驱动的历史及数据驱动的未来 1

1.1.3 数据中的信息是由观测值数目及相关变量的数目决定的 2

1.2 传统参数模型和机器学习算法模型 3

1.2.1 参数模型比算法模型容易解释是伪命题 3

1.2.2 参数模型的竞争模型的对立性和机器学习不同模型的协和性 4

1.2.3 评价和对比模型 4

1.3 国内统计教学及课本的若干误区 5

1.3.1 假设检验的误区:不能拒绝就接受? 5

1.3.2 p值的误区 6

1.3.3 置信区间的误区 7

1.3.4 样本量是多少才算大样本? 7

1.3.5 用31个省市自治区数据能做什么? 8

1.3.6 汇总数据(比如部分均值)和原始观测值的区别 8

1.4 R软件入门 9

1.4.1 简介 9

1.4.2 安装和运行小贴士 10

1.4.3 动手 11

1.5 习题 12

第二章 经典线性回归 13

2.1 模型形式 14

2.1.1 自变量为一个数量变量的情况 14

2.1.2 自变量为多个数量变量的情况 14

2.1.3 “线性”是对系数而言的 15

2.2 用最小二乘法估计线性模型 15

2.2.1 一个数量自变量的情况 15

2.2.2 指数变换 19

2.2.3 多个数量自变量的情况 20

2.2.4 自变量为定性变量的情况 23

2.3 关于系数的性质和推断 26

2.3.1 基本假定 26

2.3.2 关于Ho:βi=0 ?H1:βi≠0的t检验 28

2.3.3 关于多自变量系数复合假设F检验及方差分析表 29

2.3.4 定性变量的显著性必须从方差分析表看出 31

2.3.5 关于残差的检验及点图 32

2.4 通过一个“教科书数据”来理解简单最小二乘回归 33

2.4.1 几种竞争的线性模型 34

2.4.2 孤立地看模型可能会产生多个模型都“正确”的结论 37

2.4.3 比较多个模型试图得到相对较好的模型 37

2.4.4 对例2.4的6个模型做预测精度的交叉验证 38

2.5 一个“非教科书数据”例子 40

2.5.1 线性回归的尝试 41

2.5.2 和其他方法的交叉验证比较 43

2.6 经典最小二乘回归误导汇总 45

2.6.1 大量主观的假定 45

2.6.2 对回归结果的缺乏根据的“解释” 46

2.6.3 增加无关的(“错误的”)自变量对预测会不会有影响? 47

2.7 处理线性回归多重共线性的经典方法 48

2.7.1 多重共线性 48

2.7.2 逐步回归 49

2.7.3 岭回归 51

2.7.4 lasso回归 53

2.7.5 适应性lasso回归 54

2.7.6 偏最小二乘回归 56

2.7.7 对例2.7,偏最小二乘回归优于所有常用经典方法 57

2.8 损失函数及分位数回归简介 59

2.8.1 损失函数 59

2.8.2 恩格尔数据例子的分位数回归 60

2.9 习题 64

第三章 广义线性模型 65

3.1 模型 65

3.2 指数分布族及典则连接函数 66

3.3 似然函数和准似然函数 68

3.3.1 似然函数和记分函数 68

3.3.2 广义线性模型的记分函数 69

3.3.3 准记分函数、准对数似然函数及准似然估计 70

3.4 广义线性模型的一些推断问题 71

3.4.1 最大似然估计和Wald检验 71

3.4.2 偏差和基于偏差的似然比检验 72

3.4.3 散布参数的估计 73

3.5 logistic回归和二元分类问题 74

3.5.1 logistic回归(probit回归) 74

3.5.2 用logistic回归做分类 78

3.6 Poisson对数线性模型及频数数据的预测 81

3.6.1 Poisson对数线性模型 83

3.6.2 使用Poisson对数线性模型的一些问题 86

3.6.3 Poisson对数线性模型的预测及交叉验证 88

3.7 习题 90

第四章 纵向数据及分层模型 92

4.1 通过一个数值例子解释模型 92

4.1.1 牛奶蛋白质含量例子及两层模型 92

4.1.2 模型的拟合及输出 94

4.2 线性随机效应混合模型的一般形式 96

4.3 远程监控帕金森病例子 97

4.4 不同模型对纵向数据做预测的交叉验证对比 100

4.5 广义线性随机效应混合模型 101

4.5.1 对例4.3的分析 102

4.5.2 对例4.4的分析 103

4.6 决策树和随机效应混合模型 105

4.7 习题 106

第五章 机器学习回归方法 108

5.1 引言 108

5.2 作为基本模型的决策树(回归树) 108

5.2.1 回归树的描述 109

5.2.2 使用回归树来预测 111

5.2.3 决策树回归和线性模型回归的比较和交叉验证 112

5.2.4 回归树的生长:如何选择拆分变量及如何结束生长 115

5.3 组合方法的思想 119

5.3.1 直观说明 119

5.3.2 组合方法及自助法抽样 120

5.4 bagging回归 122

5.4.1 概述 122

5.4.2 全部数据的拟合 122

5.4.3 交叉验证和模型比较 123

5.5 随机森林回归 125

5.5.1 概述 125

5.5.2 例子及拟合全部数据 125

5.5.3 随机森林回归中的变量重要性 127

5.5.4 部分依赖图 128

5.5.5 利用随机森林做变量选择 129

5.5.6 接近度和离群点图 129

5.5.7 关于误差的两个点图 130

5.5.8 寻求节点最优竞争变量个数 130

5.5.9 对例5.3数据做三种方法的交叉验证 131

5.6 mboost回归 133

5.6.1 概述 133

5.6.2 例子及拟合全部数据 134

5.6.3 对例5.4做几种方法的交叉验证 137

5.7 人工神经网络回归 139

5.7.1 概述 139

5.7.2 用神经网络拟合例5.4全部数据 141

5.7.3 选择神经网络的参数 142

5.7.4 对例5.4做神经网络的10折交叉验证 143

5.8 支持向量机回归 144

5.8.1 概述 144

5.8.2 用支持向量机拟合例5.2全部数据 147

5.8.3 对例5.2数据做五种方法的交叉验证 148

5.9 k最近邻回归 150

5.9.1 概述 150

5.9.2 对例5.2数据做k最近邻方法的交叉验证 151

5.10 习题 152

第六章 生存分析及Cox模型 154

6.1 基本概念 154

6.2 生存函数的Kaplan-Meier估计 155

6.3 累积危险函数 157

6.4 估计和检验 158

6.4.1 生存时间的中位数和均值估计 158

6.4.2 几个样本的危险函数检验 159

6.5 Cox比例危险回归模型 161

6.6 习题 164

第七章 经典分类:判别分析 165

7.1 线性判别分析 165

7.2 Fisher判别分析 167

7.3 混合线性判别分析 169

7.4 各种方法拟合例7.1数据的比较 169

7.4.1 用线性判别分析和混合线性判别分析拟合例7.1数据 169

7.4.2 对经典线性判别方法和机器学习方法拟合例7.1数据的比较 171

7.5 习题 172

第八章 机器学习分类方法 173

8.1 作为基本模型的决策树(分类树) 173

8.1.1 分类树的描述 173

8.1.2 使用分类树来预测 175

8.1.3 变量重要性 176

8.1.4 分类树的生长:如何选择拆分变量及如何结束生长 177

8.2 bagging分类 180

8.2.1 对例8.1全部数据的分类 180

8.2.2 使用bagging来预测 181

8.2.3 用自带函数做交叉验证 181

8.2.4 分类差额 182

8.3 随机森林分类 183

8.3.1 对例8.1拟合全部数据 183

8.3.2 对例8.1数据的拟合精度计算 184

8.3.3 随机森林分类的变量重要性 185

8.3.4 部分依赖图 186

8.3.5 接近度和离群点图 187

8.3.6 关于误差的两个点图 188

8.3.7 寻求最佳节点竞争变量个数 189

8.4 adaboost分类 189

8.4.1 概述 189

8.4.2 对例8.1全部数据的分类及变量重要性 190

8.4.3 使用adaboost来预测 191

8.4.4 用自带函数做交叉验证 192

8.4.5 分类差额 192

8.5 人工神经网络分类 193

8.6 支持向量机分类 194

8.6.1 线性可分问题的基本思想 194

8.6.2 近似线性可分问题 198

8.6.3 非线性可分问题 200

8.6.4 多于两类的支持向量机分类 202

8.6.5 对例8.1全部数据的拟合 203

8.7 k最近邻方法分类 204

8.8 对例8.1做各种方法分类的交叉验证 205

8.9 案例分析:蘑菇可食性数据 207

8.9.1 决策树分类 207

8.9.2 bagging分类 210

8.9.3 随机森林分类 210

8.9.4 adaboost分类 213

8.9.5 4种方法的交叉验证 214

8.10 案例分析:手写数字笔迹识别 215

8.10.1 使用给定的测试集来比较各种方法 216

8.10.2 各种方法的单独分析 217

8.10.3 对例8.3整个数据做几种方法的10折交叉验证 222

8.11 第七章和第八章习题 224

附录练习:熟练使用R软件 226

参考文献 234