应用回归及分类 基于RPDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:吴喜之编著
- 出 版 社:北京:中国人民大学出版社
- 出版年份:2016
- ISBN:9787300222875
- 页数:236 页
第一章 引言 1
1.1 作为科学的统计 1
1.1.1 统计是科学 1
1.1.2 模型驱动的历史及数据驱动的未来 1
1.1.3 数据中的信息是由观测值数目及相关变量的数目决定的 2
1.2 传统参数模型和机器学习算法模型 3
1.2.1 参数模型比算法模型容易解释是伪命题 3
1.2.2 参数模型的竞争模型的对立性和机器学习不同模型的协和性 4
1.2.3 评价和对比模型 4
1.3 国内统计教学及课本的若干误区 5
1.3.1 假设检验的误区:不能拒绝就接受? 5
1.3.2 p值的误区 6
1.3.3 置信区间的误区 7
1.3.4 样本量是多少才算大样本? 7
1.3.5 用31个省市自治区数据能做什么? 8
1.3.6 汇总数据(比如部分均值)和原始观测值的区别 8
1.4 R软件入门 9
1.4.1 简介 9
1.4.2 安装和运行小贴士 10
1.4.3 动手 11
1.5 习题 12
第二章 经典线性回归 13
2.1 模型形式 14
2.1.1 自变量为一个数量变量的情况 14
2.1.2 自变量为多个数量变量的情况 14
2.1.3 “线性”是对系数而言的 15
2.2 用最小二乘法估计线性模型 15
2.2.1 一个数量自变量的情况 15
2.2.2 指数变换 19
2.2.3 多个数量自变量的情况 20
2.2.4 自变量为定性变量的情况 23
2.3 关于系数的性质和推断 26
2.3.1 基本假定 26
2.3.2 关于Ho:βi=0 ?H1:βi≠0的t检验 28
2.3.3 关于多自变量系数复合假设F检验及方差分析表 29
2.3.4 定性变量的显著性必须从方差分析表看出 31
2.3.5 关于残差的检验及点图 32
2.4 通过一个“教科书数据”来理解简单最小二乘回归 33
2.4.1 几种竞争的线性模型 34
2.4.2 孤立地看模型可能会产生多个模型都“正确”的结论 37
2.4.3 比较多个模型试图得到相对较好的模型 37
2.4.4 对例2.4的6个模型做预测精度的交叉验证 38
2.5 一个“非教科书数据”例子 40
2.5.1 线性回归的尝试 41
2.5.2 和其他方法的交叉验证比较 43
2.6 经典最小二乘回归误导汇总 45
2.6.1 大量主观的假定 45
2.6.2 对回归结果的缺乏根据的“解释” 46
2.6.3 增加无关的(“错误的”)自变量对预测会不会有影响? 47
2.7 处理线性回归多重共线性的经典方法 48
2.7.1 多重共线性 48
2.7.2 逐步回归 49
2.7.3 岭回归 51
2.7.4 lasso回归 53
2.7.5 适应性lasso回归 54
2.7.6 偏最小二乘回归 56
2.7.7 对例2.7,偏最小二乘回归优于所有常用经典方法 57
2.8 损失函数及分位数回归简介 59
2.8.1 损失函数 59
2.8.2 恩格尔数据例子的分位数回归 60
2.9 习题 64
第三章 广义线性模型 65
3.1 模型 65
3.2 指数分布族及典则连接函数 66
3.3 似然函数和准似然函数 68
3.3.1 似然函数和记分函数 68
3.3.2 广义线性模型的记分函数 69
3.3.3 准记分函数、准对数似然函数及准似然估计 70
3.4 广义线性模型的一些推断问题 71
3.4.1 最大似然估计和Wald检验 71
3.4.2 偏差和基于偏差的似然比检验 72
3.4.3 散布参数的估计 73
3.5 logistic回归和二元分类问题 74
3.5.1 logistic回归(probit回归) 74
3.5.2 用logistic回归做分类 78
3.6 Poisson对数线性模型及频数数据的预测 81
3.6.1 Poisson对数线性模型 83
3.6.2 使用Poisson对数线性模型的一些问题 86
3.6.3 Poisson对数线性模型的预测及交叉验证 88
3.7 习题 90
第四章 纵向数据及分层模型 92
4.1 通过一个数值例子解释模型 92
4.1.1 牛奶蛋白质含量例子及两层模型 92
4.1.2 模型的拟合及输出 94
4.2 线性随机效应混合模型的一般形式 96
4.3 远程监控帕金森病例子 97
4.4 不同模型对纵向数据做预测的交叉验证对比 100
4.5 广义线性随机效应混合模型 101
4.5.1 对例4.3的分析 102
4.5.2 对例4.4的分析 103
4.6 决策树和随机效应混合模型 105
4.7 习题 106
第五章 机器学习回归方法 108
5.1 引言 108
5.2 作为基本模型的决策树(回归树) 108
5.2.1 回归树的描述 109
5.2.2 使用回归树来预测 111
5.2.3 决策树回归和线性模型回归的比较和交叉验证 112
5.2.4 回归树的生长:如何选择拆分变量及如何结束生长 115
5.3 组合方法的思想 119
5.3.1 直观说明 119
5.3.2 组合方法及自助法抽样 120
5.4 bagging回归 122
5.4.1 概述 122
5.4.2 全部数据的拟合 122
5.4.3 交叉验证和模型比较 123
5.5 随机森林回归 125
5.5.1 概述 125
5.5.2 例子及拟合全部数据 125
5.5.3 随机森林回归中的变量重要性 127
5.5.4 部分依赖图 128
5.5.5 利用随机森林做变量选择 129
5.5.6 接近度和离群点图 129
5.5.7 关于误差的两个点图 130
5.5.8 寻求节点最优竞争变量个数 130
5.5.9 对例5.3数据做三种方法的交叉验证 131
5.6 mboost回归 133
5.6.1 概述 133
5.6.2 例子及拟合全部数据 134
5.6.3 对例5.4做几种方法的交叉验证 137
5.7 人工神经网络回归 139
5.7.1 概述 139
5.7.2 用神经网络拟合例5.4全部数据 141
5.7.3 选择神经网络的参数 142
5.7.4 对例5.4做神经网络的10折交叉验证 143
5.8 支持向量机回归 144
5.8.1 概述 144
5.8.2 用支持向量机拟合例5.2全部数据 147
5.8.3 对例5.2数据做五种方法的交叉验证 148
5.9 k最近邻回归 150
5.9.1 概述 150
5.9.2 对例5.2数据做k最近邻方法的交叉验证 151
5.10 习题 152
第六章 生存分析及Cox模型 154
6.1 基本概念 154
6.2 生存函数的Kaplan-Meier估计 155
6.3 累积危险函数 157
6.4 估计和检验 158
6.4.1 生存时间的中位数和均值估计 158
6.4.2 几个样本的危险函数检验 159
6.5 Cox比例危险回归模型 161
6.6 习题 164
第七章 经典分类:判别分析 165
7.1 线性判别分析 165
7.2 Fisher判别分析 167
7.3 混合线性判别分析 169
7.4 各种方法拟合例7.1数据的比较 169
7.4.1 用线性判别分析和混合线性判别分析拟合例7.1数据 169
7.4.2 对经典线性判别方法和机器学习方法拟合例7.1数据的比较 171
7.5 习题 172
第八章 机器学习分类方法 173
8.1 作为基本模型的决策树(分类树) 173
8.1.1 分类树的描述 173
8.1.2 使用分类树来预测 175
8.1.3 变量重要性 176
8.1.4 分类树的生长:如何选择拆分变量及如何结束生长 177
8.2 bagging分类 180
8.2.1 对例8.1全部数据的分类 180
8.2.2 使用bagging来预测 181
8.2.3 用自带函数做交叉验证 181
8.2.4 分类差额 182
8.3 随机森林分类 183
8.3.1 对例8.1拟合全部数据 183
8.3.2 对例8.1数据的拟合精度计算 184
8.3.3 随机森林分类的变量重要性 185
8.3.4 部分依赖图 186
8.3.5 接近度和离群点图 187
8.3.6 关于误差的两个点图 188
8.3.7 寻求最佳节点竞争变量个数 189
8.4 adaboost分类 189
8.4.1 概述 189
8.4.2 对例8.1全部数据的分类及变量重要性 190
8.4.3 使用adaboost来预测 191
8.4.4 用自带函数做交叉验证 192
8.4.5 分类差额 192
8.5 人工神经网络分类 193
8.6 支持向量机分类 194
8.6.1 线性可分问题的基本思想 194
8.6.2 近似线性可分问题 198
8.6.3 非线性可分问题 200
8.6.4 多于两类的支持向量机分类 202
8.6.5 对例8.1全部数据的拟合 203
8.7 k最近邻方法分类 204
8.8 对例8.1做各种方法分类的交叉验证 205
8.9 案例分析:蘑菇可食性数据 207
8.9.1 决策树分类 207
8.9.2 bagging分类 210
8.9.3 随机森林分类 210
8.9.4 adaboost分类 213
8.9.5 4种方法的交叉验证 214
8.10 案例分析:手写数字笔迹识别 215
8.10.1 使用给定的测试集来比较各种方法 216
8.10.2 各种方法的单独分析 217
8.10.3 对例8.3整个数据做几种方法的10折交叉验证 222
8.11 第七章和第八章习题 224
附录练习:熟练使用R软件 226
参考文献 234
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《区块链DAPP开发入门、代码实现、场景应用》李万胜著 2019
- 《虚拟流域环境理论技术研究与应用》冶运涛蒋云钟梁犁丽曹引等编著 2019
- 《当代翻译美学的理论诠释与应用解读》宁建庚著 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《教师教育系列教材 心理学原理与应用 第2版 视频版》郑红,倪嘉波,刘亨荣编;陈冬梅责编 2020
- 《物联网与嵌入式技术及其在农业上的应用》马德新 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019