Python机器学习 5个数据科学家案例解析PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:(美)达西·哈龙著;潘海为,张春新译
- 出 版 社:北京:清华大学出版社
- 出版年份:2018
- ISBN:9787302508915
- 页数:183 页
第1章 统计与概率 1
1.1 案例研究:自行车共享计划——确定品牌角色 1
1.2 进行探索性数据分析 3
1.2.1 特征探索 4
1.2.2 变量的类型 5
1.2.3 单变量分析 8
1.2.4 多变量分析 12
1.2.5 时间序列成分 15
1.3 度量测度中心 17
1.3.1 平均数 17
1.3.2 中位数 18
1.3.3 众数 19
1.3.4 方差 19
1.3.5 标准差 19
1.3.6 由于常量的存在而导致中心统计度量的变化 20
1.3.7 正态分布 22
1.4 相关性 29
1.4.1 Pearson R相关 29
1.4.2 Kendall秩相关 29
1.4.3 Spearman秩相关 30
1.5 假设检验:比较两组 31
1.5.1 t-统计量 32
1.5.2 t-分布和样本容量 32
1.6 中心极限定理 34
1.7 案例研究发现 35
1.8 统计和概率的应用 36
1.8.1 精算科学 36
1.8.2 生物统计学 36
1.8.3 天文统计学 36
1.8.4 商业分析 37
1.8.5 计量经济学 37
1.8.6 机器学习 37
1.8.7 统计信号处理 37
1.8.8 选举 37
第2章 回归 39
2.1 案例研究:消除混凝土抗压强度的不一致性 39
2.2 回归的概念 42
2.2.1 内插和外推 42
2.2.2 线性回归 42
2.2.3 y在x上的最小二乘回归线 43
2.2.4 多重回归 44
2.2.5 逐步回归 45
2.2.6 多项式回归 46
2.3 回归的假设 47
2.3.1 案例数量 47
2.3.2 缺失数据 47
2.3.3 多重共线性与奇异性 48
2.4 特征探索 49
2.5 过拟合和欠拟合 55
2.6 回归度量的评估 58
2.6.1 解释方差得分 58
2.6.2 平均绝对误差 58
2.6.3 均方误差 59
2.6.4 R2 59
2.6.5 残差 60
2.6.6 残差图 60
2.6.7 残差平方和 60
2.7 回归的类型 61
2.7.1 线性回归 61
2.7.2 网格搜索 65
2.7.3 岭回归 65
2.7.4 套索回归 68
2.7.5 ElasticNet 70
2.7.6 梯度boosting回归 71
2.7.7 支持向量机 74
2.8 回归的应用 78
2.8.1 预测销售额 78
2.8.2 预测债券价值 78
2.8.3 通货膨胀率 78
2.8.4 保险公司 79
2.8.5 呼叫中心 79
2.8.6 农业 79
2.8.7 预测薪水 79
2.8.8 房地产行业 80
第3章 时间序列 83
3.1 案例研究:预测雅虎的每日调整的收盘价 83
3.2 特征探索 85
3.3 评估时间序列对象的平稳性 86
3.3.1 具有平稳本质的时间序列的性质 87
3.3.2 测试以确定时间序列是否平稳 87
3.3.3 制作时间序列对象的方法 90
3.4 测试以确定时间序列是否具有自相关性 100
3.4.1 自相关函数 100
3.4.2 偏自相关函数 100
3.4.3 度量自相关 101
3.4.4 Durbin Watson统计 101
3.5 建模时间序列 102
3.5.1 验证预测序列的实验 102
3.5.2 确定建模参数 103
3.6 自回归综合移动平均 105
3.6.1 自回归移动平均 105
3.6.2 自回归 106
3.6.3 移动平均线 107
3.6.4 组合模型 108
3.7 缩减预测规模 109
3.8 时间序列分析应用 113
3.8.1 销售预测 113
3.8.2 天气预测 113
3.8.3 失业率估计 113
3.8.4 疾病爆发 113
3.8.5 股市预测 114
第4章 聚类 115
4.1 案例研究:确定营销短尾关键词 115
4.2 特征的探索 117
4.3 有监督学习与无监督学习 118
4.3.1 有监督学习 119
4.3.2 无监督学习 119
4.4 聚类分析 120
4.5 为建模作数据转换 120
4.6 聚类模型 124
4.6.1 k-means聚类 124
4.6.2 将k-means聚类应用于簇的最优数量 129
4.6.3 主成分分析 130
4.6.4 高斯混合模型 137
4.6.5 贝叶斯高斯混合模型 142
4.7 聚类的应用 144
4.7.1 疾病识别 144
4.7.2 搜索引擎中的文档聚类 144
4.7.3 基于人口统计的客户划分 145
第5章 分类 147
5.1 案例研究:俄亥俄州诊所——满足供求 147
5.2 特征探究 149
5.3 实施数据整理 154
5.4 实施探索性数据分析 157
5.5 特征的生成 162
5.6 分类 164
5.6.1 模型评估技术 164
5.6.2 二元分类器:受试者工作特征 165
5.6.3 决策树分类 168
5.7 核近似 169
5.7.1 SGD分类器 169
5.7.2 集成方法 172
5.8 随机森林分类 173
5.9 分类应用 178
5.9.1 图像分类 178
5.9.2 音乐分类 178
5.9.3 E-mail的垃圾邮件过滤 178
5.9.4 保险 179
附录A 图表类型以及何时使用它们 181
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《数字影视特效制作技法解析》王文瑞著 2019
- 《一个数学家的辩白》(英)哈代(G.H.Hardy)著;李文林,戴宗铎,高嵘译 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《中学语文教学案例研究》贺卫东主编 2019
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《2019国家医师资格考试用书 中医执业助理医师资格考试全真模拟试卷与解析 第3版》国家医师资格考试研究组 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019