第1章 统计与概率 1
1.1 案例研究:自行车共享计划——确定品牌角色 1
1.2 进行探索性数据分析 3
1.2.1 特征探索 4
1.2.2 变量的类型 5
1.2.3 单变量分析 8
1.2.4 多变量分析 12
1.2.5 时间序列成分 15
1.3 度量测度中心 17
1.3.1 平均数 17
1.3.2 中位数 18
1.3.3 众数 19
1.3.4 方差 19
1.3.5 标准差 19
1.3.6 由于常量的存在而导致中心统计度量的变化 20
1.3.7 正态分布 22
1.4 相关性 29
1.4.1 Pearson R相关 29
1.4.2 Kendall秩相关 29
1.4.3 Spearman秩相关 30
1.5 假设检验:比较两组 31
1.5.1 t-统计量 32
1.5.2 t-分布和样本容量 32
1.6 中心极限定理 34
1.7 案例研究发现 35
1.8 统计和概率的应用 36
1.8.1 精算科学 36
1.8.2 生物统计学 36
1.8.3 天文统计学 36
1.8.4 商业分析 37
1.8.5 计量经济学 37
1.8.6 机器学习 37
1.8.7 统计信号处理 37
1.8.8 选举 37
第2章 回归 39
2.1 案例研究:消除混凝土抗压强度的不一致性 39
2.2 回归的概念 42
2.2.1 内插和外推 42
2.2.2 线性回归 42
2.2.3 y在x上的最小二乘回归线 43
2.2.4 多重回归 44
2.2.5 逐步回归 45
2.2.6 多项式回归 46
2.3 回归的假设 47
2.3.1 案例数量 47
2.3.2 缺失数据 47
2.3.3 多重共线性与奇异性 48
2.4 特征探索 49
2.5 过拟合和欠拟合 55
2.6 回归度量的评估 58
2.6.1 解释方差得分 58
2.6.2 平均绝对误差 58
2.6.3 均方误差 59
2.6.4 R2 59
2.6.5 残差 60
2.6.6 残差图 60
2.6.7 残差平方和 60
2.7 回归的类型 61
2.7.1 线性回归 61
2.7.2 网格搜索 65
2.7.3 岭回归 65
2.7.4 套索回归 68
2.7.5 ElasticNet 70
2.7.6 梯度boosting回归 71
2.7.7 支持向量机 74
2.8 回归的应用 78
2.8.1 预测销售额 78
2.8.2 预测债券价值 78
2.8.3 通货膨胀率 78
2.8.4 保险公司 79
2.8.5 呼叫中心 79
2.8.6 农业 79
2.8.7 预测薪水 79
2.8.8 房地产行业 80
第3章 时间序列 83
3.1 案例研究:预测雅虎的每日调整的收盘价 83
3.2 特征探索 85
3.3 评估时间序列对象的平稳性 86
3.3.1 具有平稳本质的时间序列的性质 87
3.3.2 测试以确定时间序列是否平稳 87
3.3.3 制作时间序列对象的方法 90
3.4 测试以确定时间序列是否具有自相关性 100
3.4.1 自相关函数 100
3.4.2 偏自相关函数 100
3.4.3 度量自相关 101
3.4.4 Durbin Watson统计 101
3.5 建模时间序列 102
3.5.1 验证预测序列的实验 102
3.5.2 确定建模参数 103
3.6 自回归综合移动平均 105
3.6.1 自回归移动平均 105
3.6.2 自回归 106
3.6.3 移动平均线 107
3.6.4 组合模型 108
3.7 缩减预测规模 109
3.8 时间序列分析应用 113
3.8.1 销售预测 113
3.8.2 天气预测 113
3.8.3 失业率估计 113
3.8.4 疾病爆发 113
3.8.5 股市预测 114
第4章 聚类 115
4.1 案例研究:确定营销短尾关键词 115
4.2 特征的探索 117
4.3 有监督学习与无监督学习 118
4.3.1 有监督学习 119
4.3.2 无监督学习 119
4.4 聚类分析 120
4.5 为建模作数据转换 120
4.6 聚类模型 124
4.6.1 k-means聚类 124
4.6.2 将k-means聚类应用于簇的最优数量 129
4.6.3 主成分分析 130
4.6.4 高斯混合模型 137
4.6.5 贝叶斯高斯混合模型 142
4.7 聚类的应用 144
4.7.1 疾病识别 144
4.7.2 搜索引擎中的文档聚类 144
4.7.3 基于人口统计的客户划分 145
第5章 分类 147
5.1 案例研究:俄亥俄州诊所——满足供求 147
5.2 特征探究 149
5.3 实施数据整理 154
5.4 实施探索性数据分析 157
5.5 特征的生成 162
5.6 分类 164
5.6.1 模型评估技术 164
5.6.2 二元分类器:受试者工作特征 165
5.6.3 决策树分类 168
5.7 核近似 169
5.7.1 SGD分类器 169
5.7.2 集成方法 172
5.8 随机森林分类 173
5.9 分类应用 178
5.9.1 图像分类 178
5.9.2 音乐分类 178
5.9.3 E-mail的垃圾邮件过滤 178
5.9.4 保险 179
附录A 图表类型以及何时使用它们 181