第一章 绪论 11
1.1 数据科学的基本内容 11
1.2 对学科发展的影响 18
1.3 对科学研究的影响 21
1.4 数据科学的课程体系 23
1.5 本书内容介绍 23
第二章 数据预处理 26
2.1 特征编码 27
2.2 缺失值处理 29
2.3 数据标准化 33
2.4 特征离散化 37
2.5 离群值检测 46
2.6 其他预处理方法 50
案例与实战 51
第三章 回归模型 53
3.1 线性回归 53
3.2 线性回归正则化 57
3.3 非线性回归 63
案例与实战 67
第四章 分类模型 69
4.1 逻辑回归 70
4.2 K近邻 74
4.3 决策树 79
4.4 朴素贝叶斯 91
4.5 支持向量机 95
案例与实战 104
第五章 集成模型 106
5.1 集成方法综述 106
5.2 随机森林 112
5.3 AdaBoost 116
5.4 应用实例:个人信用风险评估 124
案例与实战 131
第六章 聚类模型 133
6.1 K-means聚类 134
6.2 层次聚类 138
6.3 谱聚类 142
6.4 基于密度的聚类 144
6.5 小结 147
案例与实战 148
第七章 关联规则挖掘 150
7.1 关联规则概述 150
7.2 Apriori算法 153
7.3 FP-Growth算法 157
案例与实战 166
第八章 降维 169
8.1 主成分分析 169
8.2 线性判别分析 172
8.3 多维尺度变换 178
8.4 局部线性嵌入 183
8.5 其他降维方法 188
案例与实战 189
第九章 特征选择 191
9.1 特征选择的一般过程 191
9.2 特征选择常用的方法 193
9.3 无监督特征选择 197
9.4 小结 199
案例与实战 199
第十章 EM算法 201
10.1 EM算法 201
10.2 EM的应用:高斯混合模型 204
10.3 小结 208
案例与实战 208
第十一章 概率图模型 211
11.1 概率图模型概述 211
11.2 隐马尔可夫模型 215
11.3 条件随机场 226
11.4 小结 232
案例与实战 233
第十二章 文本分析 235
12.1 文本表示模型 236
12.2 主题模型 246
12.3 情感分析 253
案例与实战 262
第十三章 图与网络分析 264
13.1 基本概念 265
13.2 几何特征 270
13.3 链接分析 276
13.4 社区发现 281
13.5 知识图谱 285
案例与实战 290
第十四章 深度学习 292
14.1 多层感知机 294
14.2 深度学习模型的优化 302
14.3 卷积神经网络 309
14.4 循环神经网络 315
14.5 小结 322
案例与实战 324
第十五章 分布式计算 325
15.1 Hadoop:分布式存储与处理 326
15.2 常见模型的MapReduce实现 332
15.3 Spark:分布式数据分析 338
15.4 其他分布式系统 344
附录 345
A.矩阵运算 345
B.概率论基础 350
C.优化算法 355
D.距离 360
E.模型评估 364
参考文献 378