第1章 机器学习简介 1
1.1 机器学习的任务 2
1.2 机器学习的三种方式 3
1.3 机器学习系统的建立 8
1.4 机器学习实例 9
第2章 Python常用库介绍 18
2.1 Python的安装(Anaconda) 19
2.1.1 Spyder 22
2.1.2 Jupyter Notebook 23
2.2 Python常用库 26
2.2.1 Numpy库 27
2.2.2 Pandas库 32
2.2.3 Matplotlib库 37
2.2.4 Statsmodels库 45
2.2.5 Scikit-learn库 47
2.3 其他Python常用的数据库 48
2.4 Python各种库在机器学习中的应用 49
第3章 数据的准备和探索 52
3.1 数据预处理 53
3.2 数据假设检验 59
3.3 数据间的关系 65
3.4 数据可视化 69
3.5 特征提取和降维 79
第4章 模型训练和评估 90
4.1 模型训练技巧 91
4.2 分类效果的评价 98
4.3 回归模型评价 102
4.4 聚类分析评估 104
第5章 回归分析 108
5.1 回归分析简介 109
5.2 多元线性回归分析 111
5.2.1 多元线性回归 111
5.2.2 逐步回归 114
5.3 Lasso回归分析 118
5.4 Logistic回归分析 122
5.5 时间序列预测 125
第6章 关联规则 134
6.1 关联规则简介 135
6.2 使用关联规则找到问卷的规则 136
6.3 关联规则可视化 142
第7章 无监督学习 147
7.1 无监督学习介绍 148
7.2 系统聚类 152
7.3 K-均值聚类 155
7.4 密度聚类 160
7.5 Mean Shift聚类 163
7.6 字典学习图像去噪 165
第8章 文本LDA模型 175
8.1 文本分析简介 176
8.2 中文分词 177
8.3 LDA主题模型分析《红楼梦》 179
8.4 红楼梦人物关系 185
第9章 决策树和集成学习 194
9.1 模型简介 195
9.2 泰坦尼克号数据预处理 198
9.3 决策树模型 204
9.4 决策树剪枝 207
9.5 随机森林模型 210
9.6 AdaBoost模型 215
第10章 朴素贝叶斯和K近邻分类 221
10.1 模型简介 222
10.2 垃圾邮件数据预处理 224
10.3 贝叶斯模型识别垃圾邮件 227
10.4 基于异常值检测的垃圾邮件查找 233
10.4.1 PCA异常值检测 234
10.4.2 Isolation Forest异常值检测 236
10.5 数据不平衡问题的处理 238
10.6 K近邻分类 239
第11章 支持向量机和神经网络 252
11.1 模型简介 253
11.2 肺癌数据可视化 256
11.3 支持向量机模型 259
11.4 全连接神经网络 264
第12章 深度学习入门 278
12.1 深度学习介绍 279
12.2 卷积和池化 281
12.3 CNN人脸识别 290
12.4 CNN人脸检测 303
12.5 深度卷积图像去噪 309
12.5.1 空洞卷积 309
12.5.2 图像与图像块的相互转换 310
12.5.3 一种深度学习去噪方法 312