第1章 机器学习简介 1
1.1 经典机器和自适应机器简介 1
1.2 机器学习的分类 2
1.2.1 监督学习 3
1.2.2 无监督学习 5
1.2.3 强化学习 7
1.3 超越机器学习——深度学习和仿生自适应系统 8
1.4 机器学习和大数据 9
延伸阅读 10
本章小结 10
第2章 机器学习的重要元素 11
2.1 数据格式 11
2.2 可学习性 13
2.2.1 欠拟合和过拟合 15
2.2.2 误差度量 16
2.2.3 PAC学习 18
2.3 统计学习方法 19
2.3.1 最大后验概率学习 20
2.3.2 最大似然学习 20
2.4 信息论的要素 24
参考文献 26
本章小结 26
第3章 特征选择与特征工程 28
3.1 scikit-learn练习数据集 28
3.2 创建训练集和测试集 29
3.3 管理分类数据 30
3.4 管理缺失特征 33
3.5 数据缩放和归一化 33
3.6 特征选择和过滤 35
3.7 主成分分析 37
3.7.1 非负矩阵分解 42
3.7.2 稀疏PCA 42
3.7.3 核PCA 43
3.8 原子提取和字典学习 45
参考文献 47
本章小结 47
第4章 线性回归 48
4.1 线性模型 48
4.2 一个二维的例子 48
4.3 基于scikit-leam的线性回归和更高维 50
4.4 Ridge、Lasso和ElasticNet 53
4.5 随机采样一致的鲁棒回归 57
4.6 多项式回归 58
4.7 保序回归 60
参考文献 62
本章小结 62
第5章 逻辑回归 64
5.1 线性分类 64
5.2 逻辑回归 65
5.3 实现和优化 67
5.4 随机梯度下降算法 69
5.5 通过网格搜索找到最优超参数 71
5.6 评估分类的指标 73
5.7 ROC曲线 77
本章小结 79
第6章 朴素贝叶斯 81
6.1 贝叶斯定理 81
6.2 朴素贝叶斯分类器 82
6.3 scikit-learn中的朴素贝叶斯 83
6.3.1 伯努利朴素贝叶斯 83
6.3.2 多项式朴素贝叶斯 85
6.3.3 高斯朴素贝叶斯 86
参考文献 89
本章小结 89
第7章 支持向量机 90
7.1 线性支持向量机 90
7.2 scikit-learn实现 93
7.2.1 线性分类 94
7.2.2 基于内核的分类 95
7.2.3 非线性例子 97
7.3 受控支持向量机 101
7.4 支持向量回归 103
参考文献 104
本章小结 104
第8章 决策树和集成学习 105
8.1 二元决策树 105
8.1.1 二元决策 106
8.1.2 不纯度的衡量 107
8.1.3 特征重要度 109
8.2 基于scikit-learn的决策树分类 109
8.3 集成学习 113
8.3.1 随机森林 114
8.3.2 AdaBoost 116
8.3.3 梯度树提升 118
8.3.4 投票分类器 120
参考文献 122
本章小结 122
第9章 聚类基础 124
9.1 聚类简介 124
9.1.1 k均值聚类 125
9.1.2 DBSCAN 136
9.1.3 光谱聚类 138
9.2 基于实证的评价方法 139
9.2.1 同质性 140
9.2.2 完整性 140
9.2.3 修正兰德指数 141
参考文献 142
本章小结 142
第10章 层次聚类 143
10.1 分层策略 143
10.2 凝聚聚类 143
10.2.1 树形图 145
10.2.2 scikit-learn中的凝聚聚类 147
10.2.3 连接限制 149
参考文献 151
本章小结 152
第11章 推荐系统简介 153
11.1 朴素的基于用户的系统 153
11.2 基于内容的系统 156
11.3 无模式(或基于内存的)协同过滤 158
11.4 基于模型的协同过滤 160
11.4.1 奇异值分解策略 161
11.4.2 交替最小二乘法策略 163
11.4.3 用Apache Spark MLlib实现交替最小二乘法策略 164
参考文献 167
本章小结 167
第12章 自然语言处理简介 169
12.1 NLTK和内置语料库 169
12.2 词袋策略 171
12.2.1 标记 172
12.2.2 停止词的删除 174
12.2.3 词干提取 175
12.2.4 向量化 176
12.3 基于路透社语料库的文本分类器例子 180
参考文献 182
本章小结 182
第13章 自然语言处理中的主题建模与情感分析 183
13.1 主题建模 183
13.1.1 潜在语义分析 183
13.1.2 概率潜在语义分析 188
13.1.3 潜在狄利克雷分配 193
13.2 情感分析 198
参考文献 202
本章小结 202
第14章 深度学习和TensorFlow简介 203
14.1 深度学习简介 203
14.1.1 人工神经网络 203
14.1.2 深层结构 206
14.2 TensorFlow简介 208
14.2.1 计算梯度 210
14.2.2 逻辑回归 212
14.2.3 用多层感知器进行分类 215
14.2.4 图像卷积 218
14.3 Keras内部速览 220
参考文献 225
本章小结 225
第15章 构建机器学习框架 226
15.1 机器学习框架 226
15.1.1 数据收集 227
15.1.2 归一化 227
15.1.3 降维 227
15.1.4 数据扩充 228
15.1.5 数据转换 228
15.1.6 建模、网格搜索和交叉验证 229
15.1.7 可视化 229
15.2 用于机器学习框架的scikit-learn工具 229
15.2.1 管道 229
15.2.2 特征联合 232
参考文献 233
本章小结 233