第1章 机器学习概述 1
1.1机器学习简介 2
1.1.1机器学习简史 2
1.1.2机器学习主要流派 3
1.2机器学习、人工智能和数据挖掘 5
1.2.1什么是人工智能 5
1.2.2什么是数据挖掘 6
1.2.3机器学习、人工智能与数据挖掘的关系 6
1.3典型机器学习应用领域 7
1.4机器学习算法 13
1.5机器学习的一般流程 20
习题 21
第2章 机器学习基本方法 23
2.1统计分析 24
2.1.1统计基础 24
2.1.2常见概率分布 29
2.1.3参数估计 30
2.1.4假设检验 32
2.1.5线性回归 33
2.1.6逻辑回归 35
2.1.7判别分析 37
2.1.8非线性模型 38
2.2高维数据降维 39
2.2.1主成分分析 39
2.2.2奇异值分解 42
2.2.3线性判别分析 43
2.2.4局部线性嵌入 46
2.2.5拉普拉斯特征映射 47
2.3特征工程 49
2.3.1特征构建 49
2.3.2特征选择 50
2.3.3特征提取 51
2.4模型训练 51
2.4.1模型训练常见术语 51
2.4.2训练数据收集 51
2.5可视化分析 52
2.5.1可视化分析的作用 53
2.5.2可视化分析方法 53
2.5.3可视化分析常用工具 54
2.5.4常见的可视化图表 56
2.5.5可视化分析面临的挑战 66
习题 66
第3章 决策树与分类算法 68
3.1决策树算法 69
3.1.1分支处理 70
3.1.2连续属性离散化 76
3.1.3过拟合问题 78
3.1.4分类效果评价 83
3.2集成学习 87
3.2.1装袋法 87
3.2.2提升法 88
3.2.3GBDT 90
3.2.4随机森林 91
3.3决策树应用 93
习题 96
第4章 聚类分析 97
4.1聚类分析概念 98
4.1.1聚类方法分类 98
4.1.2良好聚类算法的特征 99
4.2聚类分析的度量 100
4.2.1外部指标 100
4.2.2内部指标 101
4.3基于划分的聚类 103
4.3.1k-均值算法 103
4.3.2k-medoids算法 108
4.3.3k-prototype算法 108
4.4基于密度的聚类 109
4.4.1DBSCAN算法 109
4.4.2OPTICS算法 111
4.4.3DENCLUE算法 112
4.5基于层次的聚类 115
4.5.1BIRCH聚类 115
4.5.2CURE算法 118
4.6基于网格的聚类 121
4.7基于模型的聚类 121
4.7.1概率模型聚类 121
4.7.2模糊聚类 126
4.7.3Kohonen神经网络聚类 126
习题 132
第5章 文本分析 134
5.1文本分析介绍 135
5.2文本特征提取及表示 135
5.2.1TF-IDF 136
5.2.2信息增益 136
5.2.3互信息 137
5.2.4卡方统计量 138
5.2.5词嵌入 138
5.2.6语言模型 139
5.2.7向量空间模型 141
5.3知识图谱 142
5.3.1知识图谱相关概念 143
5.3.2知识图谱的存储 144
5.3.3知识图谱挖掘与计算 145
5.3.4知识图谱的构建过程 146
5.4词法分析 151
5.4.1文本分词 151
5.4.2命名实体识别 154
5.4.3词义消歧 155
5.5句法分析 155
5.6语义分析 157
5.7文本分析应用 158
5.7.1文本分类 159
5.7.2信息抽取 161
5.7.3问答系统 162
5.7.4情感分析 163
5.7.5自动摘要 164
习题 165
第6章 神经网络 166
6.1神经网络介绍 167
6.1.1前馈神经网络 167
6.1.2反馈神经网络 169
6.1.3自组织神经网络 172
6.2神经网络相关概念 173
6.2.1激活函数 173
6.2.2损失函数 176
6.2.3学习率 178
6.2.4过拟合 180
6.2.5模型训练中的问题 181
6.2.6神经网络效果评价 184
6.3神经网络应用 184
习题 188
第7章 贝叶斯网络 189
7.1贝叶斯理论概述 190
7.2贝叶斯概率基础 190
7.2.1概率论 190
7.2.2贝叶斯概率 191
7.3朴素贝叶斯分类模型 192
7.4贝叶斯网络推理 195
7.5贝叶斯网络的应用 200
7.5.1中文分词 200
7.5.2机器翻译 201
7.5.3故障诊断 201
7.5.4疾病诊断 202
习题 204
第8章 支持向量机 205
8.1支持向量机模型 206
8.1.1核函数 206
8.1.2模型原理分析 207
8.2支持向量机应用 210
习题 215
第9章 进化计算 216
9.1遗传算法的基础 217
9.1.1基因重组与基因突变 217
9.1.2遗传算法实现技术 218
9.1.3遗传算法应用案例 222
9.2蚁群算法 223
9.3蜂群算法 225
习题 227
第10章 分布式机器学习 229
10.1分布式机器学习基础 230
10.1.1参数服务器 230
10.1.2分布式并行计算类型 231
10.2分布式机器学习框架 232
10.3并行决策树 238
10.4并行k-均值算法 238
习题 240
第11章 深度学习 242
11.1卷积神经网络 243
11.1.1卷积神经网络简介 243
11.1.2卷积神经网络的结构 244
11.1.3常见卷积神经网络 246
11.2循环神经网络 254
11.2.1RNN基本原理 254
11.2.2长短期记忆网络 260
11.2.3门限循环单元 263
11.3深度学习流行框架 264
习题 265
第12章 高级深度学习 266
12.1高级卷积神经网络 267
12.1.1目标检测与追踪 267
12.1.2目标分割 270
12.2高级循环神经网络应用 272
12.2.1Encoder-Decoder模型 272
12.2.2注意力模型 273
12.2.3LSTM高级应用 274
12.3无监督式深度学习 275
12.3.1深度信念网络 275
12.3.2生成对抗网络模型 277
12.4强化学习 277
12.5迁移学习 279
12.6对偶学习 282
习题 283
第13章 推荐系统 284
13.1推荐系统基础 285
13.1.1推荐系统的应用场景 285
13.1.2相似度计算 286
13.2推荐系统通用模型 288
13.2.1推荐系统结构 288
13.2.2基于人口统计学的推荐 288
13.2.3基于内容的推荐 289
13.2.4基于协同过滤的推荐算法 290
13.2.5基于图的模型 292
13.2.6基于关联规则的推荐 293
13.2.7基于知识的推荐 299
13.2.8基于标签的推荐 300
13.3推荐系统评测 301
13.3.1评测方法 301
13.3.2评测指标 302
13.4推荐系统常见问题 306
13.5推荐系统实例 309
习题 318
第14章 实验 319
14.1华为Fusionlnsight产品平台介绍 320
14.2银行定期存款业务预测 321
14.2.1上传银行客户及存贷款数据 322
14.2.2准备存款业务分析工作区 322
14.2.3创建数据挖掘流程 323
14.2.4定期存款业务模型保存和应用 330
14.3客户分群 333
14.3.1分析业务需求 333
14.3.2上传客户信息数据 335
14.3.3准备客户分群工作区 336
14.3.4创建数据挖掘流程 337
14.3.5客户分群模型保存和应用 344
附录 《机器学习》配套实验课程方案简介 347
参考文献 348