第1章 监督学习 1
1.1 简介 1
1.2 数据预处理技术 2
1.2.1 准备工作 2
1.2.2 详细步骤 2
1.3 标记编码方法 4
1.4 创建线性回归器 6
1.4.1 准备工作 6
1.4.2 详细步骤 7
1.5 计算回归准确性 9
1.5.1 准备工作 9
1.5.2 详细步骤 10
1.6 保存模型数据 10
1.7 创建岭回归器 11
1.7.1 准备工作 11
1.7.2 详细步骤 12
1.8 创建多项式回归器 13
1.8.1 准备工作 13
1.8.2 详细步骤 14
1.9 估算房屋价格 15
1.9.1 准备工作 15
1.9.2 详细步骤 16
1.10 计算特征的相对重要性 17
1.11 评估共享单车的需求分布 19
1.11.1 准备工作 19
1.11.2 详细步骤 19
1.11.3 更多内容 21
第2章 创建分类器 24
2.1 简介 24
2.2 建立简单分类器 25
2.2.1 详细步骤 25
2.2.2 更多内容 27
2.3 建立逻辑回归分类器 27
2.4 建立朴素贝叶斯分类器 31
2.5 将数据集分割成训练集和测试集 32
2.6 用交叉验证检验模型准确性 33
2.6.1 准备工作 34
2.6.2 详细步骤 34
2.7 混淆矩阵可视化 35
2.8 提取性能报告 37
2.9 根据汽车特征评估质量 38
2.9.1 准备工作 38
2.9.2 详细步骤 38
2.10 生成验证曲线 40
2.11 生成学习曲线 43
2.12 估算收入阶层 45
第3章 预测建模 48
3.1 简介 48
3.2 用SVM建立线性分类器 49
3.2.1 准备工作 49
3.2.2 详细步骤 50
3.3 用SVM建立非线性分类器 53
3.4 解决类型数量不平衡问题 55
3.5 提取置信度 58
3.6 寻找最优超参数 60
3.7 建立事件预测器 62
3.7.1 准备工作 62
3.7.2 详细步骤 62
3.8 估算交通流量 64
3.8.1 准备工作 64
3.8.2 详细步骤 64
第4章 无监督学习——聚类 67
4.1 简介 67
4.2 用k-means算法聚类数据 67
4.3 用矢量量化压缩图片 70
4.4 建立均值漂移聚类模型 74
4.5 用凝聚层次聚类进行数据分组 76
4.6 评价聚类算法的聚类效果 79
4.7 用DBSCAN算法自动估算集群数量 82
4.8 探索股票数据的模式 86
4.9 建立客户细分模型 88
第5章 构建推荐引擎 91
5.1 简介 91
5.2 为数据处理构建函数组合 92
5.3 构建机器学习流水线 93
5.3.1 详细步骤 93
5.3.2 工作原理 95
5.4 寻找最近邻 95
5.5 构建一个KNN分类器 98
5.5.1 详细步骤 98
5.5.2 工作原理 102
5.6 构建一个KNN回归器 102
5.6.1 详细步骤 102
5.6.2 工作原理 104
5.7 计算欧氏距离分数 105
5.8 计算皮尔逊相关系数 106
5.9 寻找数据集中的相似用户 108
5.10 生成电影推荐 109
第6章 分析文本数据 112
6.1 简介 112
6.2 用标记解析的方法预处理数据 113
6.3 提取文本数据的词干 114
6.3.1 详细步骤 114
6.3.2 工作原理 115
6.4 用词形还原的方法还原文本的基本形式 116
6.5 用分块的方法划分文本 117
6.6 创建词袋模型 118
6.6.1 详细步骤 118
6.6.2 工作原理 120
6.7 创建文本分类器 121
6.7.1 详细步骤 121
6.7.2 工作原理 123
6.8 识别性别 124
6.9 分析句子的情感 125
6.9.1 详细步骤 126
6.9.2 工作原理 128
6.10 用主题建模识别文本的模式 128
6.10.1 详细步骤 128
6.10.2 工作原理 131
第7章 语音识别 132
7.1 简介 132
7.2 读取和绘制音频数据 132
7.3 将音频信号转换为频域 134
7.4 自定义参数生成音频信号 136
7.5 合成音乐 138
7.6 提取频域特征 140
7.7 创建隐马尔科夫模型 142
7.8 创建一个语音识别器 143
第8章 解剖时间序列和时序数据 147
8.1 简介 147
8.2 将数据转换为时间序列格式 148
8.3 切分时间序列数据 150
8.4 操作时间序列数据 152
8.5 从时间序列数据中提取统计数字 154
8.6 针对序列数据创建隐马尔科夫模型 157
8.6.1 准备工作 158
8.6.2 详细步骤 158
8.7 针对序列文本数据创建条件随机场 161
8.7.1 准备工作 161
8.7.2 详细步骤 161
8.8 用隐马尔科夫模型分析股票市场数据 164
第9章 图像内容分析 166
9.1 简介 166
9.2 用OpenCV-Pyhon操作图像 167
9.3 检测边 170
9.4 直方图均衡化 174
9.5 检测棱角 176
9.6 检测SIFT特征点 178
9.7 创建Star特征检测器 180
9.8 利用视觉码本和向量量化创建特征 182
9.9 用极端随机森林训练图像分类器 185
9.10 创建一个对象识别器 187
第10章 人脸识别 189
10.1 简介 189
10.2 从网络摄像头采集和处理视频信息 189
10.3 用Haar级联创建一个人脸识别器 191
10.4 创建一个眼睛和鼻子检测器 193
10.5 做主成分分析 196
10.6 做核主成分分析 197
10.7 做盲源分离 201
10.8 用局部二值模式直方图创建一个人脸识别器 205
第11章 深度神经网络 210
11.1 简介 210
11.2 创建一个感知器 211
11.3 创建一个单层神经网络 213
11.4 创建一个深度神经网络 216
11.5 创建一个向量量化器 219
11.6 为序列数据分析创建一个递归神经网络 221
11.7 在光学字符识别数据库中将字符可视化 225
11.8 用神经网络创建一个光学字符识别器 226
第12章 可视化数据 230
12.1 简介 230
12.2 画3D散点图 230
12.3 画气泡图 232
12.4 画动态气泡图 233
12.5 画饼图 235
12.6 画日期格式的时间序列数据 237
12.7 画直方图 239
12.8 可视化热力图 241
12.9 动态信号的可视化模拟 242