第1部分 数据科学和Microsoft Azure Machine Learning导论 3
第1章 数据科学导论 3
1.1 数据科学是什么 3
1.2 分析频谱 4
1.2.1 描述性分析 4
1.2.2 诊断性分析 5
1.2.3 预测性分析 5
1.2.4 规定性分析 5
1.3 为何重要,为何现在 6
1.3.1 把数据看作竞争资产 6
1.3.2 客户需求的增长 6
1.3.3 对数据挖掘技术认识的提高 7
1.3.4 访问更多数据 7
1.3.5 更快、更廉价的处理能力 7
1.3.6 数据科学流程 8
1.4 常见数据科学技术 10
1.4.1 分类算法 10
1.4.2 聚类算法 11
1.4.3 回归算法 12
1.4.4 模拟 12
1.4.5 内容分析 12
1.4.6 推荐引擎 13
1.5 数据科学的前沿 13
1.6 小结 14
第2章 Microsoft Azure Machine Learning导论 15
2.1 你好,Machine Learning Studio 15
2.2 实验的组件 16
2.3 Gallery简介 17
2.4 创建训练实验的5个简单步骤 18
2.4.1 第1步:获取数据 19
2.4.2 第2步:预处理数据 20
2.4.3 第3步:定义特征 22
2.4.4 第4步:选择和应用学习算法 23
2.4.5 第5步:在新数据之上做预测 24
2.5 在生产环境里部署你的模型 26
2.5.1 创建预测实验 26
2.5.2 把你的实验发布成Web服务 28
2.5.3 访问Azure Machine Learning的Web服务 28
2.6 小结 30
第3章 数据准备 31
3.1 数据清理和处理 31
3.1.1 了解你的数据 32
3.1.2 缺失值和空值 37
3.1.3 处理重复记录 38
3.1.4 识别并移除离群值 39
3.1.5 特征归一化 40
3.1.6 处理类别不均 41
3.2 特征选择 43
3.3 特征工程 46
3.3.1 分装数据 48
3.3.2 维度灾难 50
3.4 小结 53
第4章 整合R 54
4.1 R概览 54
4.2 构建和部署你的首个R脚本 56
4.3 使用R进行数据预处理 59
4.4 使用脚本包(ZIP) 61
4.5 使用R构建和部署决策树 64
4.6 小结 68
第5章 整合Python 69
5.1 概览 69
5.2 Python快速上手 70
5.3 在Azure ML实验里使用Python 71
5.4 使用Python进行数据预处理 76
5.4.1 使用Python合并数据 76
5.4.2 使用Python处理缺失值 79
5.4.3 使用Python进行特征选择 80
5.4.4 在Azure ML实验里运行Python代码 82
5.5 小结 86
第2部分 统计学和机器学习算法 89
第6章 统计学和机器学习算法概览 89
6.1 回归算法 89
6.1.1 线性回归 89
6.1.2 神经网络 90
6.1.3 决策树 92
6.1.4 提升决策树 93
6.2 分类算法 94
6.2.1 支持向量机 95
6.2.2 贝叶斯点机 96
6.3 聚类算法 97
6.4 小结 99
第3部分 实用应用程序 103
第7章 构建客户倾向模型 103
7.1 业务问题 103
7.2 数据获取和准备 104
7.3 训练模型 109
7.4 模型测试和验证 111
7.5 模型的效能 112
7.6 确定评估指标的优先级 115
7.7 小结 116
第8章 使用Power BI可视化你的模型 117
8.1 概览 117
8.2 Power BI简介 117
8.3 使用Power BI可视化的三种方案 119
8.4 在Azure Machine Learning里给你的数据评分,并在Excel里可视化 120
8.5 在Excel里评分并可视化你的数据 123
8.6 在Azure Machine Learning里给你的数据评分,并在powerbi.com里可视化 124
8.6.1 加载数据 125
8.6.2 构建你的仪表板 125
8.7 小结 127
第9章 构建流失模型 128
9.1 流失模型概览 128
9.2 构建和部署客户流失模型 129
9.2.1 准备和了解数据 129
9.2.2 数据预处理和特征选择 132
9.2.3 用于预测流失的分类模型 135
9.2.4 评估客户流失模型的效能 137
9.3 小结 138
第10章 客户细分模型 139
10.1 客户细分模型概览 139
10.2 构建和部署你的第一个K均值聚类模型 140
10.2.1 特征散列 142
10.2.2 找出合适的特征 142
10.2.3 K均值聚类算法的属性 144
10.3 批发客户的客户细分 145
10.3.1 从UCI机器学习库加载数据 145
10.3.2 使用K均值聚类算法进行批发客户细分 146
10.3.3 新数据的聚类分配 147
10.4 小结 148
第11章 构建预见性维护模型 149
11.1 概览 149
11.2 预见性维护场景 150
11.3 业务问题 150
11.4 数据获取和准备 151
11.4.1 数据集 151
11.4.2 数据加载 151
11.4.3 数据分析 151
11.5 训练模型 154
11.6 模型测试和验证 155
11.7 模型效能 156
11.8 改善模型的技术 158
11.9 模型部署 161
11.9.1 创建预测实验 161
11.9.2 把你的实验部署成Web服务 162
11.10 小结 163
第12章 推荐系统 164
12.1 概览 164
12.2 推荐系统的方案和场景 164
12.3 业务问题 165
12.4 数据获取和准备 166
12.5 训练模型 170
12.6 模型测试和验证 171
12.7 小结 175
第13章 使用和发布Azure Marketplace上的模型 176
13.1 什么是机器学习API 176
13.2 如何使用Azure Marketplace的API 178
13.3 在Azure Marketplace里发布你自己的模型 182
13.4 为你的机器学习模型创建和发布Web服务 182
13.4.1 创建评分实验 183
13.4.2 把你的实验发布成Web服务 183
13.5 获取API密钥和OData端点信息 184
13.6 把你的模型发布为Azure Marketplace里的API 184
13.7 小结 186
第14章 Cortana分析 187
14.1 Cortana分析套件是什么 187
14.2 Cortana分析套件的功能 187
14.3 示例场景 189
14.4 小结 190