Ⅰ 理论 1
1 基础知识 3
1.1 模型与算法 3
1.1.1 现实世界和机理 3
1.1.2 模型 4
1.1.3 算法 5
1.1.4 模型与算法的区别及联系 7
1.2 建模 8
1.2.1 传统建模的步骤 8
1.2.2 可计算建模 11
1.2.3 建模思路的分类 12
1.2.4 几种建模思路的对比 18
1.3 大数据及其相关概念 19
1.3.1 大数据 19
1.3.2 计算能力 21
1.3.3 人工智能 22
1.3.4 几个概念之间的关系 23
1.3.5 大数据概念出现的原因 24
1.4 我国大数据建模的现状 26
1.4.1 现状 26
1.4.2 不同业界的态度 27
1.5 小结 28
参考文献 29
2 数据思维 31
2.1 什么是数据思维 31
2.1.1 数据思维的由来 31
2.1.2 数据思维的要素 34
2.2 机器学习概述 36
2.2.1 机器学习的分类 36
2.2.2 机器学习的数学描述 37
2.3 大数据建模的五个必要条件 40
2.4 思考题 44
参考文献 45
3 大数据建模步骤 47
3.1 从苹果和梨说起 47
3.2 明确目标 49
3.3 收集数据和样本定义 51
3.3.1 样本定义和挑选 51
3.3.2 样本定义案例 52
3.3.3 数据准备 54
3.4 提取特征 55
3.4.1 特征工程的定义 56
3.4.2 特征工程的重要性 56
3.4.3 特征获取 57
3.4.4 特征处理 57
3.4.5 特征选择 59
3.4.6 特征维度 62
3.4.7 特征共线性问题 63
3.5 模型训练 64
3.5.1 随机梯度下降方法 64
3.5.2 过拟合问题 65
3.6 模型预测 66
参考文献 67
4 大数据建模的评估体系 69
4.1 离线实验 70
4.1.1 离线实验方法 70
4.1.2 回归模型评估指标 71
4.1.3 分类模型评估指标 72
4.2 在线实验 74
4.2.1 在线实验方法 74
4.2.2 评估指标 75
参考文献 75
5 大数据平台 77
5.1 大数据平台简介 77
5.2 Python 78
5.2.1 Python简介 78
5.2.2 Python的安装 79
5.2.3 实验数据集 80
5.2.4 Python的初步使用 81
5.3 TensorFlow 86
5.3.1 TensorFlow简介 86
5.3.2 TensorFlow的安装 87
5.3.3 TensorFlow的初步使用 90
5.3.4 基于TensorFlow的机器学习 91
5.4 第四范式先知平台 95
5.5 小结 99
参考文献 100
Ⅱ 案例 101
6 天气预报 103
6.1 天气的现象与探测 104
6.1.1 大气的垂直结构 104
6.1.2 大气的探测 105
6.1.3 天气现象 106
6.2 影响天气预报的几个关键因素 106
6.2.1 云 107
6.2.2 大气边界层 107
6.2.3 辐射 108
6.3 大气运动方程组 109
6.3.1 大气运动的主要变量及其规律 109
6.3.2 大气运动方程组 110
6.3.3 其他坐标系下的运动方程组 113
6.4 大气运动方程组的约简 114
6.4.1 尺度分析法 115
6.4.2 次网格参数化 118
6.5 资料同化 121
6.5.1 逐步订正法 122
6.5.2 资料同化的改进方法 123
6.6 小结 123
参考文献 124
7 精准气象服务 125
7.1 背景介绍 125
7.1.1 天气预报 125
7.1.2 天气预报方法 126
7.1.3 天气会商 127
7.2 明确目标 127
7.2.1 站点预报 128
7.2.2 格点预报 130
7.2.3 区域预报 132
7.2.4 目标细化 133
7.3 数据与样本 134
7.3.1 实况数据 134
7.3.2 模式数据 139
7.3.3 模式初值 141
7.3.4 本章所需的数据 141
7.4 特征工程 143
7.4.1 数据预处理 144
7.4.2 站点预报的特征工程 145
7.4.3 格点预报的特征工程 147
7.4.4 区域预报的特征工程 149
7.4.5 问题解决思路 150
7.4.6 原始数据集 151
7.4.7 数据合集 152
7.5 模型构建与训练 156
7.5.1 模型的构建 156
7.5.2 模型的训练 159
7.6 模型预测与评估 160
7.6.1 评估标准 160
7.6.2 不同模型对结果的订正 161
7.6.3 四种模型的比较 164
7.6.4 结论 170
7.7 补充说明 171
7.8 思考题 172
参考文献 172
8 风电功率预测 175
8.1 背景介绍 175
8.2 明确目标 177
8.3 数据与样本 178
8.4 特征工程 179
8.4.1 风速计算数据的处理 179
8.4.2 风机实测数据的处理 180
8.4.3 特征可视化分析 181
8.4.4 衍生特征 182
8.5 模型构建与训练 185
8.5.1 风速预测模型的构建 185
8.5.2 功率预测模型的构建 187
8.5.3 模型的训练 189
8.6 模型预测与评估 189
8.6.1 风速预测模型的预测与评估 189
8.6.2 功率预测模型的预测与评估 190
8.7 补充说明 191
8.8 思考题 192
参考文献 192
9 广告点击率预估 193
9.1 背景介绍 193
9.2 明确目标 195
9.3 数据和样本 195
9.4 特征工程 196
9.4.1 离散化 197
9.4.2 特征组合 199
9.5 模型构建与训练 202
9.5.1 logistic回归算法 202
9.5.2 模型训练 203
9.6 模型预测与评估 204
9.6.1 离线评估 204
9.6.2 在线评估 205
参考文献 205
10 银行理财推荐 207
10.1 背景介绍 207
10.2 明确目标 208
10.3 数据和样本 209
10.3.1 样本定义方式 210
10.3.2 数据需求 212
10.4 特征工程 214
10.5 模型构建与训练 217
10.5.1 logistic算法 217
10.5.2 GBDT算法 218
10.6 模型预测与评估 219
参考文献 220
11 企业经营管理 221
11.1 背景介绍 221
11.2 明确目标 223
11.3 数据与样本 224
11.4 特征工程 225
11.4.1 建立基础指标库 225
11.4.2 基础指标属性分析 226
11.4.3 历史数据提取 227
11.4.4 无量纲化处理 228
11.5 模型构建 229
11.5.1 建立指标体系 229
11.5.2 构建指数模型 233
11.6 模型预测与评估 235
11.6.1 非负矩阵分解法 235
11.6.2 模型效果评估 236
11.6.3 模型预测 237
11.7 补充说明 237
参考文献 237