第1章 MADlib基础 1
1.1基本概念 1
1.1.1 MADlib是什么 1
1.1.2 MADlib的设计思想 2
1.1.3 MADlib的工作原理 3
1.1.4 MADlib的执行流程 4
1.1.5 MADlib架构 5
1.2 MADlib的功能 6
1.2.1 MADlib支持的模型类型 6
1.2.2 MADlib的主要功能模块 7
1.3 MADlib的安装与卸载 9
1.3.1确定安装平台 9
1.3.2下载MADlib二进制压缩包 10
1.3.3安装MADlib 10
1.3.4卸载MADlib 12
1.4小结 13
第2章 数据类型 14
2.1向量 14
2.1.1 MADlib中的向量操作函数 15
2.1.2稀疏向量 23
2.2矩阵 30
2.2.1矩阵定义 31
2.2.2 MADlib中的矩阵表示 31
2.2.3 MADlib中的矩阵运算函数 32
2.3小结 49
第3章 数据转换 50
3.1邻近度 50
3.1.1MADlib的邻近度相关函数 50
3.1.2距离度量的中心化和标准化 57
3.1.3选取正确的邻近度度量 58
3.2矩阵分解 59
3.2.1低秩矩阵分解 59
3.2.2奇异值分解 70
3.3透视表 87
3.4分类变量编码 97
3.5小结 110
第4章 数据探索 111
4.1描述性统计 111
4.1.1皮尔森相关 111
4.1.2汇总统计 117
4.2概率统计 125
4.2.1概率 125
4.2.2统计推论 133
4.3主成分分析 147
4.3.1背景知识 147
4.3.2 MADlib的PCA相关函数 149
4.3.3 MADlib的PCA应用示例 155
4.4小结 160
第5章 回归 161
5.1线性回归 161
5.1.1背景知识 161
5.1.2 MADlib的线性回归相关函数 164
5.1.3线性回归示例 166
5.2非线性回归 171
5.2.1背景知识 171
5.2.2 MADlib的非线性回归相关函数 172
5.2.3非线性回归示例 175
5.3逻辑回归 179
5.3.1背景知识 179
5.3.2 MADlib的逻辑回归相关函数 180
5.3.3逻辑回归示例 182
5.4多类回归 187
5.4.1背景知识 187
5.4.2 MADlib的多类回归相关函数 190
5.4.3多类回归示例 192
5.5序数回归 196
5.5.1背景知识 196
5.5.2 MADlib的序数回归相关函数 197
5.5.3序数回归示例 200
5.6弹性网络回归 202
5.6.1背景知识 202
5.6.2 MADlib的弹性网络回归相关函数 204
5.6.3弹性网络回归示例 209
5.7小结 221
第6章 时间序列分析 222
6.1背景知识 222
6.1.1时间序列分析方法 222
6.1.2 ARIMA模型 223
6.2 MADlib中ARIMA相关函数 225
6.3时间序列分析示例 228
6.4小结 232
第7章 分类 233
7.1 K近邻 233
7.1.1背景知识 233
7.1.2 MADlib中K近邻函数 235
7.1.3 K近邻示例 236
7.2朴素贝叶斯 240
7.2.1背景知识 240
7.2.2 MADlib中朴素贝叶斯分类相关函数 242
7.2.3朴素贝叶斯分类示例 244
7.3支持向量机 249
7.3.1背景知识 249
7.3.2 MADlib的支持向量机相关函数 252
7.3.3支持向量机示例 258
7.4决策树 264
7.4.1背景知识 264
7.4.2 MADlib的决策树相关函数 267
7.4.3决策树示例 272
7.5随机森林 281
7.5.1背景知识 281
7.5.2 MADlib的随机森林相关函数 282
7.5.3随机森林示例 287
7.6小结 293
第8章 聚类 294
8.1背景知识 294
8.1.1聚类的概念 294
8.1.2 k-means方法 295
8.2 MADlib的k-means相关函数 297
8.2.1训练函数 298
8.2.2簇分配函数 300
8.2.3轮廓系数函数 301
8.3 k-means示例 301
8.4小结 307
第9章 关联规则 308
9.1背景知识 308
9.1.1基本概念 308
9.1.2 Apriori算法 311
9.2 MADlib的Apriori算法函数 312
9.3 Apriori应用示例 313
9.4小结 319
第10章 图算法 320
10.1背景知识 320
10.1.1基本概念 320
10.1.2常见图算法 321
10.1.3单源最短路径 323
10.2 MADlib的单源最短路径相关函数 324
10.3单源最短路径示例 325
10.4小结 327
第11章 模型评估 328
11.1交叉验证 328
11.1.1背景知识 328
11.1.2 MADlib的交叉验证相关函数 331
11.1.3交叉验证示例 333
11.2预测度量 336
11.3小结 342