第一篇 基础篇 2
第1章 机器学习概述 2
1.1机器学习概述 2
1.1.1理解大数据 2
1.1.2机器学习发展过程 4
1.1.3大数据生态环境 5
1.2机器学习算法 6
1.2.1传统机器学习 6
1.2.2深度学习 8
1.2.3其他机器学习 8
1.3机器学习分类 9
1.3.1监督学习 9
1.3.2无监督学习 10
1.3.3半监督学习 10
1.3.4强化学习 10
1.4机器学习综合应用 11
1.4.1异常检测 12
1.4.2用户画像 12
1.4.3广告点击率预估 12
1.4.4企业征信大数据应用 12
1.4.5智慧交通大数据应用 13
1.5本章小结 13
第2章 数据分析流程和方法 14
2.1数据分析概述 14
2.2数据分析流程 15
2.2.1业务调研 16
2.2.2明确目标 16
2.2.3数据准备 16
2.2.4特征处理 17
2.2.5模型训练与评估 21
2.2.6输出结论 23
2.3数据分析的基本方法 24
2.3.1汇总统计 24
2.3.2相关性分析 25
2.3.3分层抽样 26
2.3.4假设检验 26
2.4简单的数据分析实践 27
2.4.1环境准备 27
2.4.2准备数据 28
2.4.3数据分析 29
2.5本章小结 30
第二篇 算法篇 32
第3章 构建分类模型 32
3.1分类模型概述 32
3.2分类模型算法 34
3.2.1逻辑回归 34
3.2.2朴素贝叶斯模型 36
3.2.3 SVM模型 37
3.2.4决策树模型 39
3.2.5 K-近邻 40
3.3分类效果评估 40
3.3.1正确率 41
3.3.2准确率、召回率和F1值 41
3.3.3 ROC和AUC 42
3.4 App数据的分类实现 44
3.4.1选择分类器 44
3.4.2准备数据 45
3.4.3训练模型 46
3.4.4模型性能评估 48
3.4.5模型参数调优 49
3.5其他分类模型 50
3.5.1随机森林 50
3.5.2梯度提升树 51
3.5.3因式分解机模型 51
3.6本章小结 52
第4章 构建聚类模型 53
4.1聚类概述 53
4.2聚类模型 54
4.2.1 KMeans聚类 54
4.2.2 DBSCAN聚类 55
4.2.3主题聚类 56
4.3聚类效果评价 58
4.3.1集中平方误差和 58
4.3.2 Purity评价法 59
4.4使用KMeans对鸢尾花卉数据集聚类 59
4.4.1准备数据 59
4.4.2特征处理 60
4.4.3聚类分析 60
4.4.4模型性能评估 62
4.5使用DBSCAN对GPS数据进行聚类 62
4.5.1准备数据 63
4.5.2特征处理 64
4.5.3聚类分析 64
4.5.4模型参数调优 65
4.6其他模型 66
4.6.1层次聚类 66
4.6.2基于图的聚类 67
4.6.3混合聚类模型 67
4.7本章小结 68
第5章 构建回归模型 69
5.1常用回归模型 69
5.1.1线性回归模型 70
5.1.2回归树模型 70
5.1.3其他回归模型 71
5.2评估指标 73
5.3回归模型优化 74
5.3.1特征选择 74
5.3.2特征变换 74
5.4构建UCI裙子销售数据回归模型 75
5.4.1准备数据 75
5.4.2训练模型 78
5.4.3评估效果 79
5.4.4模型优化 79
5.5其他回归模型案例 80
5.5.1 GDP影响因素分析 81
5.5.2大气污染分析 81
5.5.3大数据比赛中的回归问题 81
5.6本章小结 82
第6章 构建关联规则模型 83
6.1关联规则概述 83
6.2常用关联规则算法 84
6.2.1 Apriori算法 84
6.2.2 FP-Growth算法 85
6.3效果评估和优化 86
6.3.1效果评估 86
6.3.2效果优化 87
6.4使用FP-Growth对豆瓣评分数据进行挖掘 88
6.4.1准备数据 89
6.4.2训练模型 89
6.4.3观察规则 91
6.4.4参数调优 91
6.4.5使用算法 92
6.5其他应用场景 94
6.6本章小结 96
第7章 协同过滤 97
7.1协同过滤概述 97
7.2常用的协同过滤算法 98
7.2.1基于用户的协同过滤 99
7.2.2基于物品的协同过滤 100
7.2.3矩阵分解技术 101
7.2.4推荐算法的选择 102
7.3评估标准 103
7.3.1准确率 103
7.3.2覆盖率 103
7.3.3多样性 104
7.3.4其他指标 104
7.4使用电影评分数据进行协同过滤实践 104
7.4.1准备数据 105
7.4.2训练模型 106
7.4.3测试模型 109
7.4.4使用ALS结果 111
7.5本章小结 112
第8章 数据降维 113
8.1降维概述 113
8.2常用降维算法 114
8.2.1主成分分析 114
8.2.2奇异值分解 116
8.2.3广义降维 117
8.2.4文本降维 118
8.3降维评估标准 121
8.4使用PCA对Digits数据集进行降维 122
8.4.1准备数据 122
8.4.2训练模型 123
8.4.3分析降维结果 124
8.5其他降维方法 124
8.5.1线性判别分析 124
8.5.2局部线性嵌入 125
8.5.3拉普拉斯特征映射 125
8.6本章小结 126
第三篇 综合应用篇 128
第9章 异常检测 128
9.1异常概述 128
9.1.1异常的产生 129
9.1.2异常检测的分类 129
9.2异常检测方法 130
9.2.1基于模型的方法 130
9.2.2基于邻近度的方法 131
9.2.3基于密度的方法 132
9.2.4基于聚类的方法 133
9.3异常检测系统 133
9.3.1异常检测过程 133
9.3.2异常检测步骤 134
9.3.3特征选取和设计 135
9.4应用场景 137
9.4.1入侵检测 137
9.4.2欺诈检测 138
9.4.3社交假新闻 140
9.4.4医疗和公共卫生 141
9.5新闻App数据异常检测实践 141
9.5.1准备数据 141
9.5.2数据预处理 142
9.5.3异常检测 142
9.6本章小结 144
第10章 用户画像 145
10.1用户画像概述 145
10.1.1什么是用户画像 145
10.1.2为什么需要用户画像 146
10.2用户画像流程 147
10.2.1整体流程 147
10.2.2标签体系 148
10.3构建用户画像 150
10.3.1人口属性画像 150
10.3.2兴趣画像 152
10.3.3地理位置画像 155
10.4用户画像评估和使用 155
10.4.1效果评估 156
10.4.2用户画像使用 157
10.5新闻App用户画像实践 158
10.5.1事实标签构建 158
10.5.2兴趣标签构建 159
10.6本章小结 161
第11章 广告点击率预估 162
11.1点击率预估概述 162
11.1.1互联网广告的发展 163
11.1.2互联网广告交易架构 163
11.1.3点击率预估应用 165
11.2点击率预估技术 166
11.2.1数据收集 166
11.2.2特征构建 167
11.2.3特征处理和选择 169
11.2.4模型训练 170
11.3模型效果评估 172
11.3.1模型指标评估 172
11.3.2线上流量评估 172
11.4新闻App点击率预估实践 173
11.4.1特征提取 173
11.4.2模型训练 174
11.4.3广告CTR模型扩展 175
11.5本章小结 177
第12章 企业征信大数据应用 178
12.1征信概述 178
12.1.1征信组成 179
12.1.2传统征信 180
12.1.3大数据征信 180
12.2企业征信大数据平台 181
12.2.1大数据征信平台架构 181
12.2.2企业征信服务流程 182
12.2.3企业征信数据源 182
12.2.4企业征信画像库 183
12.2.5征信评分模型 185
12.3企业征信大数据应用 186
12.3.1企业信用报告 186
12.3.2企业风控管理 187
12.4企业法人资产建模实践 188
12.4.1建模流程 188
12.4.2数据准备 190
12.4.3模型工程实现 191
12.5本章小结 194
第13章 智慧交通大数据应用 195
13.1智慧交通大数据概述 195
13.2人群生活模式划分 196
13.2.1数据介绍 196
13.2.2数据预处理 196
13.2.3特征构建 197
13.2.4生活模式挖掘 200
13.2.5划分结果分析 202
13.3道路拥堵模式聚类 204
13.3.1数据介绍 204
13.3.2数据预处理 205
13.3.3特征构建 206
13.3.4拥堵模式挖掘 207
13.4本章小结 210