当前位置:首页 > 工业技术
Spark机器学习进阶实战
Spark机器学习进阶实战

Spark机器学习进阶实战PDF电子书下载

工业技术

  • 电子书积分:10 积分如何计算积分?
  • 作 者:马海平,于俊,吕昕,向海著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111608103
  • 页数:210 页
图书介绍:全书一共分三篇。基础篇(1~2章)对Spark机器学习进行概述、并通过Spark机器学习开始进行数据分析;算法篇(3~8章)针对分类、聚类、回归、协同过滤、关联规则、降维等算法进行详细讲解,并进行案例支持;综合案例篇(9~12章)重点通过异常检测、用户画像、广告点击率预估、企业征信大数据、智慧交通大数据5个综合场景,详细讲解基于Spark机器学习的综合应用。
《Spark机器学习进阶实战》目录

第一篇 基础篇 2

第1章 机器学习概述 2

1.1机器学习概述 2

1.1.1理解大数据 2

1.1.2机器学习发展过程 4

1.1.3大数据生态环境 5

1.2机器学习算法 6

1.2.1传统机器学习 6

1.2.2深度学习 8

1.2.3其他机器学习 8

1.3机器学习分类 9

1.3.1监督学习 9

1.3.2无监督学习 10

1.3.3半监督学习 10

1.3.4强化学习 10

1.4机器学习综合应用 11

1.4.1异常检测 12

1.4.2用户画像 12

1.4.3广告点击率预估 12

1.4.4企业征信大数据应用 12

1.4.5智慧交通大数据应用 13

1.5本章小结 13

第2章 数据分析流程和方法 14

2.1数据分析概述 14

2.2数据分析流程 15

2.2.1业务调研 16

2.2.2明确目标 16

2.2.3数据准备 16

2.2.4特征处理 17

2.2.5模型训练与评估 21

2.2.6输出结论 23

2.3数据分析的基本方法 24

2.3.1汇总统计 24

2.3.2相关性分析 25

2.3.3分层抽样 26

2.3.4假设检验 26

2.4简单的数据分析实践 27

2.4.1环境准备 27

2.4.2准备数据 28

2.4.3数据分析 29

2.5本章小结 30

第二篇 算法篇 32

第3章 构建分类模型 32

3.1分类模型概述 32

3.2分类模型算法 34

3.2.1逻辑回归 34

3.2.2朴素贝叶斯模型 36

3.2.3 SVM模型 37

3.2.4决策树模型 39

3.2.5 K-近邻 40

3.3分类效果评估 40

3.3.1正确率 41

3.3.2准确率、召回率和F1值 41

3.3.3 ROC和AUC 42

3.4 App数据的分类实现 44

3.4.1选择分类器 44

3.4.2准备数据 45

3.4.3训练模型 46

3.4.4模型性能评估 48

3.4.5模型参数调优 49

3.5其他分类模型 50

3.5.1随机森林 50

3.5.2梯度提升树 51

3.5.3因式分解机模型 51

3.6本章小结 52

第4章 构建聚类模型 53

4.1聚类概述 53

4.2聚类模型 54

4.2.1 KMeans聚类 54

4.2.2 DBSCAN聚类 55

4.2.3主题聚类 56

4.3聚类效果评价 58

4.3.1集中平方误差和 58

4.3.2 Purity评价法 59

4.4使用KMeans对鸢尾花卉数据集聚类 59

4.4.1准备数据 59

4.4.2特征处理 60

4.4.3聚类分析 60

4.4.4模型性能评估 62

4.5使用DBSCAN对GPS数据进行聚类 62

4.5.1准备数据 63

4.5.2特征处理 64

4.5.3聚类分析 64

4.5.4模型参数调优 65

4.6其他模型 66

4.6.1层次聚类 66

4.6.2基于图的聚类 67

4.6.3混合聚类模型 67

4.7本章小结 68

第5章 构建回归模型 69

5.1常用回归模型 69

5.1.1线性回归模型 70

5.1.2回归树模型 70

5.1.3其他回归模型 71

5.2评估指标 73

5.3回归模型优化 74

5.3.1特征选择 74

5.3.2特征变换 74

5.4构建UCI裙子销售数据回归模型 75

5.4.1准备数据 75

5.4.2训练模型 78

5.4.3评估效果 79

5.4.4模型优化 79

5.5其他回归模型案例 80

5.5.1 GDP影响因素分析 81

5.5.2大气污染分析 81

5.5.3大数据比赛中的回归问题 81

5.6本章小结 82

第6章 构建关联规则模型 83

6.1关联规则概述 83

6.2常用关联规则算法 84

6.2.1 Apriori算法 84

6.2.2 FP-Growth算法 85

6.3效果评估和优化 86

6.3.1效果评估 86

6.3.2效果优化 87

6.4使用FP-Growth对豆瓣评分数据进行挖掘 88

6.4.1准备数据 89

6.4.2训练模型 89

6.4.3观察规则 91

6.4.4参数调优 91

6.4.5使用算法 92

6.5其他应用场景 94

6.6本章小结 96

第7章 协同过滤 97

7.1协同过滤概述 97

7.2常用的协同过滤算法 98

7.2.1基于用户的协同过滤 99

7.2.2基于物品的协同过滤 100

7.2.3矩阵分解技术 101

7.2.4推荐算法的选择 102

7.3评估标准 103

7.3.1准确率 103

7.3.2覆盖率 103

7.3.3多样性 104

7.3.4其他指标 104

7.4使用电影评分数据进行协同过滤实践 104

7.4.1准备数据 105

7.4.2训练模型 106

7.4.3测试模型 109

7.4.4使用ALS结果 111

7.5本章小结 112

第8章 数据降维 113

8.1降维概述 113

8.2常用降维算法 114

8.2.1主成分分析 114

8.2.2奇异值分解 116

8.2.3广义降维 117

8.2.4文本降维 118

8.3降维评估标准 121

8.4使用PCA对Digits数据集进行降维 122

8.4.1准备数据 122

8.4.2训练模型 123

8.4.3分析降维结果 124

8.5其他降维方法 124

8.5.1线性判别分析 124

8.5.2局部线性嵌入 125

8.5.3拉普拉斯特征映射 125

8.6本章小结 126

第三篇 综合应用篇 128

第9章 异常检测 128

9.1异常概述 128

9.1.1异常的产生 129

9.1.2异常检测的分类 129

9.2异常检测方法 130

9.2.1基于模型的方法 130

9.2.2基于邻近度的方法 131

9.2.3基于密度的方法 132

9.2.4基于聚类的方法 133

9.3异常检测系统 133

9.3.1异常检测过程 133

9.3.2异常检测步骤 134

9.3.3特征选取和设计 135

9.4应用场景 137

9.4.1入侵检测 137

9.4.2欺诈检测 138

9.4.3社交假新闻 140

9.4.4医疗和公共卫生 141

9.5新闻App数据异常检测实践 141

9.5.1准备数据 141

9.5.2数据预处理 142

9.5.3异常检测 142

9.6本章小结 144

第10章 用户画像 145

10.1用户画像概述 145

10.1.1什么是用户画像 145

10.1.2为什么需要用户画像 146

10.2用户画像流程 147

10.2.1整体流程 147

10.2.2标签体系 148

10.3构建用户画像 150

10.3.1人口属性画像 150

10.3.2兴趣画像 152

10.3.3地理位置画像 155

10.4用户画像评估和使用 155

10.4.1效果评估 156

10.4.2用户画像使用 157

10.5新闻App用户画像实践 158

10.5.1事实标签构建 158

10.5.2兴趣标签构建 159

10.6本章小结 161

第11章 广告点击率预估 162

11.1点击率预估概述 162

11.1.1互联网广告的发展 163

11.1.2互联网广告交易架构 163

11.1.3点击率预估应用 165

11.2点击率预估技术 166

11.2.1数据收集 166

11.2.2特征构建 167

11.2.3特征处理和选择 169

11.2.4模型训练 170

11.3模型效果评估 172

11.3.1模型指标评估 172

11.3.2线上流量评估 172

11.4新闻App点击率预估实践 173

11.4.1特征提取 173

11.4.2模型训练 174

11.4.3广告CTR模型扩展 175

11.5本章小结 177

第12章 企业征信大数据应用 178

12.1征信概述 178

12.1.1征信组成 179

12.1.2传统征信 180

12.1.3大数据征信 180

12.2企业征信大数据平台 181

12.2.1大数据征信平台架构 181

12.2.2企业征信服务流程 182

12.2.3企业征信数据源 182

12.2.4企业征信画像库 183

12.2.5征信评分模型 185

12.3企业征信大数据应用 186

12.3.1企业信用报告 186

12.3.2企业风控管理 187

12.4企业法人资产建模实践 188

12.4.1建模流程 188

12.4.2数据准备 190

12.4.3模型工程实现 191

12.5本章小结 194

第13章 智慧交通大数据应用 195

13.1智慧交通大数据概述 195

13.2人群生活模式划分 196

13.2.1数据介绍 196

13.2.2数据预处理 196

13.2.3特征构建 197

13.2.4生活模式挖掘 200

13.2.5划分结果分析 202

13.3道路拥堵模式聚类 204

13.3.1数据介绍 204

13.3.2数据预处理 205

13.3.3特征构建 206

13.3.4拥堵模式挖掘 207

13.4本章小结 210

返回顶部