当前位置:首页 > 工业技术
Python+Spark 2.0+Hadoop  机器学习与大数据实战
Python+Spark 2.0+Hadoop  机器学习与大数据实战

Python+Spark 2.0+Hadoop 机器学习与大数据实战PDF电子书下载

工业技术

  • 电子书积分:16 积分如何计算积分?
  • 作 者:林大贵著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2018
  • ISBN:9787302490739
  • 页数:519 页
图书介绍:本书详细介绍如何模拟云计算的虚拟环境的架设与计算机网络设定外,并且介绍基础软件下载与安装,按部就班地利用简单的范例程序与网络所收集数据,让读者从实际的操作中,很踏实地学习到,如何利用多台计算机所架设的分布式计算环境,去处理大数据资料。同时介绍在分布式计算环境中,使用机器学习软件包,并且介绍这些方法的基本原理,让读者不只是学会使用,更能够了解这些软件的应用时机。
《Python+Spark 2.0+Hadoop 机器学习与大数据实战》目录

第1章 Python Spark机器学习与Hadoop大数据 1

1.1机器学习的介绍 2

1.2Spark的介绍 5

1.3Spark数据处理RDD、DataFrame、Spark SQL 7

1.4使用Python开发Spark机器学习与大数据应用 8

1.5Python Spark机器学习 9

1.6Spark ML Pipeline机器学习流程介绍 10

1.7Spark 2.0的介绍 12

1.8大数据定义 13

1.9Hadoop简介 14

1.10Hadoop HDFS分布式文件系统 14

1.11Hadoop MapReduce的介绍 17

1.12结论 18

第2章 VirtualBox虚拟机软件的安装 19

2.1VirtualBox的下载和安装 20

2.2设置VirtualBox存储文件夹 23

2.3在VirtualBox创建虚拟机 25

2.4结论 29

第3章 Ubuntu Linux操作系统的安装 30

3.1Ubuntu Linux操作系统的安装 31

3.2在Virtual设置Ubuntu虚拟光盘文件 33

3.3开始安装Ubuntu 35

3.4启动Ubuntu 40

3.5安装增强功能 41

3.6设置默认输入法 45

3.7设置“终端”程序 48

3.8设置“终端”程序为白底黑字 49

3.9设置共享剪贴板 50

3.10设置最佳下载服务器 52

3.11结论 56

第4章 Hadoop Single Node Cluster的安装 57

4.1安装JDK 58

4.2设置SSH无密码登录 61

4.3下载安装Hadoop 64

4.4设置Hadoop环境变量 67

4.5修改Hadoop配置设置文件 69

4.6创建并格式化HDFS目录 73

4.7启动Hadoop 74

4.8打开Hadoop Resource-Manager Web界面 76

4.9NameNode HDFS Web界面 78

4.10结论 79

第5章 Hadoop Multi Node Cluster的安装 80

5.1把Single Node Cluster复制到data1 83

5.2设置VirtualBox网卡 84

5.3设置datal服务器 87

5.4复制data1服务器到data2、data3、master 94

5.5设置data2服务器 97

5.6设置data3服务器 100

5.7设置master服务器 102

5.8master连接到datal、data2、data3创建HDFS目录 107

5.9创建并格式化NameNode HDFS目录 110

5.10启动Hadoop Multi Node Cluster 112

5.11打开Hadoop ResourceManager Web界面 114

5.12打开NameNode Web界面 115

5.13停止Hadoop Multi Node Cluster 116

5.14结论 116

第6章 Hadoop HDFS命令 117

6.1启动Hadoop Multi-Node Cluster 118

6.2创建与查看HDFS目录 120

6.3从本地计算机复制文件到HDFS 122

6.4将HDFS上的文件复制到本地计算机 127

6.5复制与删除HDFS文件 129

6.6在Hadoop HDFS Web用户界面浏览HDFS 131

6.7结论 134

第7章 Hadoop MapReduce 135

7.1简单介绍WordCount.java 136

7.2编辑WordCount.java 137

7.3编译WordCount.java 141

7.4创建测试文本文件 143

7.5运行WordCount.java 145

7.6查看运行结果 146

7.7结论 147

第8章 Python Spark的介绍与安装 148

8.1Scala的介绍与安装 150

8.2安装Spark 153

8.3启动pyspark交互式界面 156

8.4设置pyspark显示信息 157

8.5创建测试用的文本文件 159

8.6本地运行pyspark程序 161

8.7在Hadoop YARN运行pyspark 163

8.8构建Spark Standalone Cluster运行环境 165

8.9在Spark Standalone运行pyspark 171

8.10Spark Web UI界面 173

8.11结论 175

第9章 在IPython Notebook运行Python Spark程序 176

9.1安装Anaconda 177

9.2在IPython Notebook使用Spark 180

9.3打开IPython Notebook笔记本 184

9.4插入程序单元格 185

9.5加入注释与设置程序代码说明标题 186

9.6关闭IPython Notebook 188

9.7使用IPython Notebook在Hadoop YARN-client模式运行 189

9.8使用IPython Notebook在Spark Stand Alone模式运行 192

9.9整理在不同的模式运行IPython Notebook的命令 194

9.9.1在Local启动IPython Notebook 195

9.9.2在Hadoop YARN-client模式启动IPython Notebook 195

9.9.3在Spark Stand Alone模式启动IPython Notebook 195

9.10结论 196

第10章 Python Spark RDD 197

10.1RDD的特性 198

10.2开启IPython Notebook 199

10.3基本RDD“转换”运算 201

10.4多个RDD“转换”运算 206

10.5基本“动作”运算 208

10.6RDD Key-Value基本“转换”运算 209

10.7多个RDD Key-Value“转换”运算 212

10.8Key-Value“动作”运算 215

10.9Broadcast广播变量 217

10.10accumulator累加器 220

10.11RDD Persistence持久化 221

10.12使用Spark创建WordCount 223

10.13Spark WordCount详细解说 226

10.14结论 228

第11章 Python Spark的集成开发环境 229

11.1下载与安装eclipse Scala IDE 232

11.2安装PyDev 235

11.3设置字符串替代变量 240

11.4PyDev设置Python链接库 243

11.5PyDev设置anaconda2链接库路径 245

11.6PyDev设置Spark Python链接库 247

11.7PyDev设置环境变量 248

11.8新建PyDev项目 251

11.9加入WordCount.py程序 253

11.10输入WordCount.py程序 254

11.11创建测试文件并上传至HDFS目录 257

11.12使用spark-submit执行WordCount程序 259

11.13在Hadoop YARN-client上运行WordCount程序 261

11.14在Spark Standalone Cluster上运行WordCount程序 264

11.15在eclipse外部工具运行Python Spark程序 267

11.16在eclipse运行spark-submit YARN-client 273

11.17在eclipse运行spark-submit Standalone 277

11.18结论 280

第12章 Python Spark创建推荐引擎 281

12.1推荐算法介绍 282

12.2“推荐引擎”大数据分析使用场景 282

12.3ALS推荐算法的介绍 283

12.4如何搜索数据 285

12.5启动lPython Notebook 289

12.6如何准备数据 290

12.7如何训练模型 294

12.8如何使用模型进行推荐 295

12.9显示推荐的电影名称 297

12.10创建Recommend项目 299

12.11运行RecommendTrain.py推荐程序代码 302

12.12创建Recommend.py推荐程序代码 304

12.13在eclipse运行Recommend.py 307

12.14结论 310

第13章 Python Spark MLlib决策树二元分类 311

13.1决策树介绍 312

13.2“StumbleUpon Evergreen”大数据问题 313

13.2.1Kaggle网站介绍 313

13.2.2“StumbleUpon Evergreen”大数据问题场景分析 313

13.3决策树二元分类机器学习 314

13.4如何搜集数据 315

13.4.1StumbleUpon数据内容 315

13.4.2下载StumbleUpon数据 316

13.4.3用LibreOffice Calc电子表格查看train.tsv 319

13.4.4复制到项目目录 322

13.5使用IPython Notebook示范 323

13.6如何进行数据准备 324

13.6.1导入并转换数据 324

13.6.2提取feature特征字段 327

13.6.3提取分类特征字段 328

13.6.4提取数值特征字段 331

13.6.5返回特征字段 331

13.6.6提取label标签字段 331

13.6.7建立训练评估所需的数据 332

13.6.8以随机方式将数据分为3部分并返回 333

13.6.9编写PrepareData(sc)函数 333

13.7如何训练模型 334

13.8如何使用模型进行预测 335

13.9如何评估模型的准确率 338

13.9.1使用AUC评估二元分类模型 338

13.9.2计算AUC 339

13.10模型的训练参数如何影响准确率 341

13.10.1建立trainEvaluateModel 341

13.10.2评估impurity参数 343

13.10.3训练评估的结果以图表显示 344

13.10.4编写evalParameter 347

13.10.5使用evalParameter评估maxDepth参数 347

13.10.6使用evalParameter评估maxBins参数 348

13.11如何找出准确率最高的参数组合 349

13.12如何确认是否过度训练 352

13.13编写RunDecisionTreeBina.py程序 352

13.14开始输入RunDecisionTreeBina.py程序 353

13.15运行RunDecisionTreeBina.py 355

13.15.1执行参数评估 355

13.15.2所有参数训练评估找出最好的参数组合 355

13.15.3运行RunDecisionTreeBina.py不要输入参数 357

13.16查看DecisionTree的分类规则 358

13.17结论 360

第14章 Python Spark MLlib逻辑回归二元分类 361

14.1逻辑回归分析介绍 362

14.2RunLogisticRegression WithSGDBina.py程序说明 363

14.3运行RunLogisticRegression WithSGDBina.py进行参数评估 367

14.4找出最佳参数组合 370

14.5修改程序使用参数进行预测 370

14.6结论 372

第15章 Python Spark MLlib支持向量机SVM二元分类 373

15.1支持向量机SVM算法的基本概念 374

15.2运行SVMWithSGD.py进行参数评估 376

15.3运行SVMWithSGD.py训练评估参数并找出最佳参数组合 378

15.4运行SVMWithSGD.py使用最佳参数进行预测 379

15.5结论 381

第16章 Python Spark MLlib朴素贝叶斯二元分类 382

16.1朴素贝叶斯分析原理的介绍 383

16.2RunNaiveBayesBina.py程序说明 384

16.3运行NaiveBayes.py进行参数评估 386

16.4运行训练评估并找出最好的参数组合 387

16.5修改RunNaiveBayesBina.py直接使用最佳参数进行预测 388

16.6结论 390

第17章 Python Spark MLlib决策树多元分类 391

17.1“森林覆盖植被”大数据问题分析场景 392

17.2UCI Covertype数据集介绍 393

17.3下载与查看数据 394

17.4修改PrepareData()数据准备 396

17.5修改trainModel训练模型程序 398

17.6使用训练完成的模型预测数据 399

17.7运行RunDecisionTreeMulti.py进行参数评估 401

17.8运行RunDecisionTreeMulti.py训练评估参数并找出最好的参数组合 403

17.9运行RunDecisionTreeMulti.py不进行训练评估 404

17.10结论 406

第18章 Python Spark MLlib决策树回归分析 407

18.1Bike Sharing大数据问题分析 408

18.2Bike Sharing数据集 409

18.3下载与查看数据 409

18.4修改PrepareData()数据准备 412

18.5修改DecisionTree.trainRegressor训练模型 415

18.6以RMSE评估模型准确率 416

18.7训练评估找出最好的参数组合 417

18.8使用训练完成的模型预测数据 417

18.9运行RunDecisionTreeMulti.py进行参数评估 419

18.10运行RunDecisionTreeMulti.py训练评估参数并找出最好的参数组合 421

18.11运行RunDecisionTreeMulti.py不进行训练评估 422

18.12结论 424

第19章 Python Spark SQL、DataFrame、RDD数据统计与可视化 425

19.1RDD、DataFrame、Spark SQL比较 426

19.2创建RDD、DataFrame与Spark SQL 427

19.2.1在local模式运行IPython Notebook 427

19.2.2创建RDD 427

19.2.3创建DataFrame 428

19.2.4设置IPython Notebook字体 430

19.2.5为DataFrame创建别名 431

19.2.6开始使用Spark SQL 431

19.3SELECT显示部分字段 434

19.3.1使用RDD选取显示部分字段 434

19.3.2使用DataFrames选取显示字段 434

19.3.3使用Spark SQL选取显示字段 435

19.4增加计算字段 436

19.4.1使用RDD增加计算字段 436

19.4.2使用DataFrames增加计算字段 436

19.4.3使用Spark SQL增加计算字段 437

19.5筛选数据 438

19.5.1使用RDD筛选数据 438

19.5.2使用DataFrames筛选数据 438

19.5.3使用Spark SQL筛选数据 439

19.6按单个字段给数据排序 439

19.6.1RDD按单个字段给数据排序 439

19.6.2使用Spark SQL排序 440

19.6.3使用DataFrames按升序给数据排序 441

19.6.4使用DataFrames按降序给数据排序 442

19.7按多个字段给数据排序 442

19.7.1RDD按多个字段给数据排序 442

19.7.2Spark SQL按多个字段给数据排序 443

19.7.3DataFrames按多个字段给数据排序 443

19.8显示不重复的数据 444

19.8.1RDD显示不重复的数据 444

19.8.2Spark SQL显示不重复的数据 445

19.8.3Dataframes显示不重复的数据 445

19.9分组统计数据 446

19.9.1RDD分组统计数据 446

19.9.2Spark SQL分组统计数据 447

19.9.3Dataframes分组统计数据 448

19.10Join联接数据 450

19.10.1创建ZipCode 450

19.10.2创建zipcode_tab 452

19.10.3Spark SQL联接zipcode_table数据表 454

19.10.4DataFrame user_df联接zipcode_df 455

19.11使用Pandas DataFrames绘图 457

19.11.1按照不同的州统计并以直方图显示 457

19.11.2按照不同的职业统计人数并以圆饼图显示 459

19.12结论 461

第20章 Spark ML Pipeline机器学习流程二元分类 462

20.1数据准备 464

20.1.1在local模式执行IPython Notebook 464

20.1.2编写DataFrames UDF用户自定义函数 466

20.1.3将数据分成train_df与test_df 468

20.2机器学习pipeline流程的组件 468

20.2.1Stnnglndexer 468

20.2.2OneHotEncoder 470

20.2.3VectorAssembler 472

20.2.4使用DecisionTreeClassifier二元分类 474

20.3建立机器学习pipeline流程 475

20.4使用pipeline进行数据处理与训练 476

20.5使用pipelineModel进行预测 477

20.6评估模型的准确率 478

20.7使用TrainValidation进行训练验证找出最佳模型 479

20.8使用crossValidation交叉验证找出最佳模型 481

20.9使用随机森林RandomForestClassifier分类器 483

20.10结论 485

第21章 Spark ML Pipeline机器学习流程多元分类 486

21.1数据准备 487

21.1.1读取文本文件 488

21.1.2创建DataFrame 489

21.1.3转换为double 490

21.2建立机器学习pipeline流程 492

21.3使用dt_pipeline进行数据处理与训练 493

21.4使用pipelineModel进行预测 493

21.5评估模型的准确率 495

21.4使用TrainValidation进行训练验证找出最佳模型 496

21.7结论 498

第22章 Spark ML Pipeline机器学习流程回归分析 499

22.1数据准备 501

22.1.1在local模式执行IPython Notebook 501

22.1.2将数据分成train_df与test_df 504

22.2建立机器学习pipeline流程 504

22.3使用dt_pipeline进行数据处理与训练 506

22.4使用pipelineModel进行预测 506

22.5评估模型的准确率 507

22.6使用TrainValidation进行训练验证找出最佳模型 508

22.7使用crossValidation进行交叉验证找出最佳模型 510

22.8使用GBT Regression 511

22.9结论 513

附录A 本书范例程序下载与安装说明 514

A.1下载范例程序 515

A.2打开本书IPython Notebook范例程序 516

A.3打开eclipse PythonProject范例程序 518

返回顶部