Spark机器学习 核心技术与实践PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:(美)亚历克斯·特列斯,(美)马克斯·帕普拉,(美)迈克尔·马洛赫拉瓦著;邵赛赛,阳卫清,唐明洁译
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111598466
- 页数:229 页
第1章 大规模机器学习和Spark入门 1
1.1 数据科学 2
1.2 数据科学家:21世纪最炫酷的职业 2
1.2.1 数据科学家的一天 3
1.2.2 大数据处理 4
1.2.3 分布式环境下的机器学习算法 4
1.2.4 将数据拆分到多台机器 6
1.2.5 从Hadoop MapReduce到Spark 6
1.2.6 什么是Databricks 7
1.2.7 Spark包含的内容 8
1.3 H2O.ai简介 8
1.4 H2O和Spark MLlib的区别 10
1.5 数据整理 10
1.6 数据科学:一个迭代过程 11
1.7 小结 11
第2章 探索暗物质:希格斯玻色子 12
2.1 Ⅰ型错误与Ⅱ型错误 12
2.1.1 寻找希格斯玻色子 13
2.1.2 LHC和数据的创建 13
2.1.3 希格斯玻色子背后的理论 14
2.1.4 测量希格斯玻色子 14
2.1.5 数据集 14
2.2 启动Spark与加载数据 15
2.2.1 标记点向量 22
2.2.2 创建训练和测试集合 24
2.2.3 第一个模型:决策树 26
2.2.4 下一个模型:集合树 32
2.2.5 最后一个模型:H2O深度学习 37
2.2.6 构建一个3层DNN 39
2.3 小结 45
第3章 多元分类的集成方法 46
3.1 数据 47
3.2 模型目标 48
3.2.1 挑战 48
3.2.2 机器学习工作流程 48
3.2.3 使用随机森林建模 61
3.3 小结 78
第4章 使用NLP和Spark Streaming预测电影评论 80
4.1 NLP简介 81
4.2 数据集 82
4.3 特征提取 85
4.3.1 特征提取方法:词袋模型 85
4.3.2 文本标记 86
4.4 特征化——特征哈希 89
4.5 我们来做一些模型训练吧 92
4.5.1 Spark决策树模型 93
4.5.2 Spark朴素贝叶斯模型 94
4.5.3 Spark随机森林模型 95
4.5.4 Spark GBM模型 96
4.5.5 超级学习器模型 97
4.6 超级学习器 97
4.6.1 集合所有的转换 101
4.6.2 使用超级学习器模型 105
4.7 小结 105
第5章 word2vec预测和聚类 107
5.1 词向量的动机 108
5.2 word2vec解释 108
5.2.1 什么是单词向量 108
5.2.2 CBOW模型 110
5.2.3 skip-gram模型 111
5.2.4 玩转词汇向量 112
5.2.5 余弦相似性 113
5.3 doc2vec解释 113
5.3.1 分布式内存模型 113
5.3.2 分布式词袋模型 114
5.4 应用word2vec并用向量探索数据 116
5.5 创建文档向量 118
5.6 监督学习任务 119
5.7 小结 123
第6章 从点击流数据中抽取模式 125
6.1 频繁模式挖掘 126
6.2 使用Spark MLlib进行模式挖掘 130
6.2.1 使用FP-growth进行频繁模式挖掘 131
6.2.2 关联规则挖掘 136
6.2.3 使用prefix span进行序列模式挖掘 138
6.2.4 在MSNBC点击流数据上进行模式挖掘 141
6.3 部署模式挖掘应用 147
6.4 小结 154
第7章 使用GraphX进行图分析 155
7.1 基本的图理论 156
7.1.1 图 156
7.1.2 有向和无向图 156
7.1.3 阶和度 157
7.1.4 有向无环图 158
7.1.5 连通分量 159
7.1.6 树 160
7.1.7 多重图 160
7.1.8 属性图 161
7.2 GraphX分布式图计算引擎 162
7.2.1 GraphX中图的表示 163
7.2.2 图的特性和操作 165
7.2.3 构建和加载图 170
7.2.4 使用Gephi可视化图结构 172
7.2.5 图计算进阶 178
7.2.6 GraphFrame 181
7.3 图算法及其应用 183
7.3.1 聚类 183
7.3.2 顶点重要性 185
7.4 GraphX在上下文中 188
7.5 小结 189
第8章 Lending Club借贷预测 190
8.1 动机 190
8.1.1 目标 191
8.1.2 数据 192
8.1.3 数据字典 192
8.2 环境准备 193
8.3 数据加载 193
8.4 探索——数据分析 194
8.4.1 基本清理 194
8.4.2 预测目标 200
8.4.3 使用模型评分 221
8.4.4 模型部署 224
8.5 小结 229
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《剑桥国际英语写作教程 段落写作》(美)吉尔·辛格尔顿(Jill Shingleton)编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019