大数据PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:刘鹏主编;张燕,张重生,张志立副主编
- 出 版 社:北京:电子工业出版社
- 出版年份:2017
- ISBN:9787121304309
- 页数:346 页
第1章 大数据概念与应用 1
1.1 大数据之“大” 1
1.2 大数据的来源 3
1.3 大数据的技术支撑 5
1.4 大数据应用场景 6
1.5 如何开展大数据研发 10
习题 13
参考文献 14
第2章 数据采集与预处理 15
2.1 大数据采集架构 15
2.1.1 概述 15
2.1.2 常用大数据采集工具 15
2.1.3 Apache Kafka数据采集 16
2.2 数据预处理原理 24
2.2.1 数据清洗 24
2.2.2 数据集成 26
2.2.3 数据变换 27
2.3 数据仓库与ETL工具 27
2.3.1 概述 28
2.3.2 常用ETL工具 28
2.3.3 案例:Kettle数据迁移 29
习题 33
参考文献 33
第3章 数据挖掘算法 35
3.1 数据挖掘概述 35
3.1.1 数据挖掘概念 35
3.1.2 数据挖掘常用算法 35
3.1.3 数据挖掘应用场景 37
3.1.4 数据挖掘工具 40
3.2 分类 42
3.2.1 贝叶斯决策与分类器 43
3.2.2 SVM算法 45
3.2.3 案例:在线广告推荐中的分类 50
3.3 聚类 52
3.3.1 非监督机器学习方法与聚类 56
3.3.2 常用聚类算法 57
3.3.3 案例:海量视频检索中的聚类 59
3.4 关联规则 60
3.4.1 关联规则的概念 61
3.4.2 频繁项集的产生及其经典算法 62
3.4.3 分类技术 65
3.4.4 关联规则挖掘在车辆保险中的应用——客户风险分析 67
3.5 预测模型 70
3.5.1 预测与预测模型 70
3.5.2 时间序列预测 72
3.5.3 案例:地震预警中的预测方法 76
3.6 数据挖掘算法综合应用 81
习题 85
参考文献 85
第4章 大数据挖掘工具 88
4.1 Mahout 88
4.1.1 安装Mahout 90
4.1.2 聚类算法 91
4.1.3 分类算法 99
4.1.4 协同过滤算法 105
4.1.5 案例:基于Mahout Spark Shell的中文新闻分类 113
4.2 Spark MLlib 117
4.2.1 聚类算法 118
4.2.2 回归算法 119
4.2.3 分类算法 121
4.2.4 协同过滤算法 122
4.2.5 案例:基于ALS算法的影片推荐 124
4.3 其他数据挖掘工具 130
习题 136
参考文献 137
第5章 R语言 138
5.1 R语言简介 138
5.1.1 R语言的产生与发展历程 138
5.1.2 R语言基本功能介绍 141
5.1.3 R语言常见的应用领域 147
5.2 R与数据挖掘 148
5.2.1 R软件包与常见的数据挖掘算法介绍 149
5.2.2 R在数据挖掘中的应用举例 164
5.3 SparkR 181
5.3.1 SparkR简介 181
5.3.2 SparkR环境搭建 183
5.3.3 SparkR使用 185
5.3.4 SparkR与HQL 186
5.3.5 SparkR实现的主要机器学习算法概述 187
5.3.6 SparkR在数据分析中的应用举例 191
习题 194
参考文献 194
第6章 深度学习 195
6.1 概述 195
6.1.1 人工智能简史 195
6.1.2 神经网络 197
6.1.3 大数据与深度学习 200
6.1.4 人工智能的未来 201
6.2 深度神经网络 202
6.2.1 整体架构 202
6.2.2 自动编码器 203
6.2.3 受限玻尔兹曼机 204
6.2.4 深度置信网络 206
6.2.5 卷积神经网络 207
6.2.6 循环(递归)神经网络 210
6.3 软硬件实现 211
6.3.1 TensorFlow 211
6.3.2 Caffe 212
6.3.3 其他深度学习软件 213
6.3.4 深度学习一体机 216
6.4 深度学习应用 217
6.4.1 语音识别 217
6.4.2 图像分析 218
6.4.3 自然语言处理 219
习题 220
参考文献 220
第7章 大数据可视化 224
7.1 数据可视化基础 224
7.1.1 可视化的基本特征 224
7.1.2 可视化的目标和作用 225
7.1.3 数据可视化流程 225
7.2 大数据可视化方法 226
7.2.1 文本可视化 226
7.2.2 网络(图)可视化 228
7.2.3 时空数据可视化 230
7.2.4 多维数据可视化 232
7.3 大数据可视化软件与工具 234
7.3.1 Excel 234
7.3.2 Processing 235
7.3.3 NodeXL 238
7.3.4 ECharts 241
习题 244
参考文献 244
第8章 互联网大数据处理 246
8.1 互联网信息抓取 246
8.1.1 概述 246
8.1.2 Nutch爬虫 247
8.1.3 案例:招聘网站信息抓取 254
8.1.4 案例:舆情信息汇聚 256
8.2 文本分词 261
8.2.1 概述 261
8.2.2 MMSEG分词工具 262
8.2.3 斯坦福NLTK分词工具 264
8.3 倒排索引 266
8.3.1 倒排索引原理 266
8.3.2 倒排索引实现 269
8.4 网页排序算法 271
8.4.1 概述 271
8.4.2 TD-IDF算法 273
8.4.3 BM25算法 277
8.4.4 PageRank算法 278
8.5 历史信息检索 279
8.5.1 系统架构 280
8.5.2 数据抓取与整合 280
8.5.3 查询引擎 280
8.5.4 运行效果 281
习题 282
参考文献 283
第9章 大数据商业应用 284
9.1 用户画像与精准营销 284
9.1.1 概述 284
9.1.2 用户画像 284
9.1.3 案例:航空旅客画像 285
9.1.4 案例:购物人员画像 286
9.1.5 案例:移动用户画像 287
9.1.6 精准营销 288
9.2 广告推荐 289
9.2.1 推荐系统 289
9.2.2 广告点击率及其预估 290
9.2.3 基于位置的服务与广告推荐 293
9.3 互联网金融 294
9.3.1 概述 294
9.3.2 应用场景 295
9.3.3 案例:互联网信贷 296
9.3.4 案例:互联网融资 298
9.3.5 大数据技术在互联网金融中的应用 298
习题 300
参考文献 301
第10章 行业大数据 302
10.1 地震大数据 302
10.1.1 大数据时代和地震 302
10.1.2 密集地震观测网将地震带进大数据时代 302
10.1.3 地震大数据一定是巨量数据 306
10.1.4 地震大数据找关联 307
10.1.5 数据处理从复杂到简单 308
10.1.6 大数据推进地震新模式和新业态 309
10.2 交通大数据 314
10.2.1 智慧交通与大数据 314
10.2.2 大数据应用交通的意义 314
10.2.3 交通大数据中的数据挖掘技术 315
10.2.4 大数据挖掘技术在智能交通中的应用 317
10.2.5 河北交通卡口数据分析系统 319
10.3 环境大数据 324
10.3.1 环境大数据概念 324
10.3.2 环境数据的采集与获取 327
10.3.3 环境数据的存储与处理 328
10.3.4 环境数据的应用 329
10.4 警务大数据 331
10.4.1 大数据时代警务新模式 331
10.4.2 警务大数据应用价值 332
10.4.3 如何开展警务大数据研发 333
10.4.4 警务大数据应用场景 337
10.4.5 警务大数据发展方向 338
习题 338
参考文献 338
附录 大数据实验一体机 340
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017