《大数据》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:刘鹏主编;张燕,张重生,张志立副主编
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2017
  • ISBN:9787121304309
  • 页数:346 页
图书介绍:本书从大数据的采集、存储、计算、分析挖掘、可视化、应用和安全等角度,全面解析大数据技术原理及应用实践。在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。

第1章 大数据概念与应用 1

1.1 大数据之“大” 1

1.2 大数据的来源 3

1.3 大数据的技术支撑 5

1.4 大数据应用场景 6

1.5 如何开展大数据研发 10

习题 13

参考文献 14

第2章 数据采集与预处理 15

2.1 大数据采集架构 15

2.1.1 概述 15

2.1.2 常用大数据采集工具 15

2.1.3 Apache Kafka数据采集 16

2.2 数据预处理原理 24

2.2.1 数据清洗 24

2.2.2 数据集成 26

2.2.3 数据变换 27

2.3 数据仓库与ETL工具 27

2.3.1 概述 28

2.3.2 常用ETL工具 28

2.3.3 案例:Kettle数据迁移 29

习题 33

参考文献 33

第3章 数据挖掘算法 35

3.1 数据挖掘概述 35

3.1.1 数据挖掘概念 35

3.1.2 数据挖掘常用算法 35

3.1.3 数据挖掘应用场景 37

3.1.4 数据挖掘工具 40

3.2 分类 42

3.2.1 贝叶斯决策与分类器 43

3.2.2 SVM算法 45

3.2.3 案例:在线广告推荐中的分类 50

3.3 聚类 52

3.3.1 非监督机器学习方法与聚类 56

3.3.2 常用聚类算法 57

3.3.3 案例:海量视频检索中的聚类 59

3.4 关联规则 60

3.4.1 关联规则的概念 61

3.4.2 频繁项集的产生及其经典算法 62

3.4.3 分类技术 65

3.4.4 关联规则挖掘在车辆保险中的应用——客户风险分析 67

3.5 预测模型 70

3.5.1 预测与预测模型 70

3.5.2 时间序列预测 72

3.5.3 案例:地震预警中的预测方法 76

3.6 数据挖掘算法综合应用 81

习题 85

参考文献 85

第4章 大数据挖掘工具 88

4.1 Mahout 88

4.1.1 安装Mahout 90

4.1.2 聚类算法 91

4.1.3 分类算法 99

4.1.4 协同过滤算法 105

4.1.5 案例:基于Mahout Spark Shell的中文新闻分类 113

4.2 Spark MLlib 117

4.2.1 聚类算法 118

4.2.2 回归算法 119

4.2.3 分类算法 121

4.2.4 协同过滤算法 122

4.2.5 案例:基于ALS算法的影片推荐 124

4.3 其他数据挖掘工具 130

习题 136

参考文献 137

第5章 R语言 138

5.1 R语言简介 138

5.1.1 R语言的产生与发展历程 138

5.1.2 R语言基本功能介绍 141

5.1.3 R语言常见的应用领域 147

5.2 R与数据挖掘 148

5.2.1 R软件包与常见的数据挖掘算法介绍 149

5.2.2 R在数据挖掘中的应用举例 164

5.3 SparkR 181

5.3.1 SparkR简介 181

5.3.2 SparkR环境搭建 183

5.3.3 SparkR使用 185

5.3.4 SparkR与HQL 186

5.3.5 SparkR实现的主要机器学习算法概述 187

5.3.6 SparkR在数据分析中的应用举例 191

习题 194

参考文献 194

第6章 深度学习 195

6.1 概述 195

6.1.1 人工智能简史 195

6.1.2 神经网络 197

6.1.3 大数据与深度学习 200

6.1.4 人工智能的未来 201

6.2 深度神经网络 202

6.2.1 整体架构 202

6.2.2 自动编码器 203

6.2.3 受限玻尔兹曼机 204

6.2.4 深度置信网络 206

6.2.5 卷积神经网络 207

6.2.6 循环(递归)神经网络 210

6.3 软硬件实现 211

6.3.1 TensorFlow 211

6.3.2 Caffe 212

6.3.3 其他深度学习软件 213

6.3.4 深度学习一体机 216

6.4 深度学习应用 217

6.4.1 语音识别 217

6.4.2 图像分析 218

6.4.3 自然语言处理 219

习题 220

参考文献 220

第7章 大数据可视化 224

7.1 数据可视化基础 224

7.1.1 可视化的基本特征 224

7.1.2 可视化的目标和作用 225

7.1.3 数据可视化流程 225

7.2 大数据可视化方法 226

7.2.1 文本可视化 226

7.2.2 网络(图)可视化 228

7.2.3 时空数据可视化 230

7.2.4 多维数据可视化 232

7.3 大数据可视化软件与工具 234

7.3.1 Excel 234

7.3.2 Processing 235

7.3.3 NodeXL 238

7.3.4 ECharts 241

习题 244

参考文献 244

第8章 互联网大数据处理 246

8.1 互联网信息抓取 246

8.1.1 概述 246

8.1.2 Nutch爬虫 247

8.1.3 案例:招聘网站信息抓取 254

8.1.4 案例:舆情信息汇聚 256

8.2 文本分词 261

8.2.1 概述 261

8.2.2 MMSEG分词工具 262

8.2.3 斯坦福NLTK分词工具 264

8.3 倒排索引 266

8.3.1 倒排索引原理 266

8.3.2 倒排索引实现 269

8.4 网页排序算法 271

8.4.1 概述 271

8.4.2 TD-IDF算法 273

8.4.3 BM25算法 277

8.4.4 PageRank算法 278

8.5 历史信息检索 279

8.5.1 系统架构 280

8.5.2 数据抓取与整合 280

8.5.3 查询引擎 280

8.5.4 运行效果 281

习题 282

参考文献 283

第9章 大数据商业应用 284

9.1 用户画像与精准营销 284

9.1.1 概述 284

9.1.2 用户画像 284

9.1.3 案例:航空旅客画像 285

9.1.4 案例:购物人员画像 286

9.1.5 案例:移动用户画像 287

9.1.6 精准营销 288

9.2 广告推荐 289

9.2.1 推荐系统 289

9.2.2 广告点击率及其预估 290

9.2.3 基于位置的服务与广告推荐 293

9.3 互联网金融 294

9.3.1 概述 294

9.3.2 应用场景 295

9.3.3 案例:互联网信贷 296

9.3.4 案例:互联网融资 298

9.3.5 大数据技术在互联网金融中的应用 298

习题 300

参考文献 301

第10章 行业大数据 302

10.1 地震大数据 302

10.1.1 大数据时代和地震 302

10.1.2 密集地震观测网将地震带进大数据时代 302

10.1.3 地震大数据一定是巨量数据 306

10.1.4 地震大数据找关联 307

10.1.5 数据处理从复杂到简单 308

10.1.6 大数据推进地震新模式和新业态 309

10.2 交通大数据 314

10.2.1 智慧交通与大数据 314

10.2.2 大数据应用交通的意义 314

10.2.3 交通大数据中的数据挖掘技术 315

10.2.4 大数据挖掘技术在智能交通中的应用 317

10.2.5 河北交通卡口数据分析系统 319

10.3 环境大数据 324

10.3.1 环境大数据概念 324

10.3.2 环境数据的采集与获取 327

10.3.3 环境数据的存储与处理 328

10.3.4 环境数据的应用 329

10.4 警务大数据 331

10.4.1 大数据时代警务新模式 331

10.4.2 警务大数据应用价值 332

10.4.3 如何开展警务大数据研发 333

10.4.4 警务大数据应用场景 337

10.4.5 警务大数据发展方向 338

习题 338

参考文献 338

附录 大数据实验一体机 340