实战大数据PDF电子书下载
- 电子书积分:16 积分如何计算积分?
- 作 者:鲍亮,李倩编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2014
- ISBN:9787302348665
- 页数:525 页
第一篇 大数据基础篇 2
第1章 大数据介绍 2
1.1 大数据相关概念 2
1.1.1 大数据的历史 2
1.1.2 大数据的定义 3
1.2 大数据研究内容 6
1.3 大数据研究现状 10
1.3.1 学术界现状 10
1.3.2 产业界现状 12
1.3.3 政府机构现状 15
1.4 大数据的应用领域 18
1.4.1 大数据在制造业的应用 19
1.4.2 大数据在服务业的应用 20
1.4.3 大数据在交通行业的应用 20
1.4.4 大数据在医疗行业的应用 20
1.5 本章小结 21
第2章 数据存储技术 22
2.1 数据存储技术介绍 23
2.2 数据采集与存储技术研究现状 25
2.2.1 传统关系型数据库 25
2.2.2 新兴数据存储系统 26
2.3 海量数据存储的关键技术分析 27
2.3.1 数据划分 27
2.3.2 数据一致性与可用性 28
2.3.3 负载均衡 29
2.3.4 容错机制 29
2.3.5 海量数据存储的硬件支持 30
2.4 数据存储技术的实现与工具 36
2.4.1 集中式数据存储管理系统Bigtable 36
2.4.2 非集中式的大规模数据管理系统Dynamo 44
2.4.3 BigTable的开源实现HBase 50
2.4.4 MongoDB 52
2.4.5 CouchDB 55
2.4.6 Redis 56
2.4.7 Hypertable 60
2.4.8 其他开源NoSQL数据库 62
2.5 本章小结 69
第3章 数据抽取和清洗 70
3.1 数据抽取和清洗技术介绍 71
3.1.1 数据抽取简介 71
3.1.2 数据清洗简介 73
3.2 数据抽取和清洗研究现状 76
3.3 数据抽取技术的实现 78
3.3.1 Web数据抽取 78
3.3.2 非结构化数据抽取 93
3.3.3 基于云计算的海量数据分析 100
3.4 数据清洗技术的实现 103
3.4.1 数据清洗流程 103
3.4.2 数据清洗框架 105
3.4.3 数据清洗相关技术 109
3.4.4 基于Hadoop的数据清洗方案 115
3.5 ETL现状与发展 122
3.5.1 数据ETL简介 122
3.5.2 基于MapReduce的ETL框架 123
3.5.3 ETL工具 130
3.5.4 ETL展望 137
3.6 本章小结 138
第4章 数据集成 139
4.1 数据集成技术介绍 139
4.2 数据集成技术研究现状 141
4.2.1 Information Manifold:具有统一的查询接口 141
4.2.2 数据集成系统的发展建设 144
4.2.3 企业信息集成 147
4.2.4 未来的挑战 148
4.3 数据集成技术的实现与工具 150
4.3.1 Oracle Data Integrator(ODI)简介 150
4.3.2 ODI的特点 156
4.3.3 Microsoft SQL Server Integration Services(SSIS)简介 156
4.3.4 SSIS的特点 160
4.3.5 IBM InfoSphere Information Server简介 162
4.3.6 Sybase Data Integrator Suite简介 168
4.4 本章小结 174
第5章 数据查询、分析与建模技术 175
5.1 数据查询、分析与建模技术介绍 175
5.1.1 数据查询 175
5.1.2 数据分析 177
5.1.3 数据建模 177
5.2 数据查询、分析与建模技术研究现状 178
5.2.1 并行处理 178
5.2.2 海量数据查询与搜索 180
5.2.3 数据分析中的OLAP与数据挖掘技术 183
5.2.4 数据模型与数据建模方法 191
5.3 数据查询、分析与建模技术的实现与工具 194
5.3.1 数据查询相关技术实现与工具 194
5.3.2 数据分析相关技术实现与工具 200
5.3.3 数据建模相关技术实现与工具 211
5.4 本章小结 215
第二篇 大数据深入篇 217
第6章 采用OSGi框架构建可伸缩的异构数据采集平台 217
6.1 应用背景 217
6.2 需求分析与总体设计 219
6.2.1 功能需求 219
6.2.2 非功能需求 220
6.2.3 总体设计 220
6.3 相关技术介绍 222
6.3.1 OSGi框架介绍 222
6.3.2 多源异构数据的获取 226
6.4 系统设计与实现 232
6.4.1 异构数据采集平台的设计 232
6.4.2 数据采集插件的设计与实现 236
6.4.3 系统服务框架的设计与实现 245
6.5 部署与测试 251
6.5.1 系统部署 251
6.5.2 系统测试 253
6.6 本章小结 257
第7章 采用HBase实现海量小型XML文档的存储与检索 258
7.1 应用背景 258
7.2 需求分析与总体设计 259
7.2.1 需求分析 259
7.2.2 总体设计 265
7.3 相关技术介绍 268
7.3.1 XML相关技术 268
7.3.2 XQuery语句 269
7.3.3 XML检索技术 270
7.3.4 云计算和HBase 272
7.3.5 JavaCC工具介绍 274
7.4 详细设计与实现 275
7.4.1 数据存储模块的详细设计与实现 276
7.4.2 数据检索模块的详细设计与实现 289
7.4.3 用户模块的详细设计与实现 299
7.5 本章小结 301
第8章 采用Map/Reduce进行大规模社交网络社团发现 302
8.1 研究背景 302
8.2 相关理论和技术 305
8.2.1 社团结构 305
8.2.2 相关社团发现算法 306
8.2.3 Hadoop分布计算框架 309
8.3 RMS算法的并行化实现 312
8.3.1 RMS算法 312
8.3.2 RMS算法在MapReduce上的实现 314
8.4 AP聚类算法的并行化实现 317
8.4.1 AP聚类算法 317
8.4.2 AP聚类算法在MapReduce上的实现 319
8.5 实验与分析 324
8.5.1 实验环境 324
8.5.2 实验与结果分析 325
8.6 本章小结 327
第9章 数据统一访问与转换平台 329
9.1 应用背景介绍 329
9.2 数据统一访问需求分析与总体设计 333
9.2.1 功能性需求分析 333
9.2.2 非功能性需求分析 338
9.2.3 总体设计 339
9.3 数据统一访问与转换关键技术 342
9.3.1 SDO编程技术 342
9.3.2 Hadoop MapReduce框架 349
9.3.3 HBase数据库技术 351
9.3.4 模型驱动数据转换技术 353
9.4 数据统一访问和灵活转换的详细设计与实现 355
9.4.1 数据分析及预处理 355
9.4.2 基于DAS的数据源统一访问 360
9.4.3 映射模式表示与数据存储管理模块 369
9.4.4 基于MapReduce的数据转换管理模块 374
9.5 本章小结 378
第三篇 大数据应用篇 380
第10章 基于微博的股票市场预测系统 380
10.1 应用背景介绍 380
10.2 需求分析与总体设计 382
10.2.1 需求分析 382
10.2.2 总体设计 391
10.3 相关技术介绍 393
10.3.1 社交网络 393
10.3.2 社交网络表示方法 395
10.3.3 信息传播模型 396
10.4 详细设计与实现 398
10.4.1 Twitter数据采集模块详细设计 398
10.4.2 Twitter数据分析模块详细设计 401
10.4.3 用户行为分析模块详细设计 407
10.4.4 预测股票价格涨跌模块详细设计 413
10.4.5 系统实现 419
10.5 本章小结 424
第11章 基于内容的海量视频检索系统 426
11.1 应用背景 426
11.2 需求分析与总体设计 427
11.2.1 功能需求 427
11.2.2 非功能需求 431
11.2.3 核心业务处理流程 431
11.2.4 总体设计 435
11.3 相关技术简介 438
11.3.1 MPEG-7与OpenCV简介 438
11.3.2 运动对象提取 440
11.3.3 星形骨架方法 443
11.4 详细设计与实现 449
11.4.1 基于MapReduce的视频预处理 449
11.4.2 基于HBase的视频数据存储 455
11.4.3 行为识别与运动规则的组合创建 470
11.5 系统运行时截图 475
11.6 本章小结 477
第12章 基于HDFS的云文件系统 478
12.1 应用背景介绍 478
12.2 需求分析与总体设计 479
12.2.1 需求分析 479
12.2.2 总体设计 488
12.3 相关技术介绍 491
12.3.1 Hadoop HDFS介绍 491
12.3.2 主控节点和数据节点 493
12.3.3 页面展现技术 494
12.3.4 页面控制技术 494
12.4 详细设计与实现 495
12.4.1 云文件系统的操作流程 495
12.4.2 云文件系统的模块设计 496
12.4.3 云文件系统实现 506
12.4.4 云文件系统主要功能截图 519
12.5 本章小结 525
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《Python3从入门到实战》董洪伟 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《星空摄影后期实战》阿五在路上著 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《半小时漫画股票实战法》财经杂质著 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019