大数据导论PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:周鸣争,陶皖主编;杨丹,李臣龙,万家山参编
- 出 版 社:北京:中国铁道出版社
- 出版年份:2018
- ISBN:9787113242633
- 页数:178 页
第1章 概论 1
1.1 什么是大数据 1
1.1.1 大数据产生的背景 1
1.1.2 大数据的概念及特征 5
1.2 大数据带来的变革 7
1.3 大数据的价值与挑战 9
1.3.1 大数据的价值 9
1.3.2 大数据时代面临的新挑战 10
1.4 大数据的相关技术 12
1.4.1 大数据存储和管理技术 14
1.4.2 大数据分析技术 20
1.4.3 大数据处理工具与平台 21
1.5 大数据的处理流程 22
1.5.1 数据抽取与集成 22
1.5.2 数据分析 23
1.5.3 数据解释 23
1.5.4 大数据处理模型 24
1.6 大数据的发展机遇 28
习题 29
第2章 大数据存储 30
2.1 大数据存储概述 30
2.2 传统的大数据存储系统 30
2.3 分布式文件系统 33
2.3.1 HDFS相关概念 35
2.3.2 HDFS分布式文件系统的结构 36
2.3.3 HDFS存储原理 37
2.3.4 HDFS数据读/写 41
2.4 NoSQL数据库 43
2.4.1 NoSQL的产生 44
2.4.2 NoSQL与RDBMS 45
2.4.3 NoSQL的分类 46
2.4.4 HBase数据库 47
2.4.5 NoSQL与NewSQL 52
习题 53
第3章 大数据处理 55
3.1 多处理器技术 55
3.2 并行计算 59
3.3 MapReduce并行计算技术 65
3.3.1 MapReduce简介 65
3.3.2 MapReduce编程模型 68
3.3.3 Hadoop MapReduce 1 73
3.3.4 Yarn/MapReduce2 76
3.3.5 MapReduce性能调优 79
习题 82
第4章 大数据分析 83
4.1 大数据分析概述 83
4.1.1 数据分析的原则 84
4.1.2 大数据分析的特点 84
4.1.3 大数据分析路线及流程 85
4.1.4 大数据分析技术 87
4.1.5 大数据分析的难点 90
4.2 大数据分析模型 91
4.2.1 大数据分析模型建立方法 91
4.2.2 分类分析模型 93
4.2.3 关联分析模型 94
4.2.4 聚类分析模型 95
4.3 大数据分析算法 98
4.3.1 大数据算法概述 99
4.3.2 决策树算法简介 101
4.3.3 Apriori算法简介 105
4.3.4 K-Means算法简介 109
4.4 大数据分析应用 111
4.4.1 文本分析 111
4.4.2 情感分析 113
4.4.3 推荐系统 115
4.5 大数据分析常用工具 117
习题 119
第5章 大数据可视化 120
5.1 大数据可视化技术概述 120
5.1.1 数据可视化简史 120
5.1.2 数据可视化的功能 122
5.1.3 大数据可视化简介 123
5.2 大数据可视化技术基础 126
5.2.1 数据可视化流程 126
5.2.2 数据可视化编码 128
5.2.3 数据可视化设计 132
5.3 大数据可视化应用 134
5.3.1 文本可视化 135
5.3.2 社交网络可视化 138
5.3.3 日志数据可视化 140
5.3.4 地理信息可视化 140
5.3.5 数据可视化交互 141
5.4 大数据可视化软件和工具 143
5.4.1 大数据可视化软件分类 143
5.4.2 科学可视化软件和工具 144
5.4.3 可视化分析软件和工具 145
5.4.4 信息可视化软件和工具 147
习题 148
第6章 大数据应用 149
6.1 互联网行业大数据 149
6.2 交通大数据 153
6.3 医疗大数据 159
6.4 问答系统 164
习题 169
第7章 大数据发展趋势与展望 170
7.1 大数据安全与隐私保护 170
7.1.1 数据安全与隐私保护的现状 170
7.1.2 大数据带来的安全挑战 171
7.1.3 大数据安全与隐私保护关键技术 172
7.2 大数据共享 174
7.2.1 大数据共享面临的挑战 174
7.2.2 大数据共享的措施与机制 175
7.3 数据科学 176
7.3.1 数据科学的概念 176
7.3.2 数据分析的难题 176
习题 177
参考文献 178
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《物联网导论》张翼英主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《材料导论》张会主编 2019
- 《化工传递过程导论 第2版》阎建民,刘辉 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018