大数据基础与应用PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:陈明著
- 出 版 社:北京:北京师范大学出版社
- 出版年份:2016
- ISBN:9787303200184
- 页数:328 页
第1章 走进大数据时代 1
1.1 应对大数据 2
1.1.1 电子数据迅速增加 2
1.1.2 数据中蕴含的价值 2
1.1.3 数据是国家的核心资产 3
1.2 大数据的生态环境 3
1.2.1 互联网世界 4
1.2.2 物理世界 5
1.3 大数据的概念 6
1.3.1 数据容量 6
1.3.2 数据类型 8
1.3.3 价值密度 8
1.3.4 速度 8
1.3.5 真实性 8
1.4 大数据的性质 8
1.4.1 非结构性 8
1.4.2 不完备性 9
1.4.3 时效性 9
1.4.4 安全性 10
1.4.5 可靠性 10
1.5 大数据技术概述 10
1.5.1 大数据处理的全过程 11
1.5.2 大数据技术的特征 13
1.5.3 大数据的关键问题与关键技术 14
1.6 大数据应用 16
1.6.1 大数据应用趋势 16
1.6.2 大数据应用评价与应用实例 17
小结 21
第2章 科学研究范式 22
2.1 科学研究第一范式 23
2.1.1 科学实验特点与步骤 23
2.1.2 科学实验构成与分类 24
2.1.3 科学实验程序 25
2.1.4 科学实验使用原则 25
2.2 科学研究第二范式 26
2.2.1 科学理论的特征与价值 27
2.2.2 科学理论的结构与体系建立方法 27
2.3 科学研究第三范式 28
2.3.1 系统模拟发展过程 29
2.3.2 系统模拟基本方法 29
2.3.3 系统模拟语言 30
2.4 科学研究第四范式 30
2.4.1 数据密集型计算 31
2.4.2 格雷法则 32
2.4.3 核心内容 35
小结 36
第3章 分布系统设计的CAP理论 37
3.1 分布式系统的伸缩性 38
3.1.1 可伸缩性的概念 38
3.1.2 影响横向扩展的主要因素 39
3.2 横向扩展方案 42
3.2.1 可伸缩共享数据库 42
3.2.2 对等复制的横向扩展方案 43
3.2.3 链接服务器和分布式查询 44
3.2.4 分布式分区视图 45
3.2.5 数据依赖型路由的横向扩展 46
3.3 CAP理论 47
3.3.1 分布系统设计的核心系统需求 47
3.3.2 CAP定理 49
3.4 BASE模型 53
3.4.1 三个核心需求分析 53
3.4.2 ACID、BASE与CAP的关系 54
3.4.3 CAP与延迟 55
3.4.4 CAP理论的进一步研究 55
3.5 Web分布式系统设计 57
3.5.1 系统核心需求 57
3.5.2 系统服务 58
3.5.3 冗余 59
3.5.4 分区 60
小结 61
第4章 大数据网络空间 62
4.1 复杂网络空间概述 63
4.1.1 复杂网络概念与特征 63
4.1.2 复杂网络的特性 64
4.2 社会网络 65
4.2.1 社会网络结构 65
4.2.2 社会网络理论 66
4.2.3 社会计算 67
4.2.4 社会网络应用 68
4.3 社会网络分析 69
4.3.1 社会网络分析概述 70
4.3.2 社会网络分析的原理 70
4.3.3 社会网络分析的特征 71
4.3.4 社会网络分析的方法 71
4.4 社会网络中的隐私保护 72
4.4.1 用户隐私类型 72
4.4.2 身份隐私攻击与保护 73
4.4.3 用户关系的攻击及保护 73
4.4.4 万维网用户隐私保护 74
4.5 社会感知计算 74
4.5.1 社会感知计算概念 74
4.5.2 社会感知计算的内容 75
4.6 人类通信方式 76
4.6.1 通信方式的演化 76
4.6.2 六度分隔理论 77
4.6.3 150法则 78
4.6.4 唯象理论与唯象方法 79
4.7 社交网站 80
4.7.1 社交网站作用 80
4.7.2 Web网站 80
小结 81
第5章 MapReduce分布编程模型 82
5.1 函数式编程范式 82
5.1.1 函数型语言与函数式编程 83
5.1.2 函数式编程优点 83
5.1.3 函数式编程的特征 84
5.2 映射函数与化简函数 84
5.2.1 映射与映射函数 84
5.2.2 化简与化简函数 85
5.3 MapReduce的体系结构 86
5.3.1 MapReduce计算描述 86
5.3.2 MapReduce适用情况 88
5.4 基于Hadoop平台的分布式计算 88
5.4.1 Hadoop发展历程 88
5.4.2 分布式系统与Hadoop 90
5.4.3 SQL数据库和Hadoop 90
5.4.4 基于Hadoop的分布式计算 92
小结 98
第6章 大数据流式计算 99
6.1 流式数据的概念与特征 99
6.1.1 流式数据的概念 99
6.1.2 流式数据的特征 100
6.2 大数据的计算模式 101
6.2.1 大数据批量计算模型 101
6.2.2 大数据流式计算模型 101
6.2.3 大数据流式计算与批量计算的比较 103
6.3 流式大数据处理工具 104
6.3.1 Storm系统 104
6.3.2 S4系统 107
6.3.3 Data Freeway and Puma系统 110
6.4 大数据流式计算的应用 111
6.4.1 金融银行业的应用 112
6.4.2 互联网领域的应用 112
6.4.3 物联网领域的应用 113
6.4.4 三种典型应用场景的对比 113
小结 114
第7章 大数据搜索技术 115
7.1 搜索引擎概述 116
7.1.1 搜索引擎的发展过程 116
7.1.2 搜索引擎的定义 117
7.1.3 搜索引擎的组成 117
7.1.4 搜索引擎的分类 117
7.1.5 搜索引擎的工作过程 120
7.1.6 搜索引擎的评价指标 121
7.2 语义搜索引擎 121
7.2.1 语义与语义搜索引擎的概念 121
7.2.2 图谱 122
7.2.3 搜索就是回答 123
7.2.4 语义搜索引擎的组成 123
7.2.5 基于本体的语义搜索引擎 123
7.3 网站数据对搜索引擎的影响 126
7.3.1 垂直网站与垂直搜索 126
7.3.2 私有化的Web化数据 127
7.3.3 没有Web化的数据 127
7.3.4 大数据流动 128
7.4 搜索引擎优化 128
7.4.1 搜索引擎优化的产生 129
7.4.2 网页级别 129
7.4.3 搜索引擎优化的方法 129
小结 131
第8章 大数据存储 132
8.1 大数据存储概述 132
8.1.1 大数据存储模型 133
8.1.2 大数据存储问题 133
8.1.3 存储方式 135
8.2 大数据的存储技术 139
8.2.1 数据容量问题 139
8.2.2 大图数据 140
8.2.3 分布式存储的架构 142
8.2.4 数据存储管理 143
8.3 数据云存储 145
8.3.1 云存储的意义与问题 145
8.3.2 技术措施 146
8.4 数据存储的可靠性 148
8.4.1 磁盘与磁盘阵列的可靠性 148
8.4.2 文件系统的可靠性 151
小结 151
第9章 NoSQL数据库 152
9.1 NoSQL概述 153
9.1.1 非结构化问题 153
9.1.2 NoSQL的产生 153
9.2 NoSQL的特点与问题 155
9.2.1 NoSQL的特点 155
9.2.2 NoSQL面对的问题 156
9.3 NoSQL的主要存储方式 157
9.3.1 键值存储方式 157
9.3.2 文档存储方式 158
9.3.3 列存储方式 160
9.3.4 图形存储方式 166
9.3.5 存储类型对应的NoSQL数据库 167
9.4 常用的NoSQL数据库 168
9.4.1 Cassandra 168
9.4.2 Lucene 168
9.4.3 Riak 169
9.4.4 CouchDB 169
9.4.5 Neo4j 169
9.4.6 Oracle的NoSQL 169
9.4.7 Hadoop的HBase 170
9.4.8 Bigtable 170
9.4.9 DynamoDB 170
9.4.10 MongoDB 170
小结 173
第10章 大数据预处理技术 174
10.1 数据抽取概述 175
10.1.1 数据抽取的概念与包装器 175
10.1.2 抽取数据的方法 176
10.2 Web数据抽取 177
10.2.1 Web数据抽取问题的提出 177
10.2.2 Web数据抽取的目的与方法 177
10.2.3 Web数据抽取过程 178
10.3 数据质量与数据清洗 179
10.3.1 数据质量 179
10.3.2 数据清洗的目的 180
10.3.3 数据清洗算法衡量标准 180
10.3.4 数据清洗的主要研究成果 181
10.3.5 数据清洗技术面临的问题 181
10.4 不符合要求的数据 182
10.4.1 不完整的数据 182
10.4.2 异常的数据 182
10.4.3 重复的数据 183
10.5 数据清洗技术的实现 183
10.5.1 数据清洗的方法与技巧 184
10.5.2 数据清洗的实现方式 186
10.5.3 数据清洗的步骤 187
10.5.4 数据清洗的评价标准 188
10.5.5 常用的数据清洗算法 188
10.5.6 大数据清洗工具 189
10.6 数据集成 189
10.6.1 数据集成技术概述 190
10.6.2 数据集成系统的构建 192
10.7 数据转换与约简 193
10.7.1 数据转换 193
10.7.2 数据约简 194
小结 195
第11章 大数据分析 196
11.1 数据分析概述 197
11.1.1 数据分析的概念 197
11.1.2 数据分析的目的与意义 197
11.1.3 数据分析方法的分类 198
11.1.4 数据分析的类型 198
11.1.5 数据分析步骤 199
11.2 基本数据分析方法 199
11.2.1 统计方法 199
11.2.2 指标对比分析法 200
11.2.3 分组分析法 201
11.2.4 综合评价分析法 201
11.2.5 指数分析法 201
11.2.6 平衡分析法 201
11.2.7 平滑和滤波 202
11.2.8 基线与峰值 202
11.3 高级数据分析方法 202
11.3.1 时间数列及动态分析法 202
11.3.2 相关分析 203
11.3.3 回归分析 203
11.3.4 判别分析 204
11.3.5 对应分析 204
11.3.6 预测分析 204
11.3.7 主成分分析 204
11.3.8 多维尺度分析 205
11.3.9 因子分析 205
11.3.10 方差分析 205
11.4 复合技术分析 205
11.4.1 快速傅里叶变换 206
11.4.2 分类 206
11.4.3 聚类分析 206
11.5 大数据分析基础 207
11.5.1 可视化分析 207
11.5.2 数据挖掘 207
11.5.3 预测性分析 208
11.5.4 语义引擎 208
11.5.5 数据质量和数据管理 208
11.5.6 大数据的离线与在线分析 208
11.6 大数据预测分析 209
11.6.1 预测学简介 209
11.6.2 预测原理 211
11.6.3 预测的步骤 212
11.6.4 预测技术分类 213
11.6.5 预测模型及分类 215
11.6.6 大数据预测分析要素 215
11.6.7 大数据预测分析的演化 216
11.6.8 大数据预测分析相关问题 216
11.6.9 舆情监测与分析 217
11.7 大数据分析应用 220
11.7.1 为客户提供服务 220
11.7.2 优化业务流程 220
11.7.3 改善生活 220
11.7.4 提高体育成绩 221
11.7.5 优化机器和设备性能 221
11.7.6 改善安全和执法 221
11.7.7 金融交易 221
11.7.8 电信业务 221
11.7.9 销售 222
11.8 大数据分析平台与工具 222
11.8.1 大数据分析平台 222
11.8.2 大数据分析的工具 223
小结 226
第12章 大数据挖掘 227
12.1 数据挖掘概述 227
12.1.1 数据挖掘的几个概念 228
12.1.2 数据挖掘对象与过程 229
12.1.3 数据挖掘的常用方法 232
12.1.4 数据挖掘的几个问题 234
12.1.5 数据挖掘的经典算法 237
12.2 大数据挖掘技术 238
12.2.1 大数据挖掘关键技术 239
12.2.2 大数据挖掘策略 240
12.3 大数据挖掘应用 243
12.3.1 市场营销 243
12.3.2 销售 244
12.3.3 物流 245
12.3.4 CRM 246
小结 248
第13章 大数据可视化 249
13.1 可视化技术概述 249
13.1.1 可视化技术的产生与发展 250
13.1.2 科学可视化 253
13.1.3 信息可视化 254
13.1.4 数据可视化 257
13.2 大数据科学可视化 260
13.2.1 高可伸缩性的分布式并行可视化算法 260
13.2.2 并行图像合成算法 261
13.2.3 并行颗粒跟踪算法 261
13.2.4 重要信息的提取与显示 262
13.2.5 原位可视化 263
13.3 大数据可视化分析 264
13.3.1 大数据可视化分析概念 264
13.3.2 大数据可视化分析方法 264
小结 267
第14章 大数据安全 268
14.1 大数据安全概述 268
14.1.1 数据安全的定义 269
14.1.2 数据处理与存储的安全 269
14.1.3 数据安全的基本特点 269
14.1.4 威胁数据安全的主要因素 270
14.1.5 安全制度与防护技术 271
14.1.6 应用 273
14.2 大数据安全的内容 278
14.2.1 大数据的不安全因素 278
14.2.2 大数据安全的关键问题 279
14.2.3 大数据安全措施 280
14.3 云安全 281
14.3.1 云计算中用户的安全需求 281
14.3.2 威胁模型 282
14.3.3 云安全的支撑技术 282
14.3.4 用户数据隐私保护 283
14.3.5 云计算执行环境的可信性 283
14.3.6 资源共享问题 284
小结 284
第15章 大数据机器学习 285
15.1 机器学习概述 285
15.1.1 机器学习的产生与发展 285
15.1.2 机器学习类型 288
15.1.3 知识表示形式 291
15.2 大数据机器学习的特点与评测指标 292
15.2.1 大数据机器学习的特点 293
15.2.2 大数据机器学习的评测指标 294
15.3 大数据机器学习的应用 295
15.3.1 基于大数据的空气质量推断 295
15.3.2 人与建筑的关系分析 296
15.3.3 针对全球问题的预测模型 296
15.3.4 全球地表覆盖制图可视化与数据分析 296
小结 297
第16章 大数据推荐技术 298
16.1 推荐技术概述 298
16.1.1 推荐系统的产生与发展 299
16.1.2 推荐系统的概念 299
16.1.3 推荐系统架构 300
16.1.4 推荐系统类型 300
16.1.5 推荐系统的评判标准 302
16.2 推荐算法与推荐模式 303
16.2.1 推荐算法 303
16.2.2 推荐模式 306
16.2.3 下一代推荐系统 308
16.3 大数据推荐技术的挑战 310
16.3.1 数据稀疏性问题 310
16.3.2 大数据冷启动 310
16.3.3 多样性与精确性的两难命题 310
16.3.4 大数据处理与增量计算问题 311
16.3.5 推荐系统的脆弱性问题 311
16.3.6 推荐系统效果评估 311
16.3.7 用户行为模式的挖掘和利用 312
16.3.8 用户界面与用户体验 312
16.3.9 多维数据的交叉利用 313
16.3.10 社会推荐 313
16.4 大数据人才推荐系统 314
小结 315
第17章 数据科学与数据思维 316
17.1 数据科学概述 316
17.1.1 数据科学的定义与信息化过程 316
17.1.2 数据科学的研究内容 317
17.1.3 数据科学的研究过程与体系框架 318
17.2 大数据研究方式 319
17.2.1 大数据分析的是全面的数据 320
17.2.2 重视数据的复杂性与弱化精确性 321
17.2.3 关注数据的相关性而非因果关系 321
17.3 数据专家 322
17.3.1 数据科学家 322
17.3.2 数据处理工程师 325
17.3.3 大数据思维 325
小结 326
参考文献 327
- 《市政工程基础》杨岚编著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《零基础学会素描》王金著 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《花时间 我的第一堂花艺课 插花基础技法篇》(日)花时间编辑部编;陈洁责编;冯莹莹译 2020
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《Photoshop CC 2018基础教程》温培利,付华编著 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019