当前位置:首页 > 工业技术
大数据基础与应用
大数据基础与应用

大数据基础与应用PDF电子书下载

工业技术

  • 电子书积分:12 积分如何计算积分?
  • 作 者:陈明著
  • 出 版 社:北京:北京师范大学出版社
  • 出版年份:2016
  • ISBN:9787303200184
  • 页数:328 页
图书介绍:本书主要介绍了大数据基础,内容包括大数据概述、第四科学研究范式、NoSQL数据库、分布系统设计中的CAP理论、复杂网络、MapReduce编程模型、大数据存储、大数据分析、大数据挖掘、大数据可视化分析、大数据安全、大数据机器学习、大数据推荐技术、大数据认知科学、大数据决策技术、大数据软件工程、大数据对计算机系统结构的影响、数据科学与数据思维等。
《大数据基础与应用》目录

第1章 走进大数据时代 1

1.1 应对大数据 2

1.1.1 电子数据迅速增加 2

1.1.2 数据中蕴含的价值 2

1.1.3 数据是国家的核心资产 3

1.2 大数据的生态环境 3

1.2.1 互联网世界 4

1.2.2 物理世界 5

1.3 大数据的概念 6

1.3.1 数据容量 6

1.3.2 数据类型 8

1.3.3 价值密度 8

1.3.4 速度 8

1.3.5 真实性 8

1.4 大数据的性质 8

1.4.1 非结构性 8

1.4.2 不完备性 9

1.4.3 时效性 9

1.4.4 安全性 10

1.4.5 可靠性 10

1.5 大数据技术概述 10

1.5.1 大数据处理的全过程 11

1.5.2 大数据技术的特征 13

1.5.3 大数据的关键问题与关键技术 14

1.6 大数据应用 16

1.6.1 大数据应用趋势 16

1.6.2 大数据应用评价与应用实例 17

小结 21

第2章 科学研究范式 22

2.1 科学研究第一范式 23

2.1.1 科学实验特点与步骤 23

2.1.2 科学实验构成与分类 24

2.1.3 科学实验程序 25

2.1.4 科学实验使用原则 25

2.2 科学研究第二范式 26

2.2.1 科学理论的特征与价值 27

2.2.2 科学理论的结构与体系建立方法 27

2.3 科学研究第三范式 28

2.3.1 系统模拟发展过程 29

2.3.2 系统模拟基本方法 29

2.3.3 系统模拟语言 30

2.4 科学研究第四范式 30

2.4.1 数据密集型计算 31

2.4.2 格雷法则 32

2.4.3 核心内容 35

小结 36

第3章 分布系统设计的CAP理论 37

3.1 分布式系统的伸缩性 38

3.1.1 可伸缩性的概念 38

3.1.2 影响横向扩展的主要因素 39

3.2 横向扩展方案 42

3.2.1 可伸缩共享数据库 42

3.2.2 对等复制的横向扩展方案 43

3.2.3 链接服务器和分布式查询 44

3.2.4 分布式分区视图 45

3.2.5 数据依赖型路由的横向扩展 46

3.3 CAP理论 47

3.3.1 分布系统设计的核心系统需求 47

3.3.2 CAP定理 49

3.4 BASE模型 53

3.4.1 三个核心需求分析 53

3.4.2 ACID、BASE与CAP的关系 54

3.4.3 CAP与延迟 55

3.4.4 CAP理论的进一步研究 55

3.5 Web分布式系统设计 57

3.5.1 系统核心需求 57

3.5.2 系统服务 58

3.5.3 冗余 59

3.5.4 分区 60

小结 61

第4章 大数据网络空间 62

4.1 复杂网络空间概述 63

4.1.1 复杂网络概念与特征 63

4.1.2 复杂网络的特性 64

4.2 社会网络 65

4.2.1 社会网络结构 65

4.2.2 社会网络理论 66

4.2.3 社会计算 67

4.2.4 社会网络应用 68

4.3 社会网络分析 69

4.3.1 社会网络分析概述 70

4.3.2 社会网络分析的原理 70

4.3.3 社会网络分析的特征 71

4.3.4 社会网络分析的方法 71

4.4 社会网络中的隐私保护 72

4.4.1 用户隐私类型 72

4.4.2 身份隐私攻击与保护 73

4.4.3 用户关系的攻击及保护 73

4.4.4 万维网用户隐私保护 74

4.5 社会感知计算 74

4.5.1 社会感知计算概念 74

4.5.2 社会感知计算的内容 75

4.6 人类通信方式 76

4.6.1 通信方式的演化 76

4.6.2 六度分隔理论 77

4.6.3 150法则 78

4.6.4 唯象理论与唯象方法 79

4.7 社交网站 80

4.7.1 社交网站作用 80

4.7.2 Web网站 80

小结 81

第5章 MapReduce分布编程模型 82

5.1 函数式编程范式 82

5.1.1 函数型语言与函数式编程 83

5.1.2 函数式编程优点 83

5.1.3 函数式编程的特征 84

5.2 映射函数与化简函数 84

5.2.1 映射与映射函数 84

5.2.2 化简与化简函数 85

5.3 MapReduce的体系结构 86

5.3.1 MapReduce计算描述 86

5.3.2 MapReduce适用情况 88

5.4 基于Hadoop平台的分布式计算 88

5.4.1 Hadoop发展历程 88

5.4.2 分布式系统与Hadoop 90

5.4.3 SQL数据库和Hadoop 90

5.4.4 基于Hadoop的分布式计算 92

小结 98

第6章 大数据流式计算 99

6.1 流式数据的概念与特征 99

6.1.1 流式数据的概念 99

6.1.2 流式数据的特征 100

6.2 大数据的计算模式 101

6.2.1 大数据批量计算模型 101

6.2.2 大数据流式计算模型 101

6.2.3 大数据流式计算与批量计算的比较 103

6.3 流式大数据处理工具 104

6.3.1 Storm系统 104

6.3.2 S4系统 107

6.3.3 Data Freeway and Puma系统 110

6.4 大数据流式计算的应用 111

6.4.1 金融银行业的应用 112

6.4.2 互联网领域的应用 112

6.4.3 物联网领域的应用 113

6.4.4 三种典型应用场景的对比 113

小结 114

第7章 大数据搜索技术 115

7.1 搜索引擎概述 116

7.1.1 搜索引擎的发展过程 116

7.1.2 搜索引擎的定义 117

7.1.3 搜索引擎的组成 117

7.1.4 搜索引擎的分类 117

7.1.5 搜索引擎的工作过程 120

7.1.6 搜索引擎的评价指标 121

7.2 语义搜索引擎 121

7.2.1 语义与语义搜索引擎的概念 121

7.2.2 图谱 122

7.2.3 搜索就是回答 123

7.2.4 语义搜索引擎的组成 123

7.2.5 基于本体的语义搜索引擎 123

7.3 网站数据对搜索引擎的影响 126

7.3.1 垂直网站与垂直搜索 126

7.3.2 私有化的Web化数据 127

7.3.3 没有Web化的数据 127

7.3.4 大数据流动 128

7.4 搜索引擎优化 128

7.4.1 搜索引擎优化的产生 129

7.4.2 网页级别 129

7.4.3 搜索引擎优化的方法 129

小结 131

第8章 大数据存储 132

8.1 大数据存储概述 132

8.1.1 大数据存储模型 133

8.1.2 大数据存储问题 133

8.1.3 存储方式 135

8.2 大数据的存储技术 139

8.2.1 数据容量问题 139

8.2.2 大图数据 140

8.2.3 分布式存储的架构 142

8.2.4 数据存储管理 143

8.3 数据云存储 145

8.3.1 云存储的意义与问题 145

8.3.2 技术措施 146

8.4 数据存储的可靠性 148

8.4.1 磁盘与磁盘阵列的可靠性 148

8.4.2 文件系统的可靠性 151

小结 151

第9章 NoSQL数据库 152

9.1 NoSQL概述 153

9.1.1 非结构化问题 153

9.1.2 NoSQL的产生 153

9.2 NoSQL的特点与问题 155

9.2.1 NoSQL的特点 155

9.2.2 NoSQL面对的问题 156

9.3 NoSQL的主要存储方式 157

9.3.1 键值存储方式 157

9.3.2 文档存储方式 158

9.3.3 列存储方式 160

9.3.4 图形存储方式 166

9.3.5 存储类型对应的NoSQL数据库 167

9.4 常用的NoSQL数据库 168

9.4.1 Cassandra 168

9.4.2 Lucene 168

9.4.3 Riak 169

9.4.4 CouchDB 169

9.4.5 Neo4j 169

9.4.6 Oracle的NoSQL 169

9.4.7 Hadoop的HBase 170

9.4.8 Bigtable 170

9.4.9 DynamoDB 170

9.4.10 MongoDB 170

小结 173

第10章 大数据预处理技术 174

10.1 数据抽取概述 175

10.1.1 数据抽取的概念与包装器 175

10.1.2 抽取数据的方法 176

10.2 Web数据抽取 177

10.2.1 Web数据抽取问题的提出 177

10.2.2 Web数据抽取的目的与方法 177

10.2.3 Web数据抽取过程 178

10.3 数据质量与数据清洗 179

10.3.1 数据质量 179

10.3.2 数据清洗的目的 180

10.3.3 数据清洗算法衡量标准 180

10.3.4 数据清洗的主要研究成果 181

10.3.5 数据清洗技术面临的问题 181

10.4 不符合要求的数据 182

10.4.1 不完整的数据 182

10.4.2 异常的数据 182

10.4.3 重复的数据 183

10.5 数据清洗技术的实现 183

10.5.1 数据清洗的方法与技巧 184

10.5.2 数据清洗的实现方式 186

10.5.3 数据清洗的步骤 187

10.5.4 数据清洗的评价标准 188

10.5.5 常用的数据清洗算法 188

10.5.6 大数据清洗工具 189

10.6 数据集成 189

10.6.1 数据集成技术概述 190

10.6.2 数据集成系统的构建 192

10.7 数据转换与约简 193

10.7.1 数据转换 193

10.7.2 数据约简 194

小结 195

第11章 大数据分析 196

11.1 数据分析概述 197

11.1.1 数据分析的概念 197

11.1.2 数据分析的目的与意义 197

11.1.3 数据分析方法的分类 198

11.1.4 数据分析的类型 198

11.1.5 数据分析步骤 199

11.2 基本数据分析方法 199

11.2.1 统计方法 199

11.2.2 指标对比分析法 200

11.2.3 分组分析法 201

11.2.4 综合评价分析法 201

11.2.5 指数分析法 201

11.2.6 平衡分析法 201

11.2.7 平滑和滤波 202

11.2.8 基线与峰值 202

11.3 高级数据分析方法 202

11.3.1 时间数列及动态分析法 202

11.3.2 相关分析 203

11.3.3 回归分析 203

11.3.4 判别分析 204

11.3.5 对应分析 204

11.3.6 预测分析 204

11.3.7 主成分分析 204

11.3.8 多维尺度分析 205

11.3.9 因子分析 205

11.3.10 方差分析 205

11.4 复合技术分析 205

11.4.1 快速傅里叶变换 206

11.4.2 分类 206

11.4.3 聚类分析 206

11.5 大数据分析基础 207

11.5.1 可视化分析 207

11.5.2 数据挖掘 207

11.5.3 预测性分析 208

11.5.4 语义引擎 208

11.5.5 数据质量和数据管理 208

11.5.6 大数据的离线与在线分析 208

11.6 大数据预测分析 209

11.6.1 预测学简介 209

11.6.2 预测原理 211

11.6.3 预测的步骤 212

11.6.4 预测技术分类 213

11.6.5 预测模型及分类 215

11.6.6 大数据预测分析要素 215

11.6.7 大数据预测分析的演化 216

11.6.8 大数据预测分析相关问题 216

11.6.9 舆情监测与分析 217

11.7 大数据分析应用 220

11.7.1 为客户提供服务 220

11.7.2 优化业务流程 220

11.7.3 改善生活 220

11.7.4 提高体育成绩 221

11.7.5 优化机器和设备性能 221

11.7.6 改善安全和执法 221

11.7.7 金融交易 221

11.7.8 电信业务 221

11.7.9 销售 222

11.8 大数据分析平台与工具 222

11.8.1 大数据分析平台 222

11.8.2 大数据分析的工具 223

小结 226

第12章 大数据挖掘 227

12.1 数据挖掘概述 227

12.1.1 数据挖掘的几个概念 228

12.1.2 数据挖掘对象与过程 229

12.1.3 数据挖掘的常用方法 232

12.1.4 数据挖掘的几个问题 234

12.1.5 数据挖掘的经典算法 237

12.2 大数据挖掘技术 238

12.2.1 大数据挖掘关键技术 239

12.2.2 大数据挖掘策略 240

12.3 大数据挖掘应用 243

12.3.1 市场营销 243

12.3.2 销售 244

12.3.3 物流 245

12.3.4 CRM 246

小结 248

第13章 大数据可视化 249

13.1 可视化技术概述 249

13.1.1 可视化技术的产生与发展 250

13.1.2 科学可视化 253

13.1.3 信息可视化 254

13.1.4 数据可视化 257

13.2 大数据科学可视化 260

13.2.1 高可伸缩性的分布式并行可视化算法 260

13.2.2 并行图像合成算法 261

13.2.3 并行颗粒跟踪算法 261

13.2.4 重要信息的提取与显示 262

13.2.5 原位可视化 263

13.3 大数据可视化分析 264

13.3.1 大数据可视化分析概念 264

13.3.2 大数据可视化分析方法 264

小结 267

第14章 大数据安全 268

14.1 大数据安全概述 268

14.1.1 数据安全的定义 269

14.1.2 数据处理与存储的安全 269

14.1.3 数据安全的基本特点 269

14.1.4 威胁数据安全的主要因素 270

14.1.5 安全制度与防护技术 271

14.1.6 应用 273

14.2 大数据安全的内容 278

14.2.1 大数据的不安全因素 278

14.2.2 大数据安全的关键问题 279

14.2.3 大数据安全措施 280

14.3 云安全 281

14.3.1 云计算中用户的安全需求 281

14.3.2 威胁模型 282

14.3.3 云安全的支撑技术 282

14.3.4 用户数据隐私保护 283

14.3.5 云计算执行环境的可信性 283

14.3.6 资源共享问题 284

小结 284

第15章 大数据机器学习 285

15.1 机器学习概述 285

15.1.1 机器学习的产生与发展 285

15.1.2 机器学习类型 288

15.1.3 知识表示形式 291

15.2 大数据机器学习的特点与评测指标 292

15.2.1 大数据机器学习的特点 293

15.2.2 大数据机器学习的评测指标 294

15.3 大数据机器学习的应用 295

15.3.1 基于大数据的空气质量推断 295

15.3.2 人与建筑的关系分析 296

15.3.3 针对全球问题的预测模型 296

15.3.4 全球地表覆盖制图可视化与数据分析 296

小结 297

第16章 大数据推荐技术 298

16.1 推荐技术概述 298

16.1.1 推荐系统的产生与发展 299

16.1.2 推荐系统的概念 299

16.1.3 推荐系统架构 300

16.1.4 推荐系统类型 300

16.1.5 推荐系统的评判标准 302

16.2 推荐算法与推荐模式 303

16.2.1 推荐算法 303

16.2.2 推荐模式 306

16.2.3 下一代推荐系统 308

16.3 大数据推荐技术的挑战 310

16.3.1 数据稀疏性问题 310

16.3.2 大数据冷启动 310

16.3.3 多样性与精确性的两难命题 310

16.3.4 大数据处理与增量计算问题 311

16.3.5 推荐系统的脆弱性问题 311

16.3.6 推荐系统效果评估 311

16.3.7 用户行为模式的挖掘和利用 312

16.3.8 用户界面与用户体验 312

16.3.9 多维数据的交叉利用 313

16.3.10 社会推荐 313

16.4 大数据人才推荐系统 314

小结 315

第17章 数据科学与数据思维 316

17.1 数据科学概述 316

17.1.1 数据科学的定义与信息化过程 316

17.1.2 数据科学的研究内容 317

17.1.3 数据科学的研究过程与体系框架 318

17.2 大数据研究方式 319

17.2.1 大数据分析的是全面的数据 320

17.2.2 重视数据的复杂性与弱化精确性 321

17.2.3 关注数据的相关性而非因果关系 321

17.3 数据专家 322

17.3.1 数据科学家 322

17.3.2 数据处理工程师 325

17.3.3 大数据思维 325

小结 326

参考文献 327

返回顶部