第一部分 大数据管理理论框架与生态系统 3
第1章 大数据概述 3
1.1大数据时代 3
1.2什么是大数据 4
1.2.1大数据定义 4
1.2.2大数据特征 5
1.2.3大数据结构类型 5
1.2.4数据、信息、知识与智能的关系 6
1.3大数据发展史 9
1.3.1数据管理发展历程 9
1.3.2大数据的演变及回顾 12
1.4大数据的度量和价值 15
1.4.1大数据的度量 15
1.4.2大数据的价值 15
1.5大数据生态系统 17
1.5.1大数据生态系统全貌 17
1.5.2大数据生态系统框架 18
1.6大数据应用研究方向 21
1.6.1大数据管理与技术 22
1.6.2大数据科学与工程 22
1.7大数据的挑战 23
1.7.1大数据管理方面带来的挑战 23
1.7.2大数据技术方面带来的挑战 23
1.7.3大数据工程方面带来的挑战 23
第2章 大数据战略与商业模式变革 25
2.1大数据战略 25
2.1.1国外大数据战略视角 26
2.1.2国内大数据战略视角 29
2.2大数据商业模式和商业机会 32
2.2.1基于大数据的商业模式创新 32
2.2.2大数据对企业管理决策的影响 38
2.2.3基于大数据驱动的商业机会 39
2.3大数据市场的行业应用需求 44
2.3.1移动互联网和社交网络 44
2.3.2政府公共管理 46
2.3.3教育科研行业 48
2.3.4金融行业 50
2.3.5医疗健康业 51
2.3.6中国制造2025 52
2.3.7智能交通领域 54
第3章 大数据平台的架构体系 56
3.1大数据基础设施 56
3.1.1虚拟化 57
3.1.2云计算 57
3.1.3数据中心 62
3.2数据采集 63
3.2.1系统日志采集方法 63
3.2.2网络数据采集方法:对非结构化数据的采集 63
3.2.3其他数据采集方法 63
3.3数据存储 67
3.3.1结构化数据存储 69
3.3.2非结构化数据存储 70
3.4数据处理 71
3.4.1离线批处理 72
3.4.2实时交互计算 74
3.4.3流计算 76
3.5数据交互展示 78
3.5.1数据可视化基础 79
3.5.2数据可视化模式 80
3.5.3数据可视化工具 81
3.6大数据应用 84
3.7运营管理 85
3.8安全管理 85
第4章 大数据的数据整合、交换与交易 87
4.1大数据平台整合 89
4.1.1 HDFS分布式文件系统 90
4.1.2 MapReduce分布式计算框架 91
4.1.3 HBase分布式数据库 94
4.1.4交互式数据查询分析 95
4.1.5数据收集、转换工具 96
4.1.6其他大数据平台 96
4.2大数据与存储架构的整合 98
4.2.1传统存储架构 98
4.2.2集群存储的发展 99
4.2.3基于HDFS的集群存储 100
4.2.4固态硬盘对内存计算的支持 101
4.3大数据与网络架构的发展 103
4.4大数据与虚拟化技术的整合 105
4.5 Hadoop环境下的数据整合 107
4.5.1 Hadoop计算环境下的数据整合问题 107
4.5.2数据库整合工具Sqoop 108
4.5.3 Hadoop平台内部数据整合工具HCatalog 109
4.6大数据数据交换 110
4.6.1数据集成技术 111
4.6.2数据交换体系应用框架 113
4.6.3数据交换关键技术 114
4.7大数据交易 116
4.7.1大数据交易产业链 118
4.7.2大数据交易业务模式分析 120
4.7.3大数据交易发展趋势 122
第5章 大数据管理和治理 124
5.1建立数据驱动的管理体系和架构 126
5.1.1建立数据管理组织和团队 126
5.1.2建立数据管理规章和制度 127
5.2大数据治理体系 127
5.2.1数据标准管理 128
5.2.2数据质量管理 129
5.2.3元数据管理 130
5.2.4主数据管理 131
5.2.5数据资产的全生命周期管理 131
5.3大数据技术管理体系 134
5.3.1数据类型和结构 134
5.3.2数据存储管理 135
5.3.3数据仓库和商业智能 137
5.3.4数据计算和处理 138
5.3.5数据展示与交互 138
5.4大数据事务管理 138
5.4.1事务的基本属性 139
5.4.2大数据事务管理机制 140
5.5大数据流程管理 140
5.6大数据易用性管理 142
5.7数据的安全管理 142
第6章 大数据创新方法论 148
6.1大数据的爆发 148
6.2大数据创新理论 150
6.2.1大数据的宏观性和微观性 150
6.2.2大数据的生产要素性 151
6.2.3大数据的基因特性 151
6.2.4大数据的催化剂特性 152
6.2.5大数据的活性和流动性 152
6.2.6大数据的黑洞效应和核聚变效应 152
6.3大数据创新方法论 153
6.4信息演变趋势 154
6.5大数据创新实践闭环 155
6.6中国创新创业大数据版图 156
6.6.1大数据时代的数据管理 157
6.6.2大众创业万众创新的浪潮 157
6.6.3中国创新创业大数据版图的推出 158
6.6.4双创版图中的大数据管理挑战 160
6.6.5双创版图中大数据技术的集中运用 161
6.6.6双创大数据版图的意义 163
第二部分 数据科学和数据工程 167
第7章 数据科学理论与工具 167
7.1数据科学理论基础 167
7.1.1数据科学概念 167
7.1.2数据科学预测预警分析 168
7.1.3商业智能与数据科学 169
7.2数据科学研究的重要角色 170
7.2.1数据科学家 171
7.2.2数据科学与工程相关角色 172
7.3大数据生命周期管理方法论 172
7.3.1数据分析模型概述 173
7.3.2数据分析模型流程框架 175
7.3.3数据分析模型创新案例 175
7.3.4数据分析工具 183
7.4数据仓库理论 187
7.4.1数据仓库的主要特征 187
7.4.2数据仓库建模 187
7.4.3数据仓库设计 188
7.4.4数据仓库建设方法论 189
7.4.5数据仓库相关技术 190
7.4.6 DW、OLAP与DM的关系 192
7.5数据挖掘高级理论 193
7.5.1聚类分析 193
7.5.2关联分析 197
7.5.3回归和分类分析 202
7.5.4时序模型 212
7.5.5结构优化 214
7.5.6深度机器学习 216
7.6大数据语义分析知识发现 221
7.6.1大数据知识发现过程 221
7.6.2大数据知识发现技术框架 225
7.6.3大数据知识发现专家系统 225
7.6.4企业大数据知识管理框架 229
7.7大数据分析处理平台 230
7.7.1结构化大数据处理架构 230
7.7.2非结构化大数据处理架构 233
7.7.3主流大数据分析平台 236
第8章 医疗健康大数据解决方案 242
8.1医疗信息化 244
8.1.1美国医疗信息化发展情况 244
8.1.2我国医疗信息化发展趋势 247
8.1.3医疗健康大数据挑战和机遇 249
8.2医疗健康大数据综述 250
8.2.1医疗健康大数据类型 251
8.2.2临床服务数据 252
8.2.3公共卫生调查和监测数据 252
8.2.4医学研究性数据 252
8.2.5个人健康数据 252
8.3医疗健康大数据总体架构 253
8.3.1建设原则 253
8.3.2建设目标 253
8.3.3医疗健康大数据业务架构 254
8.3.4医疗健康大数据技术架构 255
8.3.5医疗健康大数据网络架构 256
8.4医疗健康数据中心解决方案 257
8.4.1医疗数据中心架构设计方案 258
8.4.2集中存储解决方案 259
8.4.3 PACS数据存储方案 262
8.4.4容灾备份解决方案 267
8.5医疗健康大数据分析 268
8.5.1医疗实体对象建模分析 269
8.5.2医疗个人健康档案建模分析 269
8.5.3相关数据特征对比分析 271
8.5.4临床信息学大数据分析 272
8.5.5医学文献研究知识发现 273
8.6医疗健康大数据展望 275
第9章 环保行业大数据解决方案 277
9.1环保物联网 278
9.1.1物联网概念 278
9.1.2物联网基本架构 279
9.1.3环保物联网数据 281
9.2环保电力脱硫 281
9.2.1火电脱硫的重要性 281
9.2.2火电脱硫系统工作原理 281
9.2.3火电脱硫相关数据 282
9.2.4脱硫性能优化目标 282
9.3火电行业脱硫大数据分析 283
9.3.1主要理论和方法 283
9.3.2最优化脱硫可调参数 284
9.3.3最小化脱硫系统成本 285
9.4空气质量大数据分析评价体系 285
9.4.1基于熵权的模糊综合评价方法的原理 286
9.4.2综合评价指标选择与数据来源 287
9.4.3环境质量综合评价结果及分析 287
第10章 移动社交大数据解决方案 290
10.1移动社交网络发展情况 291
10.1.1移动社交网络发展现状 291
10.1.2移动社交网络发展方向 293
10.2社交网络基础理论和商业模式 294
10.2.1社交网络相关理论 294
10.2.2社交化商业模式 296
10.3移动社交网络数据处理架构 297
10.3.1移动社交网络服务架构模型 297
10.3.2 Facebook应用案例 298
10.4移动社交网络大数据分析 302
10.4.1社交网络平台行为影响分析模型 302
10.4.2社交网络单平台内影响力分析 303
10.4.3社交网络多平台影响力分析 305
第11章 金融大数据解决方案 307
11.1金融信息化 307
11.1.1全球金融信息化发展历程 307
11.1.2我国金融信息化发展趋势 308
11.2金融大数据综述 309
11.2.1金融大数据的特征 309
11.2.2金融大数据的机遇和挑战 310
11.3金融大数据平台总体架构 311
11.3.1建设原则和目标 312
11.3.2金融大数据业务架构 313
11.3.3金融大数据技术架构 314
11.3.4金融大数据网络架构 316
11.4金融大数据分析 316
11.4.1银行风险管理状况分析 316
11.4.2金融大数据风险管理云平台 318
11.4.3大数据征信 320
11.4.4大数据反欺诈 323
11.4.5大数据精准营销 325
11.5金融大数据带来的产业变革 327
第12章 中国制造大数据解决方案 330
12.1全球工业信息化发展历程和现状 330
12.1.1美国工业信息化发展历程和现状 331
12.1.2日本工业信息化发展历程和现状 333
12.1.3德国工业信息化发展历程和现状 334
12.1.4我国工业信息化发展历程和现状 337
12.1.5我国《中国制造2025》的发展战略 338
12.2工业信息化技术集成和协同发展方向 340
12.2.1集成和协同的空间跨度 340
12.2.2集成和协同的时间跨度 341
12.2.3集成和协同的重点和对象 342
12.2.4主要的集成和协同技术 343
12.3中国制造信息化应用系统 343
12.3.1工业设计自动化系统 343
12.3.2制造控制自动化系统 346
12.3.3制造执行系统 347
12.3.4柔性制造系统 348
12.3.5工业互联网与CPS系统 349
12.3.6 ERP信息系统 351
12.4工业大数据架构体系 353
12.4.1互联网催生工业大数据 353
12.4.2工业大数据内涵特征 354
12.4.3工业大数据业务架构 355
12.4.4工业大数据技术架构 357
12.4.5工业大数据安全架构 358
12.5智能化协同制造体系架构 359
12.5.1智能化协同制造发展需求 359
12.5.2智能化协同制造总体架构 360
12.5.3智能化协同制造设计思想 362
12.5.4智能化协同制造应用场景 367
12.6智能化协同制造服务生命周期过程 367
12.6.1制造资源服务集成与发现 368
12.6.2制造服务资源访问策略 371
12.6.3制造服务资源的优化与智能调度 371
12.6.4智能化协同制造研究与自学习机制 375
12.7工业大数据展望 377
第13章 大数据工程保障体系建设 378
13.1法律体系建设 378
13.2.标准体系建设 380
13.3建立标准化大数据治理体系 386
13.4加强大数据行业应用研究 387
13.5加强元数据的研究和应用 387
13.6加强大数据核心技术研究 387
13.7促进大数据交易市场的规范化发展 388
13.8推动大数据标准化进程 388
参考文献 389