第1章 大数据基础 1
1.1 大数据时代 1
1.1.1 大数据时代的技术基础 1
1.1.2 大数据时代的变革 3
1.1.3 信息技术(IT)向数据技术(DT)的转变 6
1.2 什么是大数据 7
1.2.1 数据的基本知识 7
1.2.2 大数据定义 8
1.2.3 大数据的特征 10
1.3 大数据结构类型 11
1.4 大数据的应用 13
1.4.1 大数据在个人生活中的应用 13
1.4.2 大数据在企业中的应用 15
1.4.3 大数据在政府部门中的运用 16
1.5 数据科学和大数据技术 18
1.5.1 数据科学 18
1.5.2 大数据技术与工具 18
1.6 习题与实践 23
参考文献 23
第2章 大数据下的云计算 24
2.1 云计算概述 24
2.1.1 云计算的定义 24
2.1.2 云计算的特征 25
2.1.3 云计算的体系架构 25
2.1.4 云计算的类型划分 26
2.1.5 云计算的服务模式 27
2.2 云计算技术 27
2.2.1 虚拟化技术 28
2.2.2 并行计算技术 30
2.2.3 海量数据管理技术 30
2.2.4 海量数据存储技术 31
2.3 云计算与云存储 31
2.3.1 云存储概述 31
2.3.2 云存储的存储方式 32
2.3.3 云存储与云计算的关系 33
2.4 云计算与大数据 34
2.4.1 云计算与大数据的关系 34
2.4.2 云计算与大数据的结合 35
2.5 案例——基于云计算的智慧城市建设框架 37
2.5.1 智慧城市的内涵 37
2.5.2 智慧城市的支撑技术 38
2.5.3 智慧城市的体系架构 39
2.5.4 智慧城市的应用 39
2.6 习题与实践 41
参考文献 41
第3章 大数据处理 42
3.1 数据采集 42
3.1.1 数据采集方法 42
3.1.2 数据质量评估 43
3.1.3 数据质量的影响因素 44
3.2 数据清洗 44
3.2.1 处理残缺数据 44
3.2.2 处理噪声数据 45
3.2.3 处理冗余数据 46
3.3 数据变换 46
3.3.1 属性类型变换 46
3.3.2 属性值变换 47
3.4 数据集成 48
3.4.1 模式匹配与数据值冲突 48
3.4.2 数据冗余 48
3.5 数据归约 49
3.5.1 维归约 49
3.5.2 数值归约 50
3.6 习题与实践 50
参考文献 51
第4章 数据统计与分析 52
4.1 统计分析方法 52
4.1.1 分类与预测 52
4.1.2 聚类分析 52
4.1.3 关联分析 53
4.1.4 异常分析 54
4.2 数据挖掘的基本概念 54
4.2.1 数据挖掘的定义 54
4.2.2 数据挖掘的分类 55
4.2.3 数据挖掘的过程 56
4.3 数据挖掘经典算法 57
4.3.1 K-Means算法 57
4.3.2 KNN算法 58
4.3.3 ID3算法 60
4.4 案例——用大数据来挖掘《小时代》 61
4.5 习题与实践 62
参考文献 62
第5章 大数据安全 64
5.1 安全与隐私问题凸显 64
5.1.1 网络安全漏洞 64
5.1.2 个人隐私泄露 65
5.2 大数据时代的安全挑战 66
5.2.1 信息安全的发展历程 66
5.2.2 云计算技术带来的安全挑战 67
5.3 如何解决大数据安全问题 69
5.3.1 大数据安全防护对策 69
5.3.2 大数据安全防护关键技术 71
5.4 如何解决隐私保护问题 72
5.4.1 隐私保护的政策法规 72
5.4.2 隐私保护技术 73
5.5 案例——百度大数据安全实践 74
5.6 习题与实践 75
参考文献 76
第6章 数据可视化 76
6.1 数据可视化类型 76
6.1.1 科学可视化 76
6.1.2 信息可视化 79
6.1.3 可视分析学 81
6.2 数据可视化流程及步骤 83
6.2.1 数据可视化流程 83
6.2.2 数据处理和变换 85
6.2.3 视觉编码 86
6.2.4 统计图表 88
6.2.5 视觉隐喻 91
6.3 可视化评估 92
6.3.1 评估分类 92
6.3.2 评估方法 93
6.4 习题与实践 95
参考文献 96
第7章 大数据与社交媒体的融合 97
7.1 什么是社交媒体 97
7.1.1 社交媒体的定义 97
7.1.2 社交媒体的发展 98
7.2 社交媒体大数据的分析与挖掘 100
7.2.1 基于用户的大数据分析 102
7.2.2 基于关系的大数据分析 103
7.2.3 基于内容的大数据分析 105
7.3 社交媒体大数据的未来挑战 109
7.4 社交媒体大数据信息安全问题 110
7.4.1 社交媒体导致的信息风险类型和形成原因 111
7.4.2 社交媒体的信息风险治理方案 112
7.5 习题与实践 113
参考文献 113
第8章 大数据促进电子病历的改革 115
8.1 医疗病历的问题与挑战 115
8.1.1 病历共享和追溯问题 115
8.1.2 病历责任意识薄弱 115
8.1.3 病历遗失现象 116
8.1.4 电子病历的出现 116
8.2 大数据与电子病历 117
8.2.1 电子病历的大数据定义 117
8.2.2 基于大数据的标准化电子病历 118
8.2.3 “大数据+云计算”的电子病历存储 119
8.2.4 基于大数据的电子病历共享和追溯 121
8.3 电子病历与数据挖掘 121
8.3.1 电子病历数据的深度利用 121
8.3.2 电子病历的数据预处理 122
8.3.3 多维电子病历数据分析 123
8.3.4 电子病历数据挖掘 124
8.4 我国居民终身电子病历 125
8.4.1 背景分析 125
8.4.2 实施方案 126
8.4.3 技术支持 126
8.5 习题与实践 130
参考文献 130
第9章 大数据在旅游业中的应用 132
9.1 旅游数据的问题与发展 132
9.1.1 旅游数据收集问题 132
9.1.2 旅游数据分析问题 133
9.1.3 旅游数据应用问题 133
9.1.4 旅游数据的发展方向 134
9.2 大数据与旅游业 135
9.2.1 智慧旅游+大数据 135
9.2.2 定制旅游+大数据 136
9.2.3 精准营销+大数据 138
9.3 旅游与数据挖掘 139
9.3.1 锁定客户人群、关注客户需求 139
9.3.2 社交媒体挖掘、增加客户忠诚 140
9.4 旅游平台 140
9.4.1 旅游平台的模式 141
9.4.2 旅游平台的技术 142
9.5 习题与实践 143
参考文献 143
第10章 大数据在金融业中的应用——金融大数据 144
10.1 金融大数据概述 144
10.1.1 什么是金融大数据 144
10.1.2 金融大数据对金融业的影响 145
10.1.3 金融大数据应用的实施战略 146
10.2 金融大数据的应用 148
10.2.1 金融大数据的业务应用 148
10.2.2 金融大数据的应用举例 150
10.3 大数据与金融创新 151
10.3.1 金融创新的四个维度 152
10.3.2 金融创新的应用举例 152
10.4 习题与实践 153
参考文献 154
第11章 大数据在制造业中的应用——工业大数据 155
11.1 大数据下的工业革命 155
11.1.1 工业4.0 155
11.1.2 “新工业革命”和“中国制造2025” 157
11.2 工业大数据 158
11.3 大数据与智能工厂 162
11.3.1 智能工厂的概念、特征、架构 162
11.3.2 智能工厂在我国的应用 165
11.4 智能制造大数据分析 167
11.5 案例——酷特智能大数据助推服装个性化定制 169
11.6 习题与实践 171
参考文献 171