第一部分 大数据基础 3
第1章 大数据技术基本概念 3
1.1 数据 3
1.1.1 数据的单位 4
1.1.2 数据与信息的关系 4
1.1.3 数据的分类 4
1.2 信息 6
1.2.1 信息的定义 6
1.2.2 信息资源 7
1.2.3 信息的应用意义 8
1.3 大数据 9
1.3.1 大数据发展历史 9
1.3.2 大数据的定义和特点 10
1.4 大数据技术的基本概念 15
1.4.1 传统数据处理 15
1.4.2 大数据分析的方法理论 16
1.4.3 大数据技术 17
1.5 大数据的社会价值 21
1.5.1 大数据的社会价值体现 21
1.5.2 大数据在政府管理方面的应用 22
1.5.3 大数据在公共服务领域的应用 23
1.6 大数据的商业应用 24
1.6.1 商业大数据的类型和价值挖掘方法 24
1.6.2 全球大数据市场结构 26
1.6.3 中国大数据市场 26
1.6.4 大数据给中国带来的十大商业应用场景 27
1.7 大数据与商业模式创新 32
1.7.1 商业模式的创新特点 32
1.7.2 商业模式创新可以为企业带来什么 32
1.7.3 基于大数据分析的商业模式创新 33
1.8 如何成为“大数据企业” 35
1.8.1 驾驭企业外部大数据 35
1.8.2 成为“大数据企业” 36
1.8.3 如何挖掘企业大数据的价值 37
1.8.4 大数据实质上是一种管理思维 38
1.9 大数据应用案例之:男女嘉宾《非诚勿扰》牵手数据分析 39
习题与思考题 42
第二部分 大数据技术 47
第2章 基础架构——云计算平台 47
2.1 大数据处理的基础架构 47
2.2 云计算网络 47
2.2.1 云计算简介 48
2.2.2 云计算系统的体系结构 50
2.2.3 云计算服务层次 55
2.2.4 云计算技术层次 57
2.2.5 云计算的核心技术 58
2.2.6 典型云计算平台 59
2.2.7 典型的云计算系统及应用 64
2.2.8 大数据平台的应用 67
2.3 大数据应用案例之:在“北上广”打拼是怎样一种体验 69
习题与思考题 72
第3章 大数据采集与预处理 74
3.1 大数据采集概念 74
3.2 数据采集来源 75
3.3 大数据采集方法 76
3.3.1 大数据数据采集方面新方法 76
3.3.2 网页数据采集方法 76
3.3.3 Web信息数据自动采集 79
3.4 导入/预处理 82
3.4.1 大数据导入/预处理的过程 82
3.4.2 数据清洗 84
3.4.3 数据采集(ETL)技术 86
3.4.4 基于大数据的数据预处理 88
3.4.5 数据处理的基本流程与关键技术 90
3.5 数据集成 91
3.5.1 数据集成的概念 91
3.5.2 数据集成面临问题 92
3.6 数据变换 92
3.6.1 异构数据交换综述 93
3.6.2 异构数据分析 94
3.6.3 异构数据交换方式 97
3.6.4 异构数据交换技术 99
3.6.5 异构数据交换与集成的研究方向 103
3.7 大数据应用案例之:互联网行业哪个职位比较有前途 103
习题与思考题 107
第4章 大数据存储 110
4.1 传统数据存储 110
4.1.1 传统数据存储介质 110
4.1.2 存储的模式 112
4.2 海量数据存储的需求 113
4.3 分布式存储系统 117
4.3.1 分布式存储系统 117
4.3.2 典型系统 118
4.4 云存储 120
4.5 数据库 123
4.5.1 数据库分类 123
4.5.2 常规SQL结构化关系数据库 124
4.5.3 NoSQL非结构化数据库 124
4.5.4 NoSQL技术 126
4.5.5 大规模并行分析数据库 129
4.6 数据仓库 131
4.6.1 数据仓库的概念 131
4.6.2 数据仓库技术发展 133
4.6.3 数据仓库原理及构成 133
4.6.4 数据仓库的基本架构 136
4.6.5 数据仓库的数据存储 136
4.6.6 数据仓库的数据应用 137
4.6.7 元数据管理 138
4.7 大数据应用案例之:一场雾霾将损失多少GDP 138
习题与思考题 141
第5章 大数据计算模式与处理系统 143
5.1 数据计算 143
5.1.1 离线批处理 143
5.1.2 实时交互计算 145
5.1.3 海量数据实时计算 145
5.1.4 流计算 146
5.2 聚类算法 147
5.2.1 聚类算法的分类 147
5.2.2 数据分类与聚类 147
5.3 数据集成 148
5.3.1 数据集成概述 149
5.3.2 数据集成方案 155
5.3.3 企业数据集成应用形式 157
5.3.4 企业整体解决方案 160
5.4 机器学习 161
5.4.1 机器学习的定义和例子 162
5.4.2 机器学习的范围 164
5.4.3 机器学习的方法 165
5.4.4 机器学习的应用——大数据 170
5.4.5 机器学习的子类——深度学习 172
5.4.6 机器学习的父类——人工智能 174
5.5 数据处理语言 175
5.5.1 数据分析语言R 175
5.5.2 大数据开发语言Python 177
5.6 大数据应用案例之:北京的人流在哪儿?用大数据看城市 179
习题与思考题 183
第6章 大数据查询、显现与交互 185
6.1 数据的查询 185
6.1.1 常规数据库查询结构化数据 185
6.1.2 大数据时代的数据搜索 186
6.1.3 数据库与信息检索技术的比较 188
6.1.4 数据库技术面临的Web数据管理问题 189
6.2 网络数据索引与查询技术 192
6.2.1 搜索引擎技术概述 192
6.2.2 Web搜索引擎工作原理 192
6.3 大数据索引与查询技术 200
6.3.1 大数据索引和查询 200
6.3.2 大数据处理案例:登机牌、阅卷与MapReduce 201
6.4 相似性搜索工具 206
6.5 数据展现与交互 209
6.6 数据可视化 210
6.6.1 数据可视化概念 210
6.6.2 数据可视化定义与方法 211
6.6.3 数据可视化分析 216
6.6.4 个性化精准推荐 217
6.6.5 预测和预警 217
6.6.6 决策分析 219
6.7 知识图谱 220
6.7.1 知识图谱的概念 221
6.7.2 知识图谱的表示 221
6.7.3 知识图谱的存储 222
6.7.4 知识图谱的应用 223
6.8 大数据应用案例之:数据告诉你,上海的房子都被谁买走了 229
习题与思考题 233
第7章 大数据分析与数据挖掘 235
7.1 大数据的分析及应用 235
7.1.1 数据处理和分析的发展 235
7.1.2 大数据分析面对的数据类型 236
7.1.3 大数据分析与处理方法 237
7.1.4 数据分析的步骤 237
7.1.5 大数据分析应用 240
7.2 数据挖掘技术 242
7.2.1 数据挖掘的定义 242
7.2.2 数据挖掘的常用方法 244
7.2.3 数据挖掘的功能 245
7.2.4 数据挖掘技术 246
7.2.5 数据挖掘的流程 248
7.2.6 数据挖掘的应用 250
7.2.7 “大数据自动挖掘”才是大数据的真正意义 251
7.3 商业智能与数据分析 252
7.3.1 商业智能技术辅助决策的发展 252
7.3.2 商业智能系统架构 253
7.3.3 商业智能的技术体系 253
7.3.4 商务智能=数据+分析+决策+利益 254
7.4 电商大数据分析技术 257
7.4.1 移动互联网应用数据分析基础 257
7.4.2 用户规模和质量 258
7.4.3 参与度分析 259
7.4.4 渠道分析 260
7.4.5 功能分析 261
7.4.6 用户属性分析 262
7.5 大数据营销业务模型 263
7.5.1 大数据对业务模式的影响 263
7.5.2 大数据时代的网络化精确营销 264
7.5.3 移动互联和大数据时代的电子商务 265
7.5.4 大数据营销的定义与特点 266
7.5.5 网络营销大数据实际操作 268
7.5.6 数据营销方法论 270
7.6 基于社会媒体的分析预测技术 273
7.6.1 基于空间大数据的社会感知 273
7.6.2 基于社会媒体的预测技术 278
7.6.3 基于消费意图挖掘的预测 279
7.6.4 基于事件抽取的预测 282
7.6.5 基于因果分析的预测 282
7.7 大数据应用案例之:如何用大数据看风水?以星巴克和海底捞的选址为例 286
习题与思考题 287
第8章 大数据隐私与安全 290
8.1 大数据面临的问题 290
8.1.1 大数据面临的安全问题 290
8.1.2 使用大数据分析安全与隐私的问题 295
8.2 大数据安全与隐私保护关键技术 296
8.2.1 基于大数据的威胁发现技术 296
8.2.2 基于大数据的认证技术 297
8.2.3 基于大数据的数据真实性分析 298
8.2.4 大数据与“安全即服务” 298
8.3 大数据安全的防护策略 298
8.4 大数据应用案例之:电影《爸爸去哪儿》大卖有前兆么? 300
习题与思考题 305
第三部分 大数据分析案例 309
第9章 行业案例研究——银行、保险、证券、金融行业 309
9.1 银行业应用 309
9.1.1 大数据时代:银行如何玩转数据挖掘 309
9.1.2 工商银行客户关系管理案例 311
9.1.3 银行风险管理 314
9.2 保险业应用 318
9.2.1 保险产业拥抱“大数据时代”或带来颠覆性变革 318
9.2.2 保险欺诈识别 320
9.3 证券期货应用 322
9.3.1 安徽使用大数据监管证券期货 322
9.3.2 “大数据”分析挖出基金“老鼠仓”的启示 323
9.4 金融行业应用 324
9.4.1 汽车金融公司怎么实现大数据管理 324
9.4.2 大数据决定互联网金融未来 326
9.4.3 移动大数据在互联网金融反欺诈领域的应用 329
9.5 大数据应用案例之:大吃一惊!大数据下的中国原来是这样的 331
第四部分 大数据技术现状及发展展望 339
第10章 大数据技术发展前景 339
10.1 大数据引发新一代信息技术变革浪潮 339
10.2 大数据采集与预处理技术发展前景 341
10.3 大数据存储与管理技术发展前景 342
10.4 大数据计算模式与系统技术发展前景 347
10.5 大数据分析与挖掘技术发展前景 351
10.6 大数据可视化分析技术发展前景 353
10.7 大数据隐私与安全技术发展前景 357
10.8 大数据应用案例之:数据解读城市:北京本地人VS外地人 360
参考文献 366