第1章 IT趋势与数字商务 2
1.1 IT大势与未来核心技术的出现 2
1.1.1 始于IBM大型计算机的中央集中式商务处理方式 3
1.1.2 在“减员增效”浪潮中成为业界翘楚:甲骨文、思科和惠普 3
1.1.3 微软开启个人PC时代 4
1.1.4 大数据技术的起点:Hadoop的诞生 5
1.1.5 量产大数据的智能手机触发移动时代 5
1.1.6 将企业IT资源最大化:云计算热潮 6
1.1.7 产生更多大数据的传感器时代即将到来 7
1.1.8 未来核心技术:社交网络、移动技术、大数据、云计算、物联网 7
1.2 始于大数据技术的创新:数字商务 9
1.2.1 同时提供优质产品体验与最低价格才能引发购买行为 11
1.2.2 Beacon:融合物联网、大数据分析、移动通信等技术 12
1.3 陷入危机还是成功创新:跨国IT企业与IT趋势 15
1.3.1 云计算领域 15
1.3.2 移动领域 16
1.3.3 大数据领域 17
1.3.4 物联网领域 17
1.3.5 ERP及内存数据库领域 18
1.3.6 IT领域新霸主:谷歌、亚马逊、赛富时 19
1.3.7 跨国IT企业因何变弱 20
大数据小问答 24
第2章 大数据分析趣味实例 28
2.0 大数据 28
2.1.1 大数据的定义:4V 28
2.1.2 大数据之“大” 29
2.1.3 大数据技术与新商业模式的出现 30
2.1.4 小数据、暗数据、快数据、智能数据 32
2.2 创新源自大数据分析 34
2.3 大数据预测未来:从免费分析工具开始 38
2.3.1 大数据滞后性:准确分析得出结论 38
2.3.2 关键词超前性:完善预测模型以提高准确度 39
2.3.3 门户网站搜索频率分析工具:NaverTrend与谷歌趋势 41
2.3.4 免费社交媒体分析工具:Social Metrics 44
2.4 正式开始分析大数据前:基于场景的关键词分析练习 46
2.4.1 智能手机竞争分析 47
2.4.2 户外运动比较:高尔夫、登山与露营 57
2.4.3 NaverTrend与Social Metrics的应用 59
大数据小问答 62
第3章 分析广泛应用的社交媒体 66
3.1 灵活运用强大的社交媒体 66
3.1.1 社交媒体分析定义 67
3.1.2 社交媒体分析是大数据分析吗 67
3.1.3 以人们熟知的关键词为中心进行分析 68
3.1.4 进行自然语言处理时要注意同音近义词 70
3.1.5 选择人们平时关注的领域 70
3.1.6 选举中体现的社交媒体的力量 74
3.1.7 社交媒体在政府决策过程中展现力量 75
3.1.8 区分社交媒体中的谣言与真相 78
3.2 社交媒体分析3步骤 81
3.2.1 用户需求 81
3.2.2 步骤1:Web信息采集 83
3.2.3 步骤2-1:自然语言处理服务 84
3.2.4 步骤2-2:文本分析 85
3.2.5 步骤2-3:可视化 85
3.2.6 步骤3:最终用户 87
3.3 社交媒体分析应用领域 87
3.3.1 新品研发及上市效果分析 87
3.3.2 广告效果分析 88
3.3.3 企业信誉风险/危机管理 88
3.3.4 VOC 89
3.3.5 社会研究 89
3.3.6 数据新闻 90
大数据小问答 92
第4章 引入大数据项目时的常见问题 96
4.1 对大数据概念的理解不够 96
4.2 分享一下我的个人经验 96
4.3 企业管理层存在的问题 98
4.3.1 忽视自身影响力 98
4.3.2 将大数据项目想得过于简单 99
4.3.3 依靠“直觉”经营 100
4.3.4 不能由IT部门领导大数据TF 101
4.3.5 引入大数据项目需要巨额投资吗 103
4.4 业务负责人存在的问题 104
4.4.1 自身数据分析能力不足 104
4.4.2 将数据分析工作外包而只接收分析结果 104
4.4.3 认为大数据分析与传统数据分析差别很大 105
4.5 IT负责人存在的问题 106
4.5.1 不愿意学习Hadoop 106
4.5.2 认为构建大数据系统后只需维护 107
4.6 准确理解大数据项目 108
4.6.1 大数据项目取决于参与专家的水平 108
4.6.2 大数据专家涉及多个领域 109
4.6.3 大数据项目旨在基于数据进行决策 110
4.6.4 是否引入大数据系统要由实际业务负责人判断 111
大数据小问答 114
第5章 大数据方案选择方法 118
5.1 确定大数据项目主题 118
5.1.1 灵活运用大数据咨询公司 119
5.1.2 确定方法与流程 120
5.2 步骤1:各行业大数据系统应用案例分析 123
5.3 步骤2:基本业务分析 128
5.4 步骤3:访谈 131
5.4.1 步骤3-1:管理层访谈 131
5.4.2 步骤3-2:业务负责人访谈 132
5.4.3 步骤3-3:IT团队访谈 134
5.5 步骤4:内部/外部数据采集与数据挖掘 135
5.5.1 步骤4-1:内部/外部数据采集 135
5.5.2 步骤4-2:初期数据挖掘 136
5.6 步骤5:培训与研讨 137
5.6.1 步骤5-1:管理者、业务团队、IT团队培训 137
5.6.2 步骤5-2:业务研讨会 140
5.7 步骤6:大数据项目备选主题选择与评估 143
5.7.1 步骤6-1:确定大数据项目备选主题 143
5.7.2 步骤6-2:评估 145
5.8 步骤7:Quick Win课题与主题选择、总体规划 148
5.8.1 步骤7-1:Quick Win课题与主题选择 148
5.8.2 步骤7-2:大数据项目总体规划 149
大数据小问答 154
第6章 具有竞争力的大数据分析 158
6.1 保持企业竞争力的大数据分析案例 158
6.1.1 大数据分析与统计分析的区别 158
6.1.2 Netflix的Cinematch system与深度学习 159
6.1.3 亚马逊的推荐系统 162
6.2 实现大数据项目时可用的分析服务 165
6.2.1 沃尔弗拉姆·阿尔法计算知识引擎 165
6.2.2 ID INCU的移动研究 168
6.3 实现大数据项目时可供参考的数据 171
6.3.1 韩国健康保险审查评价院用于研究的申请数据 171
6.3.2 基于SKT地理信息系统的空间大数据服务 175
6.4 实现大数据项目时可用的分析系统 177
大数据小问答 180
第7章 大数据技术与IT技术 184
7.1 大数据系统与传统DW/BI系统的异同 184
7.1.1 大数据技术与传统DW/BI技术的区别 184
7.1.2 大数据技术与传统DW/BI技术的共同点 189
7.2 向传统DW/BI系统引入大数据技术时的一些建议 189
7.2.1 传统DW/BI系统的需求 189
7.2.2 DW/BI第一阶段扩展方案 190
7.2.3 DW/BI第二阶段扩展方案 193
7.2.4 DW/BI第三阶段扩展方案 195
7.2.5 大数据系统引发的IT组织变化 197
7.3 大数据解决方案 198
7.3.1 大数据架构 198
7.3.2 数据处理和查询领域的软件优缺点分析 201
7.3.3 大数据基础设施与服务:国外解决方案 202
7.3.4 大数据基础设施与服务:韩国解决方案 204
7.4 值得推荐的韩国产品 206
7.4.1 Flamingo 206
7.4.2 ApacheTajo 210
大数据小问答 212
第8章 大数据项目构建方法 216
8.1 大数据项目构建方法的重要性 216
8.1.1 利用大数据需要大数据项目构建方法 216
8.1.2 大数据项目需要良好沟通 217
8.1.3 必须将阶段性执行程序融入大数据项目构建方法 217
8.1.4 大数据项目构建方法必须与大数据方案选择方法相对应 218
8.2 大数据项目构建方法定义 219
8.3 大数据项目推进总体规划(模块1) 221
8.4 商业应用及变化管理的实现(模块2) 223
8.4.1 充分理解商业主题(模块2-1) 224
8.4.2 与分析结果相关的商业行动计划(模块2-2) 225
8.4.3 企业应用监控与激活方案(模块2-3) 225
8.4.4 大数据系统应用评估(模块2-4) 226
8.4.5 大数据系统应用组织设计(模块2-5) 231
8.4.6 所需人力与技能组合的定义(模块2-6) 237
8.4.7 所需人力的调配方法(模块2-7) 238
8.4.8 内部人才培养计划(模块2-8) 239
8.5 各主题分析模型设计与分析(模块3) 239
8.5.1 大数据挖掘方法比较 239
8.5.2 大数据间接分析法 241
8.5.3 大数据直接分析法 243
8.5.4 大数据分析工具使用培训(模块3-0) 243
8.5.5 充分理解商业主题(模块3-1) 244
8.5.6 定义所需数据(模块3-2) 245
8.5.7 数据探索(模块3-3) 245
8.5.8 派生数据设计与数据处理需求传达(模块3-4) 246
8.5.9 分析模型设计与测试(模块3-5) 247
8.5.10 数据可视化(模块3-6) 247
8.5.11 分析结果评估(模块3-7) 248
8.5.12 分析模型维护与升级方案(模块3-8) 250
8.6 大数据系统设计与构建(模块4) 251
8.6.1 充分理解商业主题(模块4-1) 251
8.6.2 数据建模(模块4-2) 251
8.6.3 内部/外部数据ETL设计(模块4-3) 252
8.6.4 内部/外部数据提炼设计(模块4-4) 253
8.6.5 内部/外部数据ETL及提炼处理(模块4-5) 254
8.6.6 执行数据处理(模块4-6) 254
8.6.7 用户/访问/安全管理(模块4-7) 255
8.7 大数据系统设计与构建(模块5) 255
8.7.1 SW架构设计(模块5-1) 255
8.7.2 HW/Cloud架构设计(模块5-2) 257
8.7.3 SW/HW/Cloud安装(模块5-3) 258
8.8 大数据治理设计与构建(模块6) 259
8.8.1 数据治理设计与构建(模块6-1) 259
8.8.2 外部数据管理(模块6-2) 260
8.8.3 用户/访问/安全管理(模块6-3) 260
大数据小问答 262
附录 通过行业大会了解大数据技术发展趋势 266
Strata HadooP World 2014 266
美国已经从“为什么是大数据”(Why Big data)阶段进入“如何做大数据”(HowtodoBigdata)阶段 267
Hadoop目前是“明显的胜者”(Clear winner) 267
商业Hadoop比Apache Hadoop更常用 268
Spark极受关注 268
传统RDB中的信息业务正在迁移到Hadoop 269
仍需努力缩短数据科学与Hadoop阵营的距离 269
“大数据+物联网”的必然结合与持续探索最优架构 270
Mike Olson眼中Hadoop的未来 271
针对商业用户提供良好用户体验 272
人们更需要多分享个人见解 273
应用大数据技术时引发的个人信息安全问题 274
大数据也有可能得到错误的收集与分析 274
借助大数据分析人类情感 275
大数据行业现状 276
通过Strata Hadoop World 2014预测大数据市场 277
Teradata PARTNERS Conference 2014(Teradata合作伙伴会议2014) 279
eBay:分析并运营海量数据 281
数据仓库与Hadoop的关系 282
通用汽车公司的全新EDW架构 284
沃尔沃大数据系统应用案例 287
Teradata的统一数据架构 291
对大数据排序以帮助决策 294
SQL On Hadoop领域值得关注的产品 294
个人隐私保护问题 296
后记 298