第一章 大数据简史漫谈之一——数字的来源及数据思维的发展 2
1.1 人类的“数觉”与计数系统 2
1.2 关于二进制的一点讨论 7
1.3 数字的诞生与广泛应用的匹配法 10
1.4 数学的“问世”与“算法”的祖师爷 12
1.5 文字的“出炉”与罗马语言的来历 14
1.6 古代的数据保存之道与文言文的“无奈”精简 17
1.7 古代的“数据中心”——图书馆 20
1.8 古代计算工具的诞生及其演变 22
1.9 统计学诞生——数据思维的渐起 29
1.10 美国式的人口普查——大数据催生新技术 36
1.11 中国式的人口统计与数目字管理 38
1.12 本章小结与思考 42
第二章 大数据简史漫谈之二——近代存储体系发展中的那些人和事 45
2.1 数据复制与传播中的问题及解决方案 45
2.2 影响人类发展进程的几次能源革命 47
2.3 不能遗忘的电气时代的传奇——特斯拉 50
2.4 霍尔瑞斯的穿孔卡 57
2.5 现代通用计算机的奠基者——图灵和冯·诺伊曼 60
2.6 波弗劳姆的磁带发明 64
2.7 华人王安电脑的磁芯存储器 65
2.8 IBM的传奇磁存储世界 68
2.9 网络存储世界的兴起 71
2.10 本章小结与思考 72
第三章 大数据简史漫谈之三——数据库的发展与大数据的兴起 74
3.1 近代“数据中心”之梦殇 74
3.2 “穷”则思变之网状数据库 76
3.3 浓墨重彩之关系数据库 78
3.4 突破数据共享封锁线的领头人 83
3.5 高手对决的数据仓库领域两侠客 85
3.6 向非结构化进发的数据大趋势 87
3.7 大数据术语的历史渊源 95
3.8 现代大数据的诞生 97
3.9 在混沌和秩序转化中螺旋上升 101
3.10 本章小结与思考 102
第四章 大数据的内涵 104
4.1 从数据、信息到知识、智慧的飞跃 104
4.2 大数据的多版本定义 108
4.3 大数据——新时代的生产资料 111
4.4 信息(数据)化、第二经济与数据思维的转变 114
4.5 大数据——来自学术界的青睐 118
4.6 大数据——来自政府层面的重视 119
4.7 大数据——来自工商业的热捧 120
4.8 大数据内涵——“岂止于大” 122
4.8.1 大数据之“大”有不同 123
4.8.2 大数据之唯“快”不破 126
4.8.3 大数据之五彩缤纷 130
4.8.4 大数据之价“值”无限 133
4.8.5 包括但不限于4V 135
4.9 本章小结与思考 137
第五章 大数据时代的一点哲学思考 140
5.1 哲学与科学的关系——为什么计算机专业博士也发个哲学文凭(Ph.D) 140
5.2 大、小数据的“质”不同 143
5.3 大数据的数理哲学基础——同构关系 146
5.4 大数据认识主体的变化——“替人消灾”式的认识能免责吗 149
5.5 波普尔的世界3——秦始皇的长生梦,找错了空间 151
5.6 大数据认识对象的变化——提升普罗大众的权重:“长尾理论” 153
5.7 认识论对大数据研究的指导意义 156
5.7.1 科学始于观察——证实主义 156
5.7.2 证实主义的困顿——来自波普尔的批判 158
5.7.3 科学始于问题——波普尔的贡献 161
5.7.4 科学始于数据——大数据时代的科学转机与思考 162
5.7.5 大数据的悲观思潮 165
5.8 本章小结与思考 166
第六章 大数据研究的第四范式 167
6.1 谷歌公司的“不务正业” 167
6.2 塞吉·布林的“秘密”病情 169
6.3 布林病情的“治疗”方案 171
6.4 詹姆斯·格雷的科学第四范式 173
6.5 科学研究的其他三个范式 175
6.6 本章小结与思考 182
第七章 大数据,大有为 184
7.1 洞察带来价值 184
7.2 案例1:谷歌是如何“越俎代庖”地预测流感的 186
7.2.1 流感治疗网络化 186
7.2.2 “无意间”生产的搜索数据 188
7.2.3 谷歌工程师们的杰作——流感预测趋势(GFT) 188
7.2.4 谷歌的“越俎代庖”为何成功 190
7.2.5 案例小结:数据、模型与理论 191
7.3 案例2:“全数据”是如何为叶诗文抱不平的 194
7.3.1 叶诗文事件的新闻背景 194
7.3.2 什么是性能分析法 195
7.3.3 质疑的合理性在哪里 196
7.3.4 “大数据=全数据”的威力——为叶诗文抱不平 198
7.3.5 案例小结 200
7.4 案例3:大数据是如何对抗癌症的 201
7.4.1 癌症大数据的特征是什么 201
7.4.2 癌症从哪里来 202
7.4.3 大数据用之于癌症斗争,挑战何在 205
7.4.4 癌症诊疗的基础大数据——获取难 205
7.4.5 数据化带来的颠覆式医疗——执行难 205
7.4.6 哪些机构在用大数据对抗癌症 206
7.4.7 癌症大数据的重要源头——基因组数据 208
7.4.8 大数据对抗癌症,前景如何 210
7.4.9 案例小结 210
7.5 更多大数据应用案例 211
7.6 本章小结与思考 215
第八章 大数据之坑与小数据之美 219
8.1 引子——哪个V才是大数据最重要的特征 219
8.1.1 “大”有不同——Volume(大量) 219
8.1.2 数据共征——Velocity(快速)与Value(价值) 220
8.1.3 五彩缤“纷”——Variety(多样) 221
8.2 大数据的力量与陷阱 223
8.2.1 大数据的力量 223
8.2.2 大数据的陷阱 224
8.2.3 今日王谢堂前燕,暂未飞入百姓家——大数据还没那么普及 229
8.2.4 你若安好,便是晴天——小数据之美 232
8.3 本章小结与思考 235
第九章 12个小故事,思考大数据 238
9.1 故事1:大数据都是骗人的啊——大数据预测得准吗 238
9.2 故事2:颠簸的街道——对不起,“n=all”只是一个幻觉 240
9.3 故事3:醉汉路灯下找钥匙——大数据的研究方法可笑吗 241
9.4 故事4:园中有金不在金——大数据的价值 242
9.5 故事5:盖洛普抽样的成功——大小之争,“大”数据一定胜过 243
小抽样吗 243
9.6 故事6:点球成金——数据流PK球探,谁更重要 245
9.7 故事7:啤酒和尿布——经典故事是伪造的,你知道吗 246
9.8 故事8:谷歌流感预测——预测是如何失效的 248
9.9 故事9:Target超市预测女孩怀孕——“大数据”智慧,还是愚蠢 250
9.10 故事10:你的一夜情我知道——大数据的隐私之痛 252
9.11 故事11:大数据,无须惧——比萨店员更能知道顾客所有的信息吗 254
9.12 故事12:扑朔离迷的“因果关系”——苏格拉底的“诡辩术” 259
9.13 本章小结与思考 262
第十章 大数据技术漫谈——需要读懂的103篇大数据文献 263
10.1 大数据价值的实现 263
10.2 大数据分析的关键架构层 264
10.3 架构的演进 267
10.4 几个重要的概念 273
10.5 文件系统层 288
10.6 数据存储层 297
10.7 资源管理器层 304
10.8 调度器 305
10.9 协调器 306
10.10 计算框架 308
10.11 数据分析层 321
10.12 数据集成层 323
10.13 操作框架层 326
10.14 本章小结与思考 327
第十一章 牛刀小试之Hadoop实战 329
11.1 什么是Hadoop 329
11.2 Hadoop发展历程 329
11.3 Hadoop集群服务器的安装与配置 332
11.3.1 安装CentOS 7 333
11.3.2 配置Java环境 336
11.3.3 启动和配置SSH服务 344
11.3.4 安装Hadoop 351
11.3.5 启动Hadoop 360
11.4 运行Hello World版Hadoop程序——WordCount 362
11.5 全分布模式下的Hadoop集群构建 366
11.5.1 Linux以运行等级3启动 366
11.5.2 在Windows和Mac OS环境下克隆虚拟机 369
11.5.3 设置静态IP地址 372
11.5.4 修改hosts文件 377
11.5.5 虚拟机的同步配置 379
11.5.6 SSH的免密码登录 380
11.5.7 全分布模式下安装Hadoop 382
11.5.8 同步配置文件 387
11.5.9 创建所需目录 389
11.5.10 关闭防火墙 390
11.5.11 格式化文件系统 390
11.5.12 启动Hadoop守护进程 391
11.5.13 验证全分布模式 393
11.5.14 默认配置文件所在位置 395
11.5.15 关闭Hadoop 396
11.5.16 Hadoop的运行错误查找 396
11.6 WordCount代码详解 397
11.6.1 MapReduce编程模型 397
11.6.2 WordCount的MapReduce处理流程 398
11.6.3 WordCount源码解读 399
11.7 本章小结与思考 405
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020