第1章 绪论 1
1.1数据与数据科学 2
1.2大数据概念 6
1.3大数据技术特征 13
参考文献 16
习题 17
第2章 大数据计算体系 18
2.1大数据计算架构 18
2.2数据存储系统 19
2.2.1数据清洗与建模 19
2.2.2分布式文件系统 21
2.2.3 NoSQL数据库 23
2.2.4统一数据访问接口 27
2.3数据处理平台 31
2.3.1数据分析算法 31
2.3.2计算处理模型 35
2.3.3计算平台与引擎 38
2.4数据应用系统 39
2.4.1大数据应用领域 39
2.4.2大数据解决方案 41
参考文献 50
习题 52
第3章 大数据标准与模式 53
3.1大数据标准体系 53
3.2大数据计算模式 64
参考文献 68
习题 69
第4章 数据采集方法 70
4.1系统日志采集 70
4.1.1日志采集的目的 71
4.1.2日志采集过程 71
4.2网络数据采集 72
4.2.1网络爬虫工作原理 72
4.2.2网页搜索策略 73
4.2.3网页分析算法 73
4.2.4网络爬虫框架 74
4.3数据采集接口 75
参考文献 76
习题 76
第5章 数据清洗与规约方法 77
5.1数据预处理研究现状 78
5.1.1数据清洗的研究现状 78
5.1.2数据规约的研究现状 78
5.2数据质量问题分类 79
5.2.1单数据源的问题 79
5.2.2多数据源的问题 81
5.3数据清洗技术 82
5.3.1重复记录清洗 82
5.3.2消除噪声数据 83
5.3.3缺失值清洗 83
5.4数据归约 84
5.4.1维归约 85
5.4.2属性选择 85
5.4.3离散化方法 85
5.5数据清洗工具 86
参考文献 86
习题 87
第6章 数据分析算法 88
6.1 C4.5算法 88
6.1.1算法描述 89
6.1.2属性选择度量 89
6.1.3其他特征 91
6.2 k-均值算法 92
6.3支持向量机 92
6.4 Apriori算法 93
6.5 EM算法 94
6.5.1案例:估计k个高斯分布的均值 94
6.5.2 EM算法步骤 95
6.6 PageRank算法 96
6.6.1 PageRank的核心思想 96
6.6.2 PageRank的计算过程 97
6.7 AdaBoost算法 99
6.7.1 Boosting算法的发展历史 99
6.7.2 AdaBoost算法及其分析 99
6.8 k-邻近算法 101
6.9朴素贝叶斯 102
6.9.1朴素贝叶斯分类器 102
6.9.2贝叶斯网络 103
6.10分类回归树算法 104
6.10.1建立回归树 105
6.10.2剪枝过程 105
参考文献 105
习题 106
第7章 文本读写技术 107
7.1读取文本文件 107
7.1.1读取txt文件 108
7.1.2读取csv文件 109
7.2写入文本文件 110
7.3处理二进制数据 111
7.4数据库的使用 112
7.4.1数据库的连接 112
7.4.2执行SQL语句 112
7.4.3选择和打印 113
7.4.4动态插入 113
7.4.5 update操作 114
参考文献 114
习题 114
第8章 数据处理技术 115
8.1合并数据集 115
8.1.1索引上的合并 115
8.1.2轴向连接 119
8.1.3合并重叠数据 122
8.2数据转换 123
8.2.1移除重复数据 123
8.2.2利用函数进行数据转换 125
8.2.3替换值 126
8.2.4重命名轴索引 128
8.2.5离散化数据 129
8.2.6检测异常值 133
8.2.7排列和随机采样 134
8.2.8哑变量 136
8.3字符串操作 138
8.3.1内置字符串方法 138
8.3.2正则表达式 139
8.3.3 Pandas中矢量化的字符串函数 142
参考文献 144
习题 144
第9章 数据分析技术 145
9.1 NumPy工具包 145
9.1.1创建数组 146
9.1.2打印数组 147
9.1.3基本运算 148
9.1.4索引、切片和迭代 149
9.1.5形状操作 150
9.1.6复制和视图 151
9.1.7 NumPy实用技巧 152
9.2 Pandas工具包 153
9.2.1 Series 154
9.2.2 DataFrame 157
9.3 Scikit-Learn工具包 160
9.3.1逻辑回归 160
9.3.2朴素贝叶斯 161
9.3.3 k-最近邻 161
9.3.4决策树 161
9.3.5支持向量机 162
9.3.6优化算法参数 162
参考文献 163
习题 163
第10章 数据可视化技术 164
10.1 Matplotlib绘图 164
10.1.1 Matplotlib API入门 164
10.1.2 Figure和Subplot的画图方法 164
10.1.3调整Subplot周围的间距 167
10.1.4颜色、标记和线型的设置 167
10.1.5刻度、标签和图例 169
10.2 Mayavi2绘图 172
10.2.1使用mlab快速绘图 172
10.2.2 Mayavi嵌入到界面中 174
10.3其他图形化工具 176
参考文献 176
习题 177
第11章 Hadoop生态系统 178
11.1 Hadoop系统架构 178
11.2 HDFS分布式文件系统 188
11.2.1 HDFS体系结构 189
11.2.2 HDFS存储结构 191
11.2.3数据容错与恢复 196
11.2.4 Hadoop/HDFS安装 198
11.3分布式存储架构 208
11.3.1 HBase系统架构 209
11.3.2数据模型与存储模式 214
11.3.3 HBase数据读写 218
11.3.4数据仓库工具Hive 220
11.3.5 HBase安装与配置 224
11.4 HBase索引与检索 229
11.4.1二次索引表机制 229
11.4.2二次索引技术方案 231
11.5资源管理与作业调度 240
11.5.1分布式协同管理组件ZooKeeper 240
11.5.2作业调度与工作流引擎Oozie 246
11.5.3集群资源管理框架YARN 249
参考文献 257
习题 259
第12章 MapReduce计算模型 260
12.1分布式并行计算系统 260
12.2 MapReduce计算架构 266
12.3键值对与输入格式 269
12.4映射与化简 274
12.5应用编程接口 282
参考文献 295
习题 295
第13章 图并行计算框架 296
13.1图基本概念 302
13.2 BSP模型 304
13.3 Pregel图计算引擎 307
13.4 Hama开源框架 316
13.5应用编程接口 331
参考文献 335
习题 336
第14章 交互式计算模式 337
14.1数据模型 337
14.2存储结构 339
14.3并行查询 347
14.4开源实现 349
参考文献 357
习题 357
第15章 流计算系统 358
15.1流计算模型 359
15.2 Storm计算架构 369
15.3工作机制实现 376
15.4 Storm编程接口 382
参考文献 388
习题 388
第16章 内存计算模式 390
16.1分布式缓存体系 391
16.2内存数据库 407
16.3内存云MemCloud 412
16.4 Spark内存计算 419
参考文献 439
习题 440
第17章 基于医疗数据的临床决策分析应用 442
17.1国内外研究现状及发展动态分析 443
17.2技术路线和方案 444
参考文献 451
习题 451
第18章 基于医保数据的预测分析应用 452
18.1数据准备阶段 452
18.2模型变量选择和转换 452
18.2.1模型变量的选择 453
18.2.2模型变量的转换 454
18.2.3筛选模型变量 455
18.3建模过程 456
18.4模型效果 457
参考文献 458
习题 458
第19章 互联网电商数据的分析应用 459
19.1电商流程管理分析 460
19.1.1行业背景与业务问题 460
19.1.2分析方法与过程 460
19.2用户消费行为分析 464
19.2.1业务问题 464
19.2.2分析方法与过程 465
19.3送货速度相关性分析 466
19.3.1业务问题 466
19.3.2分析方法与过程 467
19.4总结 469
参考文献 469
习题 469
第20章 金融和经济数据的分析应用 470
20.1企业对创新经济活动推动的影响分析 470
20.1.1案例背景 471
20.1.2分析方法与过程 471
20.2信贷风险模型评估 477
20.3中小能源型企业的信用评价分析 480
20.3.1案例背景 480
20.3.2分析方法与过程 480
20.3.3分析结果 483
参考文献 484
习题 485