《大数据分析与计算》PDF下载

  • 购买积分:15 如何计算积分?
  • 作  者:汤羽,林迪,范爱华,吴薇薇编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2018
  • ISBN:9787302485865
  • 页数:486 页
图书介绍:本教材主要包含如下主题内容:大数据计算的产业背景,数据采集方法,数据模型,数据抽取与清洗,数据分析算法,数据分析工具,数据可视化,大数据计算标准,系统架构,海量数据存储系统,列存储结构,MapReduce计算模型,交互式大数据处理技术,基于BSP模型的图并行计算框架,大数据计算平台(Hadoop, Spark, GreemPlum等),社交数据处理及应用,电子商务应用,移动数据挖掘等。

第1章 绪论 1

1.1数据与数据科学 2

1.2大数据概念 6

1.3大数据技术特征 13

参考文献 16

习题 17

第2章 大数据计算体系 18

2.1大数据计算架构 18

2.2数据存储系统 19

2.2.1数据清洗与建模 19

2.2.2分布式文件系统 21

2.2.3 NoSQL数据库 23

2.2.4统一数据访问接口 27

2.3数据处理平台 31

2.3.1数据分析算法 31

2.3.2计算处理模型 35

2.3.3计算平台与引擎 38

2.4数据应用系统 39

2.4.1大数据应用领域 39

2.4.2大数据解决方案 41

参考文献 50

习题 52

第3章 大数据标准与模式 53

3.1大数据标准体系 53

3.2大数据计算模式 64

参考文献 68

习题 69

第4章 数据采集方法 70

4.1系统日志采集 70

4.1.1日志采集的目的 71

4.1.2日志采集过程 71

4.2网络数据采集 72

4.2.1网络爬虫工作原理 72

4.2.2网页搜索策略 73

4.2.3网页分析算法 73

4.2.4网络爬虫框架 74

4.3数据采集接口 75

参考文献 76

习题 76

第5章 数据清洗与规约方法 77

5.1数据预处理研究现状 78

5.1.1数据清洗的研究现状 78

5.1.2数据规约的研究现状 78

5.2数据质量问题分类 79

5.2.1单数据源的问题 79

5.2.2多数据源的问题 81

5.3数据清洗技术 82

5.3.1重复记录清洗 82

5.3.2消除噪声数据 83

5.3.3缺失值清洗 83

5.4数据归约 84

5.4.1维归约 85

5.4.2属性选择 85

5.4.3离散化方法 85

5.5数据清洗工具 86

参考文献 86

习题 87

第6章 数据分析算法 88

6.1 C4.5算法 88

6.1.1算法描述 89

6.1.2属性选择度量 89

6.1.3其他特征 91

6.2 k-均值算法 92

6.3支持向量机 92

6.4 Apriori算法 93

6.5 EM算法 94

6.5.1案例:估计k个高斯分布的均值 94

6.5.2 EM算法步骤 95

6.6 PageRank算法 96

6.6.1 PageRank的核心思想 96

6.6.2 PageRank的计算过程 97

6.7 AdaBoost算法 99

6.7.1 Boosting算法的发展历史 99

6.7.2 AdaBoost算法及其分析 99

6.8 k-邻近算法 101

6.9朴素贝叶斯 102

6.9.1朴素贝叶斯分类器 102

6.9.2贝叶斯网络 103

6.10分类回归树算法 104

6.10.1建立回归树 105

6.10.2剪枝过程 105

参考文献 105

习题 106

第7章 文本读写技术 107

7.1读取文本文件 107

7.1.1读取txt文件 108

7.1.2读取csv文件 109

7.2写入文本文件 110

7.3处理二进制数据 111

7.4数据库的使用 112

7.4.1数据库的连接 112

7.4.2执行SQL语句 112

7.4.3选择和打印 113

7.4.4动态插入 113

7.4.5 update操作 114

参考文献 114

习题 114

第8章 数据处理技术 115

8.1合并数据集 115

8.1.1索引上的合并 115

8.1.2轴向连接 119

8.1.3合并重叠数据 122

8.2数据转换 123

8.2.1移除重复数据 123

8.2.2利用函数进行数据转换 125

8.2.3替换值 126

8.2.4重命名轴索引 128

8.2.5离散化数据 129

8.2.6检测异常值 133

8.2.7排列和随机采样 134

8.2.8哑变量 136

8.3字符串操作 138

8.3.1内置字符串方法 138

8.3.2正则表达式 139

8.3.3 Pandas中矢量化的字符串函数 142

参考文献 144

习题 144

第9章 数据分析技术 145

9.1 NumPy工具包 145

9.1.1创建数组 146

9.1.2打印数组 147

9.1.3基本运算 148

9.1.4索引、切片和迭代 149

9.1.5形状操作 150

9.1.6复制和视图 151

9.1.7 NumPy实用技巧 152

9.2 Pandas工具包 153

9.2.1 Series 154

9.2.2 DataFrame 157

9.3 Scikit-Learn工具包 160

9.3.1逻辑回归 160

9.3.2朴素贝叶斯 161

9.3.3 k-最近邻 161

9.3.4决策树 161

9.3.5支持向量机 162

9.3.6优化算法参数 162

参考文献 163

习题 163

第10章 数据可视化技术 164

10.1 Matplotlib绘图 164

10.1.1 Matplotlib API入门 164

10.1.2 Figure和Subplot的画图方法 164

10.1.3调整Subplot周围的间距 167

10.1.4颜色、标记和线型的设置 167

10.1.5刻度、标签和图例 169

10.2 Mayavi2绘图 172

10.2.1使用mlab快速绘图 172

10.2.2 Mayavi嵌入到界面中 174

10.3其他图形化工具 176

参考文献 176

习题 177

第11章 Hadoop生态系统 178

11.1 Hadoop系统架构 178

11.2 HDFS分布式文件系统 188

11.2.1 HDFS体系结构 189

11.2.2 HDFS存储结构 191

11.2.3数据容错与恢复 196

11.2.4 Hadoop/HDFS安装 198

11.3分布式存储架构 208

11.3.1 HBase系统架构 209

11.3.2数据模型与存储模式 214

11.3.3 HBase数据读写 218

11.3.4数据仓库工具Hive 220

11.3.5 HBase安装与配置 224

11.4 HBase索引与检索 229

11.4.1二次索引表机制 229

11.4.2二次索引技术方案 231

11.5资源管理与作业调度 240

11.5.1分布式协同管理组件ZooKeeper 240

11.5.2作业调度与工作流引擎Oozie 246

11.5.3集群资源管理框架YARN 249

参考文献 257

习题 259

第12章 MapReduce计算模型 260

12.1分布式并行计算系统 260

12.2 MapReduce计算架构 266

12.3键值对与输入格式 269

12.4映射与化简 274

12.5应用编程接口 282

参考文献 295

习题 295

第13章 图并行计算框架 296

13.1图基本概念 302

13.2 BSP模型 304

13.3 Pregel图计算引擎 307

13.4 Hama开源框架 316

13.5应用编程接口 331

参考文献 335

习题 336

第14章 交互式计算模式 337

14.1数据模型 337

14.2存储结构 339

14.3并行查询 347

14.4开源实现 349

参考文献 357

习题 357

第15章 流计算系统 358

15.1流计算模型 359

15.2 Storm计算架构 369

15.3工作机制实现 376

15.4 Storm编程接口 382

参考文献 388

习题 388

第16章 内存计算模式 390

16.1分布式缓存体系 391

16.2内存数据库 407

16.3内存云MemCloud 412

16.4 Spark内存计算 419

参考文献 439

习题 440

第17章 基于医疗数据的临床决策分析应用 442

17.1国内外研究现状及发展动态分析 443

17.2技术路线和方案 444

参考文献 451

习题 451

第18章 基于医保数据的预测分析应用 452

18.1数据准备阶段 452

18.2模型变量选择和转换 452

18.2.1模型变量的选择 453

18.2.2模型变量的转换 454

18.2.3筛选模型变量 455

18.3建模过程 456

18.4模型效果 457

参考文献 458

习题 458

第19章 互联网电商数据的分析应用 459

19.1电商流程管理分析 460

19.1.1行业背景与业务问题 460

19.1.2分析方法与过程 460

19.2用户消费行为分析 464

19.2.1业务问题 464

19.2.2分析方法与过程 465

19.3送货速度相关性分析 466

19.3.1业务问题 466

19.3.2分析方法与过程 467

19.4总结 469

参考文献 469

习题 469

第20章 金融和经济数据的分析应用 470

20.1企业对创新经济活动推动的影响分析 470

20.1.1案例背景 471

20.1.2分析方法与过程 471

20.2信贷风险模型评估 477

20.3中小能源型企业的信用评价分析 480

20.3.1案例背景 480

20.3.2分析方法与过程 480

20.3.3分析结果 483

参考文献 484

习题 485