《大数据分析》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:程学旗主编
  • 出 版 社:北京:高等教育出版社
  • 出版年份:2019
  • ISBN:7040516326
  • 页数:337 页
图书介绍:

第1章 基本概念与基本知识 1

1.1大数据与大数据分析 1

1.2重要的问题和概念 4

1.3大数据分析算法、系统和应用 5

1.4大数据分析科学家和工程师 7

1.5本书的结构 8

第2章 大数据统计分析方法 11

2.1相关性分析 11

2.1.1相关性理论的产生 11

2.1.2相关关系 12

2.1.3传统的统计相关性分析方法 13

2.1.4大数据中的统计相关性分析 16

2.2因果推断 20

2.2.1因果推断简介 20

2.2.2相关关系与因果关系 20

2.2.3无模型因果推断 21

2.2.4基于模型的因果推断 22

2.2.5大数据中的因果推断 24

2.2.6Yule-Simpson悖论 25

2.3采样分析 26

2.3.1采样与随机模拟 27

2.3.2蒙特卡罗方法 28

2.3.3马尔可夫链蒙特卡罗方法 31

2.3.4并行采样方法 34

2.4小结及进一步阅读 35

习题 37

第3章 大数据机器学习方法 39

3.1描述性分析 39

3.1.1聚类分析 39

3.1.2矩阵分解 46

3.2预测性分析 55

3.2.1分类分析方法 55

3.2.2排序学习 64

3.3深度学习分析方法 72

3.4强化学习分析方法 79

3.4.1代表性方法 82

3.4.2大数据分析中的强化学习 85

3.5小结及进一步阅读 88

习题 89

第4章 机器学习理论 91

4.1机器学习基础 91

4.1.1基本概念 92

4.1.2损失函数与风险函数 93

4.1.3经验风险最小化与结构风险最小化 95

4.2过拟合、模型选择以及正则化 96

4.2.1 训练误差与测试误差 96

4.2.2过拟合与模型选择 96

4.2.3正则化与交叉验证 98

4.3偏差方差分解 102

4.4 PAC学习理论 106

4.4.1一个简单的例子 106

4.4.2 PAC学习理论基本概念 107

4.4.3有限假设空间下的推导 109

4.4.4 VC维 111

4.4.5 Rademacher复杂度 113

4.5非独立同分布学习 115

4.5.1非独立情形 115

4.5.2非同分布情形 116

4.6小结及进一步阅读 118

习题 118

第5章 大数据算法理论 119

5.1组合优化算法 119

5.1.1近似算法 119

5.1.2次模优化 121

5.2在线算法 127

5.2.1秘书问题 127

5.2.2在线调度 129

5.2.3在线二部图匹配 132

5.2.4在线学习中的多臂老虎机问题 137

5.3流式算法 141

5.3.1流模型和流算法简介 141

5.3.2图上的流模型 142

5.3.3统计类问题的流模型 144

5.3.4聚类问题的流模型 148

5.4参数算法 150

5.4.1参数算法设计基本技巧 152

5.4.2参数算法下界 156

5.5小结及进一步阅读 157

习题 158

第6章 文本大数据分析 159

6.1文本表达 159

6.1.1单词的表示 159

6.1.2句子的表示 172

6.2文本匹配 181

6.2.1文本匹配任务 182

6.2.2基于规则的文本匹配 184

6.2.3基于学习的文本匹配 187

6.3文本生成 192

6.3.1文本生成简介 192

6.3.2人机对话生成 196

6.3.3图片标题生成 201

6.3.4文本生成的评价 203

6.4小结及进一步阅读 205

习题 207

第7章 知识计算 209

7.1知识图谱简介 209

7.2知识抽取 210

7.2.1实体抽取 210

7.2.2关系抽取 215

7.2.3属性抽取 223

7.2.4实体关系联合抽取 228

7.3知识融合 232

7.3.1实体对齐 232

7.3.2实体链接 235

7.3.3知识更新 238

7.4知识推理 239

7.4.1基于逻辑的推理模型 239

7.4.2基于图的推理模型 241

7.4.3基于表示学习的推理模型 245

7.5小结及进一步阅读 251

习题 254

第8章 网络数据挖掘 255

8.1网络排序 255

8.1.1节点中心度 255

8.1.2边中心度 260

8.2网络聚类 264

8.2.1网络划分 264

8.2.2社区发现 268

8.3网络表示学习 272

8.3.1 Laplacian eigenmaps 273

8.3.2 DeepWalk 275

8.3.3 LINE 276

8.3.4 SDNE 277

8.4小结及进一步阅读 279

习题 280

第9章 社会媒体分析 281

9.1网络影响力最大化 281

9.2基于位置的社交网络 285

9.3大图的异常检测 288

9.3.1基于密度子图的检测方法 290

9.3.2基于谱图子空间的检测方法 292

9.3.3信念传播 294

9.3.4视觉引导的自动检测 295

9.3.5基于信号处理的检测方法 296

9.4社会媒体分析新应用 297

9.4.1社会媒体中的广告投放 297

9.4.2移动互联网环境的推荐系统 300

9.4.3社交网络中的风险控制 303

9.5小结及进一步阅读 308

习题 308

第10章 大数据分析系统架构 311

10.1数据与计算的演变历程 311

10.1.1数据规模的演变 311

10.1.2计算范式的演变 313

10.2大数据分布式计算模型 317

10.2.1大数据分析算法的挑战 317

10.2.2数据与参数分发策略 319

10.2.3数据更新策略 321

10.3大数据计算系统 323

10.3.1 MapReduce系统 324

10.3.2 Spark系统 326

10.3.3参数服务器Parameter Server 330

10.3.4 TensorFlow系统 334

10.4小结及进一步阅读 337

习题 337