大数据分析PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:程学旗主编
- 出 版 社:北京:高等教育出版社
- 出版年份:2019
- ISBN:7040516326
- 页数:337 页
第1章 基本概念与基本知识 1
1.1大数据与大数据分析 1
1.2重要的问题和概念 4
1.3大数据分析算法、系统和应用 5
1.4大数据分析科学家和工程师 7
1.5本书的结构 8
第2章 大数据统计分析方法 11
2.1相关性分析 11
2.1.1相关性理论的产生 11
2.1.2相关关系 12
2.1.3传统的统计相关性分析方法 13
2.1.4大数据中的统计相关性分析 16
2.2因果推断 20
2.2.1因果推断简介 20
2.2.2相关关系与因果关系 20
2.2.3无模型因果推断 21
2.2.4基于模型的因果推断 22
2.2.5大数据中的因果推断 24
2.2.6Yule-Simpson悖论 25
2.3采样分析 26
2.3.1采样与随机模拟 27
2.3.2蒙特卡罗方法 28
2.3.3马尔可夫链蒙特卡罗方法 31
2.3.4并行采样方法 34
2.4小结及进一步阅读 35
习题 37
第3章 大数据机器学习方法 39
3.1描述性分析 39
3.1.1聚类分析 39
3.1.2矩阵分解 46
3.2预测性分析 55
3.2.1分类分析方法 55
3.2.2排序学习 64
3.3深度学习分析方法 72
3.4强化学习分析方法 79
3.4.1代表性方法 82
3.4.2大数据分析中的强化学习 85
3.5小结及进一步阅读 88
习题 89
第4章 机器学习理论 91
4.1机器学习基础 91
4.1.1基本概念 92
4.1.2损失函数与风险函数 93
4.1.3经验风险最小化与结构风险最小化 95
4.2过拟合、模型选择以及正则化 96
4.2.1 训练误差与测试误差 96
4.2.2过拟合与模型选择 96
4.2.3正则化与交叉验证 98
4.3偏差方差分解 102
4.4 PAC学习理论 106
4.4.1一个简单的例子 106
4.4.2 PAC学习理论基本概念 107
4.4.3有限假设空间下的推导 109
4.4.4 VC维 111
4.4.5 Rademacher复杂度 113
4.5非独立同分布学习 115
4.5.1非独立情形 115
4.5.2非同分布情形 116
4.6小结及进一步阅读 118
习题 118
第5章 大数据算法理论 119
5.1组合优化算法 119
5.1.1近似算法 119
5.1.2次模优化 121
5.2在线算法 127
5.2.1秘书问题 127
5.2.2在线调度 129
5.2.3在线二部图匹配 132
5.2.4在线学习中的多臂老虎机问题 137
5.3流式算法 141
5.3.1流模型和流算法简介 141
5.3.2图上的流模型 142
5.3.3统计类问题的流模型 144
5.3.4聚类问题的流模型 148
5.4参数算法 150
5.4.1参数算法设计基本技巧 152
5.4.2参数算法下界 156
5.5小结及进一步阅读 157
习题 158
第6章 文本大数据分析 159
6.1文本表达 159
6.1.1单词的表示 159
6.1.2句子的表示 172
6.2文本匹配 181
6.2.1文本匹配任务 182
6.2.2基于规则的文本匹配 184
6.2.3基于学习的文本匹配 187
6.3文本生成 192
6.3.1文本生成简介 192
6.3.2人机对话生成 196
6.3.3图片标题生成 201
6.3.4文本生成的评价 203
6.4小结及进一步阅读 205
习题 207
第7章 知识计算 209
7.1知识图谱简介 209
7.2知识抽取 210
7.2.1实体抽取 210
7.2.2关系抽取 215
7.2.3属性抽取 223
7.2.4实体关系联合抽取 228
7.3知识融合 232
7.3.1实体对齐 232
7.3.2实体链接 235
7.3.3知识更新 238
7.4知识推理 239
7.4.1基于逻辑的推理模型 239
7.4.2基于图的推理模型 241
7.4.3基于表示学习的推理模型 245
7.5小结及进一步阅读 251
习题 254
第8章 网络数据挖掘 255
8.1网络排序 255
8.1.1节点中心度 255
8.1.2边中心度 260
8.2网络聚类 264
8.2.1网络划分 264
8.2.2社区发现 268
8.3网络表示学习 272
8.3.1 Laplacian eigenmaps 273
8.3.2 DeepWalk 275
8.3.3 LINE 276
8.3.4 SDNE 277
8.4小结及进一步阅读 279
习题 280
第9章 社会媒体分析 281
9.1网络影响力最大化 281
9.2基于位置的社交网络 285
9.3大图的异常检测 288
9.3.1基于密度子图的检测方法 290
9.3.2基于谱图子空间的检测方法 292
9.3.3信念传播 294
9.3.4视觉引导的自动检测 295
9.3.5基于信号处理的检测方法 296
9.4社会媒体分析新应用 297
9.4.1社会媒体中的广告投放 297
9.4.2移动互联网环境的推荐系统 300
9.4.3社交网络中的风险控制 303
9.5小结及进一步阅读 308
习题 308
第10章 大数据分析系统架构 311
10.1数据与计算的演变历程 311
10.1.1数据规模的演变 311
10.1.2计算范式的演变 313
10.2大数据分布式计算模型 317
10.2.1大数据分析算法的挑战 317
10.2.2数据与参数分发策略 319
10.2.3数据更新策略 321
10.3大数据计算系统 323
10.3.1 MapReduce系统 324
10.3.2 Spark系统 326
10.3.3参数服务器Parameter Server 330
10.3.4 TensorFlow系统 334
10.4小结及进一步阅读 337
习题 337
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《全国高等中医药行业“十三五”创新教材 中医药学概论》翟华强 2019
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《习近平总书记教育重要论述讲义》本书编写组 2020
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《高等数学试题与详解》西安电子科技大学高等数学教学团队 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《教育学考研应试宝典》徐影主编 2019
- 《语文教育教学实践探索》陈德收 2018
- 《家庭音乐素养教育》刘畅 2018