《大数据分析师权威教程 机器学习、大数据分析和可视化》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:Wrox国际IT认证项目组编
  • 出 版 社:北京:人民邮电出版社
  • 出版年份:2017
  • ISBN:9787115456892
  • 页数:320 页
图书介绍:本系列图书以“大数据分析师”应掌握的IT技术为主线,共两卷7个模块。本书为第2卷,首先介绍机器学习的类型和方法,R上的图模型和贝叶斯网络、人工神经网络、使用PCA和因子分析降维法以及支持向量机,并讲解如何用R语言实现各种网络,然后介绍大数据解决方案工程、社交媒体分析和文本分析、移动分析和大数据可视化,最后通过几个实际案例讲解大数据分析在各行业中的应用。

模块1 机器学习的概念 3

第1讲 理解机器学习技术 3

1.1 什么是机器学习 4

1.1.1 数据挖掘与机器学习之间的差异 5

1.1.2 SpamAssassin特性 6

1.2 机器学习的应用 8

1.2.1 图像识别 8

1.2.2 语音识别 10

1.2.3 医疗诊断 10

1.2.4 统计套利 11

1.2.5 关联学习 11

1.2.6 分类 11

1.2.7 预测 12

1.2.8 提取 13

1.2.9 回归 13

1.2.10 概率 13

1.3 机器学习的类型 14

1.3.1 有监督学习 14

1.3.2 无监督学习 15

1.3.3 强化学习 15

1.4 机器学习方法 16

1.4.1 决策树学习 16

1.4.2 关联规则学习 16

1.4.3 人工神经网络 17

1.4.4 归纳逻辑编程 17

1.4.5 支持向量机 17

1.4.6 聚类 18

1.4.7 贝叶斯网络 18

1.4.8 强化学习 18

1.4.9 表示学习 18

1.4.10 相似性和度量学习 18

1.4.11 稀疏字典学习 19

1.5 机器学习算法列表 19

练习 22

备忘单 24

第2讲 R上的图模型和贝叶斯网络 25

2.1 图模型简介 26

2.1.1 图模型的类型 30

2.1.2 图中的条件独立性 32

2.1.3 图中的条件独立性与分割 33

2.1.4 图的分解或者因子化 35

2.1.5 图模型的应用 36

2.2 案例研究——图模型在大众公司的应用 37

2.2.1 背景 37

2.2.2 问题 37

2.2.3 解决方案 38

2.3 贝叶斯统计简介 38

2.3.1 贝叶斯定理 39

2.3.2 贝叶斯网络 39

2.4 贝叶斯网络特性 43

2.5 贝叶斯网络中的概率推理 49

2.5.1 推断未观测变量 49

2.5.2 参数学习 49

2.5.3 结构学习 49

2.6 贝叶斯方法 51

2.6.1 变量消除 51

2.6.2 动态编程 52

2.6.3 逼近算法 52

2.7 贝叶斯网络的应用 54

练习 57

备忘单 59

第3讲 人工神经网络 60

3.1 神经网络简介 62

3.2 神经网络的应用 65

3.3 神经网络的结构 66

3.4 人工神经网络模型 68

3.4.1 多层感知器 68

3.4.2 径向基函数网络 69

3.4.3 Kohonen网络 70

3.5 学习规则 72

3.5.1 Hebbian学习规则 73

3.5.2 感知器学习规则 73

3.5.3 Delta学习规则(Windrow-Hoff学习规则) 74

3.5.4 相关学习规则 74

3.5.5 外向星学习规则 74

3.6 神经网络训练算法 75

3.6.1 梯度下降 76

3.6.2 演化算法 77

3.6.3 遗传算法 78

3.7 在R中实现神经网络 80

练习 84

备忘单 87

第4讲 在R中使用PCA和因子分析降维 88

4.1 降维简介 90

4.2 降维的应用 91

4.2.1 文档分类 91

4.2.2 基因表达微阵列分析 92

4.2.3 面部识别 93

4.3 因子分析 94

4.4 因子分析的应用 96

4.4.1 心理测验学中的因子分析 96

4.4.2 营销中的因子分析 97

4.5 因子分析方法 98

4.5.1 EFA和CFA的相似之处 98

4.5.2 EFA和CFA之间的差异 98

4.6 作为数据归约方法的因子分析 99

4.6.1 确定因子数量的标准 101

4.6.2 公因子方差 102

4.6.3 因子载荷 103

4.6.4 因子结构的旋转 104

4.6.5 旋转策略 104

4.6.6 因子结构的解读 105

4.6.7 层次化因子分析 106

4.6.8 因子得分 107

4.7 主成分分析 107

4.7.1 主成分分析的显著性 108

4.7.2 主成分的提取 108

4.7.3 主成分的特性 108

4.7.4 主成分分析的特性 109

4.8 主成分分析中的数据归约和解读 109

4.8.1 投影于一个轴上的惯性 110

4.8.2 距离 110

4.8.3 逆方差 110

4.8.4 协方差 111

4.8.5 变量的范数 112

4.8.6 因子轴 112

4.8.7 因子平面 112

4.8.8 主成分分析的目标 113

4.8.9 相关矩阵的特征值 113

4.8.10 变量的表示 113

4.8.11 个体的表示 114

4.8.12 主成分分析过程 114

4.8.13 选择主成分数量 116

4.8.14 主成分分析的变种 118

4.9 在R上实现主成分分析 120

4.9.1 示例1:欧洲人的蛋白质消耗 120

4.9.2 示例2:美国月度失业率 122

练习 123

备忘单 125

第5讲 支持向量机 127

5.1 支持向量机简介 128

5.2 支持向量机的应用领域 129

5.3 SVM算法 131

5.3.1 可分情况 132

5.3.2 不可分情况 133

5.4 线性支持向量机 135

5.4.1 原型 135

5.4.2 对偶形式 136

5.4.3 有偏和无偏超平面 137

5.5 核函数 137

5.5.1 核规则 137

5.5.2 支持向量机核示例 139

5.6 在R中训练和测试SVM模型 139

5.7 用SVM模型预测的实例 143

5.7.1 数据集 143

5.7.2 准备数据集 144

5.7.3 选择参数 144

5.7.4 训练模型 145

5.7.5 测试模型 146

练习 147

备忘单 149

模块2 社交媒体、移动分析和可视化 153

第1讲 大数据解决方案工程 153

1.1 大数据展望过程 154

1.1.1 步骤1:研究和面谈以理解业务活动 155

1.1.2 步骤2:获取和分析数据 157

1.1.3 步骤3:对新思路展开头脑风暴 158

1.1.4 步骤4:排定大数据集用例的优先级 159

1.1.5 步骤5:文档 160

1.2 大数据用例的优先级排定 160

1.2.1 优先顺序矩阵过程 161

1.2.2 优先顺序矩阵的陷阱 162

1.3 解决方案工程过程 164

1.3.1 第1步:理解组织是如何赚钱的 164

1.3.2 第2步:识别组织的关键业务活动 167

1.3.3 第3步:进行头脑风暴,确定大数据在业务上的作用 167

1.3.4 第4步:将业务活动分解为用例 168

1.3.5 第5步:证明用例 168

1.3.6 第6步:设计和实施大数据解决方案 169

1.4 解决方案工程示例 170

1.4.1 客户行为分析 171

1.4.2 减少欺诈行为 172

1.5 大数据解决方案的挑战 172

练习 174

备忘单 176

第2讲 社交媒体分析和文本分析 177

2.1 什么是社交媒体 178

2.2 社交分析、指标和计量 181

2.2.1 社交媒体分析工具 181

2.2.2 社交媒体分析与业务决策 182

2.2.3 社交媒体分析与其他分析类型的对比 184

2.3 社交媒体分析的关键要素 184

2.3.1 目标受众 184

2.3.2 预期行动 185

2.3.3 内容 185

2.3.4 内容机制 185

2.3.5 社交媒体分析中使用的技本 186

2.3.6 在线社交媒体分析工具 187

2.3.7 社交媒体分析所用的桌面应用程序 187

2.4 文本挖掘简介 188

2.4.1 文本挖掘工作方式 189

2.4.2 文本挖掘的应用 190

2.5 文本分析过程 190

2.6 情绪分析 192

2.6.1 情绪分析使用的方法 193

2.6.2 在线情绪分析 193

2.7 在R上实施Twitter情绪分析 194

练习 203

备忘单 205

第3讲 执行移动分析 207

3.1 移动分析简介 208

3.1.1 什么是移动分析 209

3.1.2 移动分析和Web分析 209

3.1.3 移动分析和商业价值 210

3.1.4 移动分析结果类型 210

3.1.5 移动分析应用类型 211

3.1.6 使用移动分析的领域 212

3.2 移动分析工具 212

3.2.1 基于位置的跟踪工具 213

3.2.2 实时分析工具 213

3.2.3 用户行为跟踪工具 214

3.3 执行移动分析 216

3.3.1 通过移动应用收集数据 216

3.3.2 将数据收集到服务器 217

3.4 应用分析报告 218

3.5 移动分析的挑战 219

3.5.1 网络问题 219

3.5.2 安全性问题和政府协议 220

练习 221

备忘单 223

第4讲 大数据可视化 225

4.1 什么是可视化 226

4.1.1 为什么对数据进行可视化 226

4.1.2 可视化技术 227

4.1.3 可视化类型 227

4.1.4 可视化的应用 228

4.2 大数据可视化的重要性 229

4.2.1 传统信息可视化的不足 229

4.2.2 大数据可视化的商业价值 229

4.2.3 用可视化将数据变成信息 230

4.2.4 使用不同工具的可视化示例 231

4.2.5 大数据可视化中的障碍 233

4.3 大数据可视化工具 233

4.3.1 大数据可视化专属服务 234

4.3.2 开源可视化程序库 234

4.3.3 用于大数据可视化的技术 235

4.4 Tableau产品 235

4.4.1 用TableauDesktop创建可视化 236

4.4.2 Tableau Desktop工作区简介 239

4.4.3 多个工作表页面 240

4.4.4 Tableau工作区 240

4.5 使用数据源 246

4.5.1 用Tableau联合数据库表 246

4.5.2 连接到SQL 247

4.6 数据运算(排序、聚合、联接) 248

4.6.1 地图和地理单元 249

4.6.2 创建交互式可视化 251

练习 254

备忘单 256

第5讲 招聘准备 258

5.1 大数据分析师所需要的关键技能 260

5.2 大数据分析岗位职责 262

5.2.1 初级分析师 262

5.2.2 中级分析师 263

5.2.3 高级分析师 263

5.3 大数据工作机会领域 264

模块3 大数据分析的行业应用 273

第1讲 大数据业务问题和解决方案——保险欺诈分析 273

1.1 背景 274

1.1.1 保险合同 275

1.1.2 保单类型 275

1.2 保险欺诈及其影响 276

1.3 场景 277

1.4 数据的解释 277

1.5 方法论 278

1.6 具体做法 279

1.7 结论 280

第2讲 大数据业务问题和解决方案——信用风险 281

2.1 背景 282

2.2 场景 283

2.3 数据的解释 284

2.4 方法论和具体做法 285

2.5 结论 287

第3讲 大数据业务问题和解决方案——典型行业 288

3.1 背景 289

3.1.1 客户流失 289

3.1.2 缺乏最优营销策略 289

3.1.3 呼叫数据记录(CDR)分析的需求 290

3.2 为增加利润而进行数据分析 290

3.2.1 避免客户流失 290

3.2.2 采用最优的营销策略 290

3.2.3 分析呼叫详细记录 291

3.3 场景 291

3.4 数据的解释 291

3.5 方法论 294

3.6 具体做法 295

3.6.1 高管视图 295

3.6.2 中层管理视图 296

3.6.3 代理人视图 296

3.7 结论 298

第4讲 大数据业务问题和解决方案——在线客户细分 299

4.1 背景 300

4.2 为客户细分进行数据分析 301

4.3 场景 302

4.4 数据的解释 302

4.5 方法论 302

4.6 具体做法 303

4.7 结论 305

第5讲 大数据业务问题和解决方案——在电子商务中使用可视化工具 306

5.1 背景 307

5.2 场景 310

5.3 数据的解释 310

5.4 方法论 311

5.5 具体做法 311

5.6 结论 317