大数据分析师权威教程 机器学习、大数据分析和可视化PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:Wrox国际IT认证项目组编
- 出 版 社:北京:人民邮电出版社
- 出版年份:2017
- ISBN:9787115456892
- 页数:320 页
模块1 机器学习的概念 3
第1讲 理解机器学习技术 3
1.1 什么是机器学习 4
1.1.1 数据挖掘与机器学习之间的差异 5
1.1.2 SpamAssassin特性 6
1.2 机器学习的应用 8
1.2.1 图像识别 8
1.2.2 语音识别 10
1.2.3 医疗诊断 10
1.2.4 统计套利 11
1.2.5 关联学习 11
1.2.6 分类 11
1.2.7 预测 12
1.2.8 提取 13
1.2.9 回归 13
1.2.10 概率 13
1.3 机器学习的类型 14
1.3.1 有监督学习 14
1.3.2 无监督学习 15
1.3.3 强化学习 15
1.4 机器学习方法 16
1.4.1 决策树学习 16
1.4.2 关联规则学习 16
1.4.3 人工神经网络 17
1.4.4 归纳逻辑编程 17
1.4.5 支持向量机 17
1.4.6 聚类 18
1.4.7 贝叶斯网络 18
1.4.8 强化学习 18
1.4.9 表示学习 18
1.4.10 相似性和度量学习 18
1.4.11 稀疏字典学习 19
1.5 机器学习算法列表 19
练习 22
备忘单 24
第2讲 R上的图模型和贝叶斯网络 25
2.1 图模型简介 26
2.1.1 图模型的类型 30
2.1.2 图中的条件独立性 32
2.1.3 图中的条件独立性与分割 33
2.1.4 图的分解或者因子化 35
2.1.5 图模型的应用 36
2.2 案例研究——图模型在大众公司的应用 37
2.2.1 背景 37
2.2.2 问题 37
2.2.3 解决方案 38
2.3 贝叶斯统计简介 38
2.3.1 贝叶斯定理 39
2.3.2 贝叶斯网络 39
2.4 贝叶斯网络特性 43
2.5 贝叶斯网络中的概率推理 49
2.5.1 推断未观测变量 49
2.5.2 参数学习 49
2.5.3 结构学习 49
2.6 贝叶斯方法 51
2.6.1 变量消除 51
2.6.2 动态编程 52
2.6.3 逼近算法 52
2.7 贝叶斯网络的应用 54
练习 57
备忘单 59
第3讲 人工神经网络 60
3.1 神经网络简介 62
3.2 神经网络的应用 65
3.3 神经网络的结构 66
3.4 人工神经网络模型 68
3.4.1 多层感知器 68
3.4.2 径向基函数网络 69
3.4.3 Kohonen网络 70
3.5 学习规则 72
3.5.1 Hebbian学习规则 73
3.5.2 感知器学习规则 73
3.5.3 Delta学习规则(Windrow-Hoff学习规则) 74
3.5.4 相关学习规则 74
3.5.5 外向星学习规则 74
3.6 神经网络训练算法 75
3.6.1 梯度下降 76
3.6.2 演化算法 77
3.6.3 遗传算法 78
3.7 在R中实现神经网络 80
练习 84
备忘单 87
第4讲 在R中使用PCA和因子分析降维 88
4.1 降维简介 90
4.2 降维的应用 91
4.2.1 文档分类 91
4.2.2 基因表达微阵列分析 92
4.2.3 面部识别 93
4.3 因子分析 94
4.4 因子分析的应用 96
4.4.1 心理测验学中的因子分析 96
4.4.2 营销中的因子分析 97
4.5 因子分析方法 98
4.5.1 EFA和CFA的相似之处 98
4.5.2 EFA和CFA之间的差异 98
4.6 作为数据归约方法的因子分析 99
4.6.1 确定因子数量的标准 101
4.6.2 公因子方差 102
4.6.3 因子载荷 103
4.6.4 因子结构的旋转 104
4.6.5 旋转策略 104
4.6.6 因子结构的解读 105
4.6.7 层次化因子分析 106
4.6.8 因子得分 107
4.7 主成分分析 107
4.7.1 主成分分析的显著性 108
4.7.2 主成分的提取 108
4.7.3 主成分的特性 108
4.7.4 主成分分析的特性 109
4.8 主成分分析中的数据归约和解读 109
4.8.1 投影于一个轴上的惯性 110
4.8.2 距离 110
4.8.3 逆方差 110
4.8.4 协方差 111
4.8.5 变量的范数 112
4.8.6 因子轴 112
4.8.7 因子平面 112
4.8.8 主成分分析的目标 113
4.8.9 相关矩阵的特征值 113
4.8.10 变量的表示 113
4.8.11 个体的表示 114
4.8.12 主成分分析过程 114
4.8.13 选择主成分数量 116
4.8.14 主成分分析的变种 118
4.9 在R上实现主成分分析 120
4.9.1 示例1:欧洲人的蛋白质消耗 120
4.9.2 示例2:美国月度失业率 122
练习 123
备忘单 125
第5讲 支持向量机 127
5.1 支持向量机简介 128
5.2 支持向量机的应用领域 129
5.3 SVM算法 131
5.3.1 可分情况 132
5.3.2 不可分情况 133
5.4 线性支持向量机 135
5.4.1 原型 135
5.4.2 对偶形式 136
5.4.3 有偏和无偏超平面 137
5.5 核函数 137
5.5.1 核规则 137
5.5.2 支持向量机核示例 139
5.6 在R中训练和测试SVM模型 139
5.7 用SVM模型预测的实例 143
5.7.1 数据集 143
5.7.2 准备数据集 144
5.7.3 选择参数 144
5.7.4 训练模型 145
5.7.5 测试模型 146
练习 147
备忘单 149
模块2 社交媒体、移动分析和可视化 153
第1讲 大数据解决方案工程 153
1.1 大数据展望过程 154
1.1.1 步骤1:研究和面谈以理解业务活动 155
1.1.2 步骤2:获取和分析数据 157
1.1.3 步骤3:对新思路展开头脑风暴 158
1.1.4 步骤4:排定大数据集用例的优先级 159
1.1.5 步骤5:文档 160
1.2 大数据用例的优先级排定 160
1.2.1 优先顺序矩阵过程 161
1.2.2 优先顺序矩阵的陷阱 162
1.3 解决方案工程过程 164
1.3.1 第1步:理解组织是如何赚钱的 164
1.3.2 第2步:识别组织的关键业务活动 167
1.3.3 第3步:进行头脑风暴,确定大数据在业务上的作用 167
1.3.4 第4步:将业务活动分解为用例 168
1.3.5 第5步:证明用例 168
1.3.6 第6步:设计和实施大数据解决方案 169
1.4 解决方案工程示例 170
1.4.1 客户行为分析 171
1.4.2 减少欺诈行为 172
1.5 大数据解决方案的挑战 172
练习 174
备忘单 176
第2讲 社交媒体分析和文本分析 177
2.1 什么是社交媒体 178
2.2 社交分析、指标和计量 181
2.2.1 社交媒体分析工具 181
2.2.2 社交媒体分析与业务决策 182
2.2.3 社交媒体分析与其他分析类型的对比 184
2.3 社交媒体分析的关键要素 184
2.3.1 目标受众 184
2.3.2 预期行动 185
2.3.3 内容 185
2.3.4 内容机制 185
2.3.5 社交媒体分析中使用的技本 186
2.3.6 在线社交媒体分析工具 187
2.3.7 社交媒体分析所用的桌面应用程序 187
2.4 文本挖掘简介 188
2.4.1 文本挖掘工作方式 189
2.4.2 文本挖掘的应用 190
2.5 文本分析过程 190
2.6 情绪分析 192
2.6.1 情绪分析使用的方法 193
2.6.2 在线情绪分析 193
2.7 在R上实施Twitter情绪分析 194
练习 203
备忘单 205
第3讲 执行移动分析 207
3.1 移动分析简介 208
3.1.1 什么是移动分析 209
3.1.2 移动分析和Web分析 209
3.1.3 移动分析和商业价值 210
3.1.4 移动分析结果类型 210
3.1.5 移动分析应用类型 211
3.1.6 使用移动分析的领域 212
3.2 移动分析工具 212
3.2.1 基于位置的跟踪工具 213
3.2.2 实时分析工具 213
3.2.3 用户行为跟踪工具 214
3.3 执行移动分析 216
3.3.1 通过移动应用收集数据 216
3.3.2 将数据收集到服务器 217
3.4 应用分析报告 218
3.5 移动分析的挑战 219
3.5.1 网络问题 219
3.5.2 安全性问题和政府协议 220
练习 221
备忘单 223
第4讲 大数据可视化 225
4.1 什么是可视化 226
4.1.1 为什么对数据进行可视化 226
4.1.2 可视化技术 227
4.1.3 可视化类型 227
4.1.4 可视化的应用 228
4.2 大数据可视化的重要性 229
4.2.1 传统信息可视化的不足 229
4.2.2 大数据可视化的商业价值 229
4.2.3 用可视化将数据变成信息 230
4.2.4 使用不同工具的可视化示例 231
4.2.5 大数据可视化中的障碍 233
4.3 大数据可视化工具 233
4.3.1 大数据可视化专属服务 234
4.3.2 开源可视化程序库 234
4.3.3 用于大数据可视化的技术 235
4.4 Tableau产品 235
4.4.1 用TableauDesktop创建可视化 236
4.4.2 Tableau Desktop工作区简介 239
4.4.3 多个工作表页面 240
4.4.4 Tableau工作区 240
4.5 使用数据源 246
4.5.1 用Tableau联合数据库表 246
4.5.2 连接到SQL 247
4.6 数据运算(排序、聚合、联接) 248
4.6.1 地图和地理单元 249
4.6.2 创建交互式可视化 251
练习 254
备忘单 256
第5讲 招聘准备 258
5.1 大数据分析师所需要的关键技能 260
5.2 大数据分析岗位职责 262
5.2.1 初级分析师 262
5.2.2 中级分析师 263
5.2.3 高级分析师 263
5.3 大数据工作机会领域 264
模块3 大数据分析的行业应用 273
第1讲 大数据业务问题和解决方案——保险欺诈分析 273
1.1 背景 274
1.1.1 保险合同 275
1.1.2 保单类型 275
1.2 保险欺诈及其影响 276
1.3 场景 277
1.4 数据的解释 277
1.5 方法论 278
1.6 具体做法 279
1.7 结论 280
第2讲 大数据业务问题和解决方案——信用风险 281
2.1 背景 282
2.2 场景 283
2.3 数据的解释 284
2.4 方法论和具体做法 285
2.5 结论 287
第3讲 大数据业务问题和解决方案——典型行业 288
3.1 背景 289
3.1.1 客户流失 289
3.1.2 缺乏最优营销策略 289
3.1.3 呼叫数据记录(CDR)分析的需求 290
3.2 为增加利润而进行数据分析 290
3.2.1 避免客户流失 290
3.2.2 采用最优的营销策略 290
3.2.3 分析呼叫详细记录 291
3.3 场景 291
3.4 数据的解释 291
3.5 方法论 294
3.6 具体做法 295
3.6.1 高管视图 295
3.6.2 中层管理视图 296
3.6.3 代理人视图 296
3.7 结论 298
第4讲 大数据业务问题和解决方案——在线客户细分 299
4.1 背景 300
4.2 为客户细分进行数据分析 301
4.3 场景 302
4.4 数据的解释 302
4.5 方法论 302
4.6 具体做法 303
4.7 结论 305
第5讲 大数据业务问题和解决方案——在电子商务中使用可视化工具 306
5.1 背景 307
5.2 场景 310
5.3 数据的解释 310
5.4 方法论 311
5.5 具体做法 311
5.6 结论 317
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《2013数学奥林匹克试题集锦 走向IMO》2013年IMO中国国家集训队教练组编 2013
- 《365奇趣英语乐园 世界民间故事》爱思得图书国际企业 2018
- 《若时光倒流,我依然如初》读者丛书编辑组编 2020
- 《绿色过程工程与清洁生产技术 张懿院士论文集精选 上》《绿色过程工程与清洁生产技术》编写组编 2019
- 《时光凝固的敦煌》读者丛书编辑组编 2019
- 《时代光影里的丝路繁华》读者丛书编辑组编 2019
- 《中药学专业知识 1 国家执业药师考试指南 第7版 2019版》国家药品监督管理局执业药师资格认证中心 2018
- 《探险故事》印度爱思得图书国际企业编绘 2018
- 《闻声知道 古琴文化读本》厦门大学汉语国际推广南方基地,龙人古琴研究院 2018
- 《编程超有趣 奇妙Python轻松学 第1辑》HelloCode人工智能国际研究组 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019