数据科学与大数据分析 数据的发现 分析 可视化与表示PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:(美)EMC教育服务团队(EMC Education Services)
- 出 版 社:北京:人民邮电出版社
- 出版年份:2016
- ISBN:9787115416377
- 页数:356 页
第1章 大数据分析介绍 1
1.1 大数据概述 2
1.1.1 数据结构 4
1.1.2 数据存储的分析视角 9
1.2 分析的实践状态 10
1.2.1 商业智能VS数据科学 11
1.2.2 当前分析架构 12
1.2.3 大数据的驱动力 14
1.2.4 新的大数据生态系统和新的分析方法 15
1.3 新的大数据生态系统中的关键角色 17
1.4 大数据分析案例 20
1.5 总结 21
1.6 练习 21
参考书目 21
第2章 数据分析生命周期 23
2.1 数据分析生命周期概述 24
2.1.1 一个成功分析项目的关键角色 24
2.1.2 数据分析生命周期的背景和概述 26
2.2 第1阶段:发现 28
2.2.1 学习业务领域 29
2.2.2 资源 29
2.2.3 设定问题 30
2.2.4 确定关键利益相关者 30
2.2.5 采访分析发起人 31
2.2.6 形成初始假设 32
2.2.7 明确潜在数据源 32
2.3 第2阶段:数据准备 33
2.3.1 准备分析沙箱 34
2.3.2 执行ETLT 35
2.3.3 研究数据 36
2.3.4 数据治理 37
2.3.5 调查和可视化 37
2.3.6 数据准备阶段的常用工具 38
2.4 第3阶段:模型规划 39
2.4.1 数据探索和变量选择 40
2.4.2 模型的选择 41
2.4.3 模型设计阶段的常用工具 42
2.5 第4阶段:模型建立 42
2.5.1 模型构建阶段中的常用工具 44
2.6 第5阶段:沟通结果 45
2.7 第6阶段:实施 46
2.8 案例研究:全球创新网络和分析(GINA) 49
2.8.1 第1阶段:发现 50
2.8.2 第2阶段:数据准备 51
2.8.3 第3阶段:模型规划 51
2.8.4 第4阶段:模型建立 51
2.8.5 第5阶段:沟通结果 53
2.8.6 第6阶段:实施 54
2.9 总结 55
2.10 练习 55
参考书目 55
第3章 使用R进行基本数据分析 57
3.1 R简介 58
3.1.1 R图形用户界面 61
3.1.2 数据导入和导出 63
3.1.3 属性和数据类型 64
3.1.4 描述性统计(descriptive statistics) 72
3.2 探索性数据分析 73
3.2.1 在分析之前先可视化 74
3.2.2 脏数据 77
3.2.3 可视化单个变量 80
3.2.4 研究多个变量 83
3.2.5 对比数据探索和数据演示 90
3.3 用于评估的统计方法 92
3.3.1 假设检验 93
3.3.2 均值差异 94
3.3.3 Wilcoxon秩和检验 98
3.3.4 Ⅰ型和Ⅱ型错误 99
3.3.5 功效和抽样大小 100
3.3.6 ANOVA 100
3.4 总结 104
3.5 练习 104
参考文献 105
第4章 高级分析理论与方法:聚类 107
4.1 聚类概述 108
4.2 k均值聚类 108
4.2.1 使用案例 109
4.2.2 方法概述 110
4.2.3 确定聚类簇的数量 112
4.2.4 诊断 117
4.2.5 选择原因及注意事项 118
4.3 其他算法 122
4.4 总结 122
4.5 练习 123
参考书目 123
第5章 高级分析理论与方法:关联规则 124
5.1 概述 125
5.2 Apriori算法 127
5.3 评估候选规则 128
5.4 关联规则的应用 129
5.5 杂货店交易示例 130
5.5.1 杂货店数据集 130
5.5.2 生成频繁数据集 132
5.5.3 规则的生成和可视化 137
5.6 验证和测试 143
5.7 诊断 143
5.8 总结 144
5.9 练习 144
参考书目 145
第6章 高级分析理论与方法:回归 147
6.1 线性回归 148
6.1.1 用例 148
6.1.2 模型描述 149
6.1.3 诊断 158
6.2 逻辑回归 163
6.2.1 用例 163
6.2.2 模型描述 163
6.2.3 诊断 165
6.3 选择理由和注意事项 172
6.4 其他回归模型 173
6.5 总结 173
6.6 练习 174
第7章 高级分析理论与方法:分类 175
7.1 决策树 176
7.1.1 决策树概览 177
7.1.2 通用算法 181
7.1.3 决策树算法 185
7.1.4 评估决策树 186
7.1.5 R中的决策树 189
7.2 朴素贝叶斯 193
7.2.1 贝叶斯定理 194
7.2.2 朴素贝叶斯分类器 196
7.2.3 平滑 198
7.2.4 诊断 198
7.2.5 R中的朴素贝叶斯 199
7.3 分类器诊断 204
7.4 其他分类方法 208
7.5 总结 209
7.6 练习 210
参考书目 210
第8章 高级分析理论与方法:时间序列分析 212
8.1 时间序列分析概述 213
8.1.1 Box-Jenkins方法 214
8.2 ARIMA模型 215
8.2.1 自相关函数(ACF) 215
8.2.2 自回归模型 216
8.2.3 移动平均模型 218
8.2.4 ARMA和ARIMA模型 219
8.2.5 建立和评估ARIMA模型 222
8.2.6 选择理由及注意事项 230
8.3 其他方法 230
8.4 总结 231
8.5 练习 231
第9章 高级分析理论与方法:文本分析 232
9.1 文本分析步骤 234
9.2 一个文本分析的示例 235
9.3 收集原始数据 237
9.4 表示文本 240
9.5 词频-逆文档频率(TFIDF) 245
9.6 通过主题来分类文件 249
9.7 情感分析 253
9.8 获得洞察力 258
9.9 总结 263
9.10 练习 263
参考书目 264
第10章 高级分析技术与工具:MapReduce和Hadoop 267
10.1 非结构化数据分析 268
10.1.1 用例 268
10.1.2 MapReduce 270
10.1.3 Apache Hadoop 271
10.2 Hadoop生态系统 277
10.2.1 Pig 278
10.2.2 Hive 279
10.2.3 HBase 282
10.2.4 Mahout 290
10.3 NoSQL 292
10.4 总结 293
10.5 练习 294
参考书目 294
第11章 高级分析技术与工具:数据库内分析 297
11.1 SQL基本要素 298
11.1.1 连接 299
11.1.2 set运算符 301
11.1.3 grouping扩展 303
11.2 数据库内的文本分析 307
11.3 高级SQL技术 311
11.3.1 窗口函数 311
11.3.2 用户定义函数与聚合 315
11.3.3 排序聚合 318
11.3.4 MABlib 319
11.4 总结 323
11.5 练习 323
参考书目 323
第12章 结尾 324
12.1 沟通和实施一个分析项目 325
12.2 创建最终可交付成果 327
12.2.1 为多个受众群体创建核心材料 329
12.2.2 项目目标 330
12.2.3 主要发现 331
12.2.4 方法 333
12.2.5 模型描述 334
12.2.6 有数据支持的关键论点 335
12.2.7 模型细节 336
12.2.8 建议 337
12.2.9 关于最终演示文档的额外提示 338
12.2.10 提供技术规范和代码 339
12.3 数据可视化基础 340
12.3.1 有数据支持的要点 341
12.3.2 图的演进 342
12.3.3 通用表示方法 348
12.3.4 如何清理图形 349
12.3.5 额外考虑 353
12.4 总结 355
12.5 练习 355
12.6 参考文献与扩展阅读 355
参考书目 356
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《培生高级英语语法 练习册》培生教育 2019
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019