当前位置:首页 > 工业技术
敏捷数据科学  用Hadoop创建数据分析应用
敏捷数据科学  用Hadoop创建数据分析应用

敏捷数据科学 用Hadoop创建数据分析应用PDF电子书下载

工业技术

  • 电子书积分:9 积分如何计算积分?
  • 作 者:(美)朱尔尼著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2014
  • ISBN:9787121236198
  • 页数:165 页
图书介绍:本书面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据价值金字塔进阶模式中,你将学到:一整套实用工具及其他法论,可快速实现在Hadoop上构建数据分析应用;用Python、Apache Pig及D3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。
《敏捷数据科学 用Hadoop创建数据分析应用》目录

第1部分 起步 1

第1章 理论 3

敏捷大数据 3

Big Words定义 4

敏捷大数据团队 5

认识机遇和问题 6

敏捷大数据流程 11

代码检查和结对编程 12

敏捷的场所:开发的效率 13

协作空间 14

私人空间 14

个人空间 14

用大幅打印件明确表达想法 15

第2章 数据 17

电子邮件 17

处理原始数据 18

原始的电子邮件 18

结构化与半结构化数据 18

SQL 20

NoSQL 24

序列化 24

从演变的模式中抽取和展示特征 25

数据流水线 26

数据透视 27

社交网络 28

时间序列 30

自然语言 31

概率 33

小结 35

第3章 敏捷开发工具 37

可扩展性=简洁 37

敏捷大数据处理 38

设置运行Python的虚拟环境 39

使用Avro对事件进行序列化 40

在Python中使用Avro 40

收集数据 42

使用Pig处理数据 44

安装Pig 45

使用MongoDB发布数据 49

安装MongoDB 49

安装MongoDB的Java驱动程序 50

安装mongo-hadoop 50

用Pig向MongoDB推送数据 50

使用ElasticSearch搜索数据 52

安装 52

使用Wonderdog整合ElasticSearch和Pig 53

对工作流程的反思 55

轻量级的Web应用 56

Python和Flask 56

展示数据 58

安装Bootstrap 58

启用Bootstrap 59

使用d3js和nvd3.js可视化数据 63

小结 64

第4章 在云端 65

引言 65

GitHub 67

dotCloud 67

dotCloud Echo服务 68

Python工作者服务 71

Amazon Web Services 71

Simple Storage Service 71

Elastic MapReduce 72

MongoDB即服务 79

辅助工具(Instrumentation) 81

Google Analytics 81

Mortar Data 82

第2部分 登上金字塔 85

第5章 收集和展示数据 89

整合软件栈 90

收集并序列化收件箱 90

处理和发布邮件数据 91

在浏览器中显示邮件 93

用Flask和pymongo处理邮件数据 94

使用Jinja2渲染HTML5页面 94

敏捷检查点 98

生成电子邮件清单 99

用MongoDB显示邮件 99

对数据展示的分析 101

搜索邮件 106

使用Pig,ElasticSearch和Wonderdog构建索引 106

在网页中搜索邮件数据 107

结论 108

第6章 使用图表可视化数据 111

优秀的图表 112

抽取实体:邮件地址 112

抽取邮件 112

对时间进行可视化 116

结论 122

第7章 利用报表探索数据 123

为数据添加联系 126

用TF-IDF从邮件中提取关键字 133

小结 138

第8章 预测 141

预测电子邮件的回复率 142

个性化 147

小结 148

第9章 驱动行动 149

好邮件的属性 150

使用朴素贝叶斯方法进行更好的预测 150

P(Reply|From ∩ To) 150

P(Reply | Token) 151

实时预测 153

记录事件日志 157

小结 157

索引 159

返回顶部