《Splunk大数据分析》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:(美)扎德罗津尼著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2014
  • ISBN:9787111464297
  • 页数:291 页
图书介绍:本书是指导大数据分析项目的实践指南,这些项目涉及机器数据、社会化媒体以及挖掘现有的数据仓库。作者通过真实的项目详细地介绍如何收集数据、如何将数据导入Splunk、如何处理和分析数据,以及如何形成可以让目标受众更容易理解的可视化结果的方法。本书分为四个部分,第一部分(第1~7章)介绍Splunk的基本操作,涉及基础数据的收集、处理、分析及结果的可视化。通过机器数据来介绍Splunk处理语言的基础命令。第二部分(第8~11章)介绍航空公司准点率项目,涉及如何从CSV格式文件中和直接从关系数据库中采集数据。第三部分(第12~14章)专门介绍社会化媒体,详细介绍如何收集、处理、分析推文(tweet)和Foursquare的签到信息,并用一个完整的章来讲情感分析。这些章节将提供处理任何涉及社会化媒体流的大数据项目的必要知识。第四部分(第15~16章)详细介绍Splunk的架构和拓扑结构:如何按需求扩展Splunk,以及分布式处理和高可用性的基本概念。

第1章 大数据和Splunk 1

1.1什么是大数据 1

1.2非传统的数据处理技术 5

1.3 Splunk是什么 6

1.4关于本书 7

第2章 将数据导入Splunk 9

2.1数据的多样性 9

2.2 Splunk如何处理多样化的数据 10

2.2.1文件和目录 11

2.2.2数据生成器 16

2.2.3生成样本数据 17

2.2.4网络资源 21

2.2.5 Windows数据 21

2.2.6其他资源 21

2.3应用程序和附加组件 21

2.4转发器 26

2.5小结 27

第3章 处理和分析数据 28

3.1了解组合访问日志数据 28

3.2搜索和分析索引数据 29

3.3报表 35

3.3.1使用最多的浏览器 35

3.3.2排名前五的IP地址 37

3.3.3浏览量来源最多的网站 38

3.3.4有多少404事件 40

3.3.5有多少事件包含购买行为 42

3.3.6列出购买的商品 42

3.4排序 44

3.5过滤 45

3.6添加和评估字段 47

3.7聚合 48

3.8小结 54

第4章 结果的可视化 55

4.1数据可视化 55

4.2 Splunk是怎样处理可视化的 55

4.3 chart 60

4.3.1制作每一个主机的GET和POST事件数量的图表 61

4.3.2制作每一个产品类别的购买数和浏览数的图表 62

4.3.3哪个产品种类受HTTP 404错误的影响 63

4.3.4 MyGizmoStore&com的购买趋势 64

4.3.5事务持续时间 66

4.4 timechart 67

4.4.1最高购买数量的产品 67

4.4.2页面浏览率和购买量 68

4.5使用Google Maps应用程序来可视化 69

4.6 Globe 71

4.7仪表盘 72

4.8小结 80

第5章 定义警报 81

5.1什么是警报 81

5.2 Splunk如何提供警报 81

5.2.1基于商品销售量的警报 82

5.2.2登录失败的警报 84

5.2.3日志文件中关键性错误的警报 87

5.3小结 88

第6章 网站监测 90

6.1监测网站 90

6.2 IT运作 91

6.2.1主机访问量 91

6.2.2无内部访问的主机访问量 91

6.2.3 HTTP请求成功的流量 93

6.2.4 HTTP请求未成功的流量 93

6.2.5返回HTTP错误状态码最多的页面 94

6.3业务 96

6.3.1区域用户统计 96

6.3.2跳出率 97

6.3.3独立访问者数量 98

6.4小结 103

第7章 使用日志文件创建高级分析 104

7.1传统的分析方法 104

7.2范式变更 105

7.3语义日志 106

7.4日志最佳实践 113

7.5小结 115

第8章 航班准点率项目 116

小结 118

第9章 将航班数据导入Splunk 119

9.1处理CSV文件 119

9.1.1航班数据 119

9.1.2下载数据 120

9.1.3了解航班数据 121

9.1.4关于时间戳 123

9.1.5将字段映射成一个时间戮 124

9.1.6对所有航班数据建立索引 131

9.2从关系数据库中索引数据 132

9.2.1定义一个新的数据库连接 132

9.2.2数据库监测 133

9.3小结 136

第10章 分析航空公司、机场、航班和延迟 137

10.1分析航空公司 137

10.1.1计算航空公司的总数 138

10.1.2可视化结果 139

10.2分析机场 143

10.3分析航班 146

10.4分析延迟 151

10.4.1各航空公司航班延迟情况 151

10.4.2各机场航班延迟的原因 152

10.4.3冬天与夏天的航班延迟情况 155

10.5创建和使用宏命令 157

10.6报告加速 158

10.7加速统计 161

10.8小结 166

第11章 分析一个特定航班的历年数据 167

11.1航空公司名称 167

11.1.1字段查找自动化 172

11.1.2从搜索中创建查找表 173

11.2 United flight 871航班 174

11.3小结 178

第12章 分析推文 179

12.1开发样本流 180

12.2将推文加载到Splunk中 183

12.3 Twitter 185

12.4最流行的单词 188

12.5实时的Twitter趋势 191

12.6小结 196

第13章 分析Foursquare签到信息 197

13.1签到信息格式 198

13.2时区注意事项 202

13.3装载签到数据 203

13.4分析签到信息 205

13.4.1星期日早午餐搜索 205

13.4.2 Google地图和热门地点 209

13.4.3地点的签到模式 211

13.4.4地点的签到数量 212

13.4.5分析性别活动 214

13.5小结 217

第14章 情感分析 218

14.1意见、观点、信仰、信念 218

14.2商业用途 219

14.3情感分析的技术性工作 220

14.4情感分析应用程序 222

14.4.1全局性的命令 223

14.4.2挖掘情感 224

14.4.3语言的处理 226

14.4.4训练数据和测试数据 227

14.5世界情绪指数项目 231

14.5.1收集RSS摘要 232

14.5.2将新闻标题索引到Splunk中 234

14.5.3定义情感语料库 237

14.5.4对结果进行可视化 240

14.6小结 242

第15章 远程数据收集 243

15.1转发器 243

15.1.1流行的拓扑结构 244

15.1.2安装转发器 246

15.2部署服务器 248

15.2.1配置部署服务器 250

15.2.2配置转发器 251

15.3部署监控 252

15.4小结 253

第16章 可扩展性和高可用性 254

16.1扩展Splunk 254

16.2聚类 259

16.3小结 264

附录A Splunk的性能 265

附录B 有用的Splunk应用程序 281