《大数据搜索与挖掘及可视化管理方案》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:高凯主编;高莘,岳重阳编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302473787
  • 页数:340 页
图书介绍:本书第一、二版均已重印,并已输出到台湾。内容涵盖了基于ElasticSearch构建的Web信息检索与日志挖掘处理的多个重要组成部分,并从多个视角对基于ElasticSearch构建的Web信息检索和数据挖掘技术进行了分析。作者团队对当今大数据与分布式计算、大规模网站构建等给出了自己独到的见地,并将重点放在了实现上。

第1章 概述 1

1.1 Elasticsearch概述 3

1.1.1 Elasticsearch的安装与简单配置 4

1.1.2 Elasticsearch API的简单使用方式 7

1.2 Logstash 7

1.3 Kibana 8

1.4 其他 8

1.5 扩展知识与阅读 9

1.6 本章小结 10

第2章 文档索引及管理 11

2.1 文档索引概述 11

2.2 Head:Elasticsearch的数据管理工具 13

2.3 建立索引 16

2.4 通过映像mappings配置索引 20

2.4.1 在索引中使用映像 21

2.4.2 管理/配置映像 22

2.4.3 获取映像信息 22

2.4.4 删除映像 24

2.5 管理索引文件 24

2.5.1 打开、关闭、检测、删除索引文件 24

2.5.2 清空索引缓存 25

2.5.3 刷新索引数据 25

2.5.4 优化索引数据 26

2.5.5 Flush操作 26

2.6 设置中文分析器 26

2.7 对文档的其他操作 29

2.7.1 获取指定的文档信息 29

2.7.2 删除文档中的信息 31

2.7.3 数据更新 31

2.7.4 基于POST方式批量获取文档 34

2.8 实例 36

2.9 扩展知识与阅读 40

2.10 本章小结 41

第3章 信息检索与聚合 42

3.1 实验数据集描述 43

3.2 基本检索 44

3.2.1 检索方式 44

3.2.2 query查询 45

3.2.3 from/size查询 45

3.2.4 查询结果排序 46

3.2.5 高亮搜索词 48

3.2.6 查询模板 50

3.3 检索进阶 50

3.3.1 全文检索 51

3.3.2 词项检索 54

3.3.3 复合查询 58

3.3.4 跨度查询 60

3.3.5 特殊查询 63

3.3.6 脚本script 64

3.4 聚合 67

3.4.1 metrics aggregations 68

3.4.2 bucket aggregations 72

3.4.3 pipeline aggregations 81

3.4.4 matrix aggregations 85

3.5 实例 87

3.6 扩展知识与阅读 92

3.7 本章小结 93

第4章 面向Java的Elasticsearch Client部分功能实现 94

4.1 Elasticsearch节点实例化 94

4.1.1 通过Maven添加Elasticsearch依赖 94

4.1.2 初始化TransportClient 96

4.2 索引数据 98

4.2.1 准备JSON数据 98

4.2.2 索引JSON数据 100

4.3 对索引文档的操作 101

4.3.1 获取索引文档数据 101

4.3.2 删除索引文档 104

4.3.3 更新索引文档 105

4.3.4 批量操作索引文件 105

4.4 信息检索 107

4.4.1 概述 107

4.4.2 MultiSearch 109

4.4.3 Search template 110

4.4.4 Query DSL概述 110

4.4.5 matchAllQuery 111

4.4.6 全文检索的部分方法 112

4.4.7 词项检索的部分方法 115

4.4.8 复合查询的部分方法 119

4.4.9 跨度查询的部分方法 121

4.4.10 特殊查询 124

4.5 聚合 126

4.5.1 Metrics聚合 126

4.5.2 Bucket聚合 130

4.6 对检索结果的进一步处理 134

4.6.1 控制每页的显示数量及显示排序依据 134

4.6.2 基于scroll的检索结果及其分页 135

4.7 实例 137

4.7.1 在Elasticsearch中建立索引 137

4.7.2 连接Elasticsearch 138

4.7.3 信息采集与索引构建 139

4.7.4 搜索模块的实现 141

4.7.5 推荐模块的实现 142

4.7.6 聚合模块的实现 143

4.8 扩展知识与阅读 145

4.9 本章小结 145

第5章 Elasticsearch配置与集群管理 146

5.1 Elasticsearch部分基本配置及其说明 146

5.2 索引和查询效率的优化 149

5.3 监控集群状态 150

5.4 控制索引分片与副本分配 152

5.5 集群管理 154

5.6 扩展知识与阅读 155

5.7 本章小结 156

第6章 基于Logstash的日志处理 157

6.1 概述 158

6.2 Input:处理输入的日志数据 160

6.2.1 处理基于file方式输入的日志信息 161

6.2.2 处理基于generator产生的日志信息 162

6.2.3 处理基于log4j的日志信息 163

6.2.4 处理基于redis的日志信息 165

6.2.5 处理基于stdin方式输入的信息 168

6.2.6 处理基于TCP传输的日志数据 169

6.2.7 处理基于UDP传输的日志数据 173

6.3 codecs:格式化日志数据 174

6.3.1 JSON格式 175

6.3.2 rubydebug格式 177

6.3.3 plain格式 177

6.4 基于filter的日志处理与转换 178

6.4.1 JSON filter 178

6.4.2 grok filter 180

6.4.3 kv filter 182

6.5 output:输出日志数据 184

6.5.1 将处理后的日志输出到Elasticsearch中 185

6.5.2 将处理后的日志输出至文件中 186

6.5.3 将处理后的部分日志输出到csv格式的文件中 187

6.5.4 将处理后的日志输出到redis中 189

6.5.5 将处理后的部分日志通过UDP协议输出 190

6.5.6 将处理后的部分日志通过TCP协议输出 192

6.5.7 将收集到的日志信息传输到自定义的HTTP接口中 195

6.6 扩展知识与阅读 196

6.7 本章小结 197

第7章 基于Kibana的数据分析可视化 198

7.1 Kibana概述 199

7.2 安装Kibana 199

7.3 使用Management管理配置 200

7.3.1 添加index pattern 200

7.3.2 高级设置 202

7.3.3 管理已保存的检索、可视化和仪表板 205

7.4 使用Discover执行查询 206

7.4.1 设置时间过滤器 206

7.4.2 在index pattern中执行搜索 207

7.4.3 字段过滤 208

7.4.4 查看文档数据 210

7.5 使用Visualize创建统计图表 211

7.6 使用Dashboard创建动态仪表板 214

7.6.1 创建新的动态仪表板 215

7.6.2 打开已保存的动态仪表板 215

7.6.3 分享动态仪表板 216

7.7 使用Timelion创建时间线 216

7.8 使用Dev Tools执行命令行 218

7.8.1 在Console中执行命令 218

7.8.2 Console的快捷键 220

7.8.3 Console的配置 221

7.9 网站性能监控可视化应用的设计与实现 221

7.9.1 概述 222

7.9.2 使用Visualize实现可视化 222

7.9.3 使用Dashboard整合可视化结果 225

7.10 扩展知识与阅读 227

7.11 本章小结 227

第8章 基于X-Pack的系统运行监控 229

8.1 X-Pack概述 229

8.2 安装X-Pack 230

8.3 Security插件与安全性 231

8.3.1 身份验证机制与用户管理 231

8.3.2 匿名访问 233

8.3.3 基于域的用户认证 234

8.3.4 基于角色的访问权限配置 236

8.3.5 IP过滤 238

8.3.6 带有身份认证的TransportClient 240

8.3.7 带有身份认证的RESTful命令 243

8.4 使用Monitoring监控系统运行状态 243

8.4.1 系统运行状态监控 243

8.4.2 配置Monitoring 247

8.4.3 搭建独立的Monitoring集群 248

8.5 Alerting插件与异常事件警报 250

8.5.1 通过RESTful方式设置监视器 250

8.5.2 通过Java程序设置监视器 254

8.6 Reporting与报告生成 256

8.6.1 在程序中生成报告 256

8.6.2 通过监视器自动生成报告 257

8.7 使用Graph探索数据关联 259

8.8 扩展知识与阅读 261

8.9 本章小结 261

第9章 基于Beats的数据解析传输 262

9.1 基于Packetbeat的网络数据包传输 263

9.1.1 概述 263

9.1.2 安装 263

9.1.3 配置 264

9.1.4 加载索引模板 266

9.1.5 启动和关闭 267

9.1.6 使用Kibana进行展示 268

9.2 基于Filebeat的日志传输 269

9.2.1 概述 269

9.2.2 安装和配置 269

9.2.3 启动和关闭 272

9.2.4 使用Kibana进行展示 272

9.3 基于Metricbeat的系统指标数据传输 273

9.3.1 概述 273

9.3.2 安装和配置 274

9.3.3 启动和关闭 275

9.3.4 使用Kibana进行展示 276

9.4 基于Winlogbeat的Windows事件日志数据传输 277

9.4.1 概述 277

9.4.2 安装 278

9.4.3 配置 279

9.4.4 启动和关闭 282

9.4.5 使用Kibana进行展示 283

9.5 扩展知识与阅读 284

9.6 本章小结 285

第10章 网络信息检索与分析实践1 286

10.1 信息采集 286

10.2 基于Python的信息检索及Web端设计 291

10.2.1 安装Python及Django 291

10.2.2 安装Elasticsearch的Python插件 292

10.2.3 Web页面设计 293

10.3 基于Logstash的日志处理 296

10.3.1 安装和配置Nginx 297

10.3.2 设计面向日志文件的pattern 297

10.3.3 在Logstash中进行相关配置 298

10.4 基于Kibana的日志分析结果可视化设计与实现 299

10.4.1 图表1:状态码走势分析 300

10.4.2 图表2:查询词分析 302

10.4.3 图表3:分析各状态码随时间的变迁 302

10.4.4 集成图表 304

10.5 扩展知识与阅读 304

10.6 本章小结 305

第11章 网络信息检索与分析实践2 306

11.1 面向动态网站的信息采集 307

11.1.1 软件准备 307

11.1.2 浏览器驱动程序准备 307

11.1.3 创建索引和映像 308

11.1.4 导入依赖 309

11.1.5 数据采集 310

11.2 基于Spring MVC的信息检索及Web程序设计 317

11.2.1 创建和配置Spring MVC项目 317

11.2.2 前端页面设计 319

11.2.3 后端控制器类 324

11.3 基于Logstash的日志处理 329

11.4 基于Beats的数据传输 330

11.5 基于Kibana的数据可视化 331

11.5.1 可视化索引文件中的信息 331

11.5.2 对Logstash、Beats的可视化展示 333

11.6 基于X-Pack的系统监控 335

11.7 扩展知识与阅读 337

11.8 本章小结 337

参考文献 339