《Elasticsearch大数据搜索引擎》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:罗刚编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2018
  • ISBN:9787121332333
  • 页数:217 页
图书介绍:《Elasticsearch大数据搜索引擎》一书介绍了Elasticsearch大数据搜索引擎的常见应用场景、原理与深入开发,主要包括支持中英文文本分析的自然语言处理搜索、问答式搜索和Elastic栈日志分析。

第1章 使用Elasticsearch 1

1.1基本概念 1

1.2安装 2

1.3搜索集群 5

1.4创建索引 6

1.5使用Java客户端接口 9

1.5.1创建索引 11

1.5.2增加、删除与修改数据 14

1.5.3分析器 16

1.5.4数据导入 17

1.5.5通过摄取快速导入数据 17

1.5.6索引库结构 17

1.5.7查询 18

1.5.8区间查询 22

1.5.9排序 23

1.5.10分布式搜索 23

1.5.11过滤器 24

1.5.12高亮显示 24

1.5.13分页 25

1.5.14通过聚合实现分组查询 26

1.5.15 文本列的聚合 27

1.5.16遍历数据 28

1.5.17索引文档 29

1.5.18 Percolate 29

1.6 RESTClient 30

1.6.1使用摄取 31

1.6.2代码实现摄取 33

1.7使用Jest 33

1.8 Python客户端 37

1.9 Scala客户端 40

1.10 PHP客户端 43

1.11 SQL支持 44

1.12本章小结 48

第2章 开发插件 49

2.1搜索中文 49

2.1.1中文分词原理 49

2.1.2中文分词插件原理 51

2.1.3开发中文分词插件 53

2.1.4中文AnalyzerProvider 55

2.1.5字词混合索引 57

2.2搜索英文 60

2.2.1句子切分 60

2.2.2标注词性 62

2.3使用测试套件 64

2.4本章小结 68

第3章 管理搜索集群 69

3.1节点类型 69

3.2管理集群 69

3.3写入权限控制 70

3.4使用X-Pack 71

3.5快照 72

3.6 Zen发现机制 73

3.7联合搜索 74

3.8缓存 74

3.9本章小结 75

第4章 源码分析 76

4.1 Lucene源码分析 76

4.1.1 Ivy管理依赖项 76

4.1.2源码结构介绍 76

4.2 Gradle 77

4.3 Guice 77

4.4 Joda-Time 79

4.5 Transport 80

4.6线程池 80

4.7模块 80

4.8 Netty 81

4.9分布式 81

4.10本章小结 82

第5章 搜索相关性 83

5.1 BM25检索模型 83

5.1.1使用BM25检索模型 86

5.1.2参数调优 86

5.2学习评分 86

5.2.1基本原理 87

5.2.2准备数据 87

5.2.3 Elasticsearch学习排名 89

5.3本章小结 91

第6章 搜索引擎用户界面 92

6.1 JSP实现搜索界面 92

6.1.1用于显示搜索结果的自定义标签 93

6.1.2使用Listlib 98

6.1.3实现翻页 100

6.2使用Spring实现的搜索界面 102

6.2.1实现REST搜索界面 102

6.2.2 REST API中的HTTP PUT 104

6.2.3 Spring-data-elastic search 106

6.2.4 Spring HATEOAS 112

6.3实现搜索接口 113

6.3.1编码识别 113

6.3.2布尔搜索 116

6.3.3搜索结果排序 116

6.4实现相似文档搜索 117

6.5实现AJAX搜索联想词 119

6.5.1估计查询词的文档频率 119

6.5.2搜索联想词总体结构 119

6.5.3服务器端处理 120

6.5.4浏览器端处理 125

6.5.5拼音提示 127

6.5.6部署总结 127

6.5.7 Suggester 128

6.6推荐搜索词 129

6.6.1挖掘相关搜索词 130

6.6.2使用多线程计算相关搜索词 132

6.7查询意图理解 133

6.7.1拼音搜索 133

6.7.2无结果处理 133

6.8集成其他功能 134

6.8.1拼写检查 134

6.8.2分类统计 135

6.8.3相关搜索 141

6.8.4再次查找 144

6.8.5搜索日志 144

6.9查询分析 146

6.9.1历史搜索词记录 146

6.9.2日志信息过滤 147

6.9.3信息统计 148

6.9.4挖掘日志信息 150

6.9.5查询词意图分析 150

6.10部署网站 150

6.10.1部署到Web服务器 151

6.10.2防止攻击 152

6.11本章小结 156

第7章OCR文字识别 157

7.1 Tesseract 157

7.2使用TensorFlow识别文字 161

7.3 OpenCV 164

7.3.1预处理 166

7.3.2文字区域提取 169

7.3.3纠正偏斜 171

7.3.4 Linux环境支持 172

7.4 JavaCV 172

7.5本章小结 174

第8章 问答式搜索 176

8.1生成表示语义的代码 176

8.2信息整合 181

8.2.1实体对齐 181

8.2.2编辑距离 181

8.2.3 Jaro-Winkler距离 187

8.2.4比较器 189

8.2.5 Cleaner 189

8.2.6运行过程 190

8.2.7遗传算法调整参数 192

8.3自动问答 193

8.3.1问句处理器 193

8.3.2自动发现答案 198

8.4本章小结 199

第9章Elastic系统监控 201

9.1 Logstash 201

9.1.1使用Logstash 201

9.1.2插件 203

9.1.3数据库输入插件 206

9.2 Filebeat 207

9.3消息过期 208

9.4 Kibana 208

9.5 Flume 209

9.6 Kafka 210

9.7 Graylog 211

9.8物联网数据 215

9.9本章小结 216