当前位置:首页 > 工业技术
大数据搜索引擎原理分析
大数据搜索引擎原理分析

大数据搜索引擎原理分析PDF电子书下载

工业技术

  • 电子书积分:12 积分如何计算积分?
  • 作 者:刘凡平编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2019
  • ISBN:7121352454
  • 页数:340 页
图书介绍:
《大数据搜索引擎原理分析》目录

第1章 引论 1

1.1搜索引擎的过去 1

1.2搜索引擎的现在 2

1.3搜索引擎的未来 4

1.4大数据与搜索引擎 6

1.4.1搜索价值提升 6

1.4.2用户价值提升 7

1.5大数据与人工智能 7

1.5.1人工智能的发展 7

1.5.2人工智能技术 9

1.6搜索引擎与人工智能 11

1.7本章小结 13

第2章 搜索引擎原理与技术 14

2.1基本工作原理 14

2.2基本模块结构 15

2.2.1网络爬虫服务 16

2.2.2索引服务 17

2.2.3缓存服务 18

2.2.4搜索服务 19

2.2.5日志服务 21

2.3技术概要 22

2.3.1自然语言处理 22

2.3.2知识图谱 23

2.3.3海量数据存储 25

2.3.4分布式计算 27

2.3.5搜索排序 28

2.4开源技术 29

2.4.1 Apache Lucene 29

2.4.2 Apache Nutch 31

2.4.3 Sphinx 32

2.4.4 Elastic Search 34

2.5本章小结 36

第3章 自然语言处理框架 37

3.1英文分词 37

3.2中文分词 39

3.2.1中文分词概要 39

3.2.2基于词库的分词技术 40

3.2.3基于条件随机场模型的中文分词 42

3.2.4分词粒度 49

3.3词性标注 50

3.3.1隐马尔科夫模型概要 51

3.3.2隐马尔科夫模型与词性标注 52

3.4语义相似度 60

3.5依存句法分析 62

3.5.1依存句法分析概要 62

3.5.2依存句法分析实现 65

3.6情感倾向分析 68

3.7文档关键词提取 70

3.7.1文档关键词提取概要 70

3.7.2基于TF-IDF算法 71

3.7.3基于TextRank算法 73

3.8文档句子相似度分析 76

3.8.1句子相似度 77

3.8.2文档相似度 79

3.9文档核心句提取 80

3.10文本的分类与聚类 83

3.10.1文本分类 84

3.10.2文本聚类 89

3.11语种检测 96

3.12本章小结 98

第4章 构建大数据存储引擎 99

4.1架构体系 100

4.1.1结构概要 100

4.1.2服务器上线 103

4.1.3服务器下线 103

4.1.4数据读取 104

4.2数据存储模型 105

4.3数据压缩 107

4.4负载均衡 108

4.5数据存储逻辑视图 111

4.6本章小结 114

第5章 构建分布式实时计算 115

5.1概述 115

5.2设计架构 117

5.2.1设计思想 117

5.2.2基本框架 119

5.3运行模式 121

5.4负载均衡 122

5.5通信设计 123

5.5.1基本方式 124

5.5.2分布式远程服务调用 124

5.6容灾恢复 125

5.7数据容错原理 126

5.8数据处理设计示例 128

5.9本章小结 129

第6章 分布式可扩展爬虫 130

6.1爬虫体系架构 130

6.1.1主从分布式结构爬虫 131

6.1.2对等分布式结构爬虫 131

6.1.2基于分布式计算平台爬虫 132

6.2网页解析 133

6.2.1状态码处理 134

6.2.2链接去重 134

6.2.3广告识别 136

6.2.4网站地图 139

6.2.5非网页数据获取 140

6.2.6网页去重 141

6.2.7链接提取 145

6.2.8爬虫协议 146

6.3网页结构化 148

6.3.1网页的编码信息 148

6.3.2网页的正文信息 149

6.3.3网页的关键词信息 153

6.3.4网页的标题 153

6.3.5网页的发布时间 155

6.3.6网页的语言检测 155

6.3.7其他结构化数据 156

6.4网页抓取策略 157

6.5爬虫权限应对 158

6.6深网抓取 161

6.7抓取更新策略 162

6.8本章小结 164

第7章 大数据构建知识图谱 165

7.1概述 165

7.1.1开放知识图谱 165

7.1.2知识图谱与认知智能 167

7.1.3图数据库:Neo4j 168

7.1.4资源描述框架:RDF 172

7.2搜索引擎与知识图谱 174

7.3可靠数据源选择 176

7.4实体抽取 177

7.5关系抽取 178

7.5.1关系抽取概述 179

7.5.2隐藏关系抽取 180

7.5.3结构化确定关系抽取 183

7.5.4非结构化确定关系抽取 185

7.6知识图谱检测 190

7.6.1实体关系修正 190

7.6.2实体对齐 191

7.6.3实体歧义分析 193

7.7知识推理与知识计算 194

7.7.1知识推理 194

7.7.2知识计算 195

7.8知识聚类 198

7.9智能搜索实现 200

7.9.1模式匹配 200

7.9.2知识拆解 201

7.9.3合并求解 203

7.10智能搜索扩展 205

7.10.1常识性智能搜索 205

7.10.2实时信息智能搜索 206

7.10.3可交互式智能搜索 207

7.11知识图谱应用 208

7.11.1问答系统 208

7.11.2情报分析 211

7.11.3智慧医疗 214

7.11.4推荐系统 215

7.12本章小结 217

第8章 索引构建机制 218

8.1倒排索引 218

8.1.1倒排索引概述 219

8.1.2索引结构 220

8.1.3构建过程 222

8.1.4排序规则 223

8.1.5索引压缩 224

8.1.6更新策略 230

8.2分布式存储 230

8.2.1存储划分方式 231

8.2.2存储平衡策略 232

8.3存储索引 237

8.3.1二叉搜索树 238

8.3.2 B树 239

8.3.3 B+树 241

8.3.4 B+树与文件索引 242

8.4字典树索引 244

8.4.1字典树索引概述 245

8.4.2字典树索引构建 247

8.4.3字典树查询优化 249

8.5本章小结 250

第9章 搜索服务构建 251

9.1概述 251

9.1.1体系结构 251

9.1.2七何分析法 252

9.1.3搜索语法 253

9.1.4相关性排序 255

9.1.5不安全信息过滤 259

9.2大数据分布式缓存 263

9.2.1缓存结构设计 263

9.2.2缓存更新策略 264

9.3文本纠错算法 265

9.3.1中文文本纠错 265

9.3.2英文文本纠错 269

9.4结果显示算法 270

9.4.1动态摘要 271

9.4.2关键词高亮算法 274

9.4.3网页快照 278

9.5搜索智能提示 278

9.6网页排序 282

9.6.1基于PageRank的网页重要性评价 282

9.6.2基于HITS算法的网页权威性评价 285

9.6.3 HillTop算法 287

9.6.4网页作弊评价 288

9.6.5网页排序调试 291

9.7个性化搜索 292

9.7.1个性化搜索示例 292

9.7.2 BP神经网络与个性化搜索 293

9.7.3地理位置搜索 294

9.8图片搜索 299

9.8.1基于内容的图片搜索 299

9.8.2基于文本的图片搜索 300

9.9搜索与广告 302

9.9.1广告投放策略 303

9.9.2基于User-Based协同过滤的广告投放 303

9.9.3基于Item-Based协同过滤的广告投放 305

9.9.4基于混合模式的广告投放 306

9.9.5广告投放评价 307

9.10搜索引擎评价 310

9.10.1搜索引擎评价概述 310

9.10.2基于准确率、召回率及F值评价 311

9.10.3归一化折扣累计增益 313

9.11本章小结 316

第10章 基于用户日志的反馈学习 318

10.1基于用户搜索词语的分析 318

10.1.1发现搜索词的价值 319

10.1.2发现不明意图下的用户行为 320

10.2基于用户点击日志的分析 321

10.2.1时间与搜索意图的关系 321

10.2.2地理位置与搜索意图的关系 322

10.2.3点击日志与同义词 324

10.2.4点击日志与词语权重 325

10.2.5点击日志与新词分类 326

10.2.6点击日志与知识图谱 328

10.2.7点击日志与网页重排序 329

10.2.8点击日志与网页评价 331

10.3基于用户的特征分析 332

10.3.1用户跟踪 333

10.3.2用户群体特征 334

10.3.3用户个体特征 336

10.4本章小结 337

致谢 338

相关图书
作者其它书籍
返回顶部