《解密搜索引擎技术实战 Lucene&Java精华版》PDF下载

  • 购买积分:16 如何计算积分?
  • 作  者:罗刚编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2011
  • ISBN:9787121133930
  • 页数:548 页
图书介绍:本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现以及在搜索引擎中的实用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍并总结了实现方法。

2.4存储URL地址 54

2.4.1 BerkeleyDB 54

2.4.2布隆过滤器 56

2.5并行抓取 59

2.5.1多线程爬虫 59

2.5.2垂直搜索的多线程爬虫 61

2.5.3异步I/O 63

2.6 RSS抓取 66

2.7抓取FTP 68

2.8下载图片 69

2.9图像的OCR识别 70

2.9.1图像二值化 71

2.9.2切分图像 73

2.9.3 SVM分类 76

2.10 Web结构挖掘 80

2.10.1存储Web图 80

2.10.2 PageRank算法 84

2.10.3 HITS算法 91

2.10.4主题相关的PageRank 95

2.11部署爬虫 96

2.12本章小结 96

第3章 索引内容提取 100

3.1从HTML文件中提取文本 101

3.1.1字符集编码 101

3.1.2识别网页的编码 104

3.1.3网页编码转换为字符串编码 107

3.1.4使用HTMLParser实现定向抓取 107

3.1.5使用正则表达式提取数据 112

3.1.6结构化信息提取 113

3.1.7网页的DOM结构 116

3.1.8使用NekoHTML提取信息 118

3.1.9网页去噪 123

3.1.10网页结构相似度计算 128

3.1.11提取标题 130

3.1.12提取日期 131

3.2从非HTML文件中提取文本 131

3.2.1提取标题的一般方法 132

3.2.2 PDF文件 136

3.2.3 Word文件 140

3.2.4 Rtf文件 141

3.2.5 Excel文件 152

3.2.6 PowerPoint文件 155

3.3提取垂直行业信息 155

3.3.1医疗行业 155

3.3.2旅游行业 156

3.4流媒体内容提取 157

3.4.1音频流内容提取 157

3.4.2视频流内容提取 161

3.5存储提取内容 162

3.6本章小结 163

第4章 中文分词原理与实现 165

4.1 Lucene中的中文分词 166

4.1.1 Lucene切分原理 166

4.1.2 Lucene中的Analyzer 168

4.1.3自己写Analyzer 169

4.1.4 Lietu中文分词 172

4.2查找词典算法 172

4.2.1标准Trie树 173

4.2.2三叉Trie树 176

4.3中文分词的原理 180

4.4中文分词流程与结构 184

4.5形成切分词图 185

4.6概率语言模型的分词方法 191

4.7 N元分词方法 195

4.8新词发现 197

4.9未登录词识别 199

4.10词性标注 200

4.10.1隐马尔可夫模型 203

4.10.2基于转换的错误学习方法 211

4.11平滑算法 213

4.12机器学习的方法 217

4.12.1最大熵 218

4.12.2条件随机场 221

4.13有限状态机 221

4.14本章小结 228

第5章 让搜索引擎理解自然语言 230

5.1停用词表 231

5.2句法分析树 233

5.3相似度计算 237

5.4文档排重 240

5.4.1语义指纹 241

5.4.2 SimHash 244

5.4.3分布式文档排重 254

5.5中文关键词提取 255

5.5.1关键词提取的基本方法 255

5.5.2 HITS算法应用于关键词提取 257

5.5.3从网页中提取关键词 259

5.6相关搜索词 260

5.6.1挖掘相关搜索词 260

5.6.2使用多线程计算相关搜索词 262

5.7信息提取 263

5.8拼写检查与建议 268

5.8.1模糊匹配问题 271

5.8.2英文拼写检查 274

5.8.3中文拼写检查 275

5.9自动摘要 278

5.9.1自动摘要技术 278

5.9.2自动摘要的设计 279

5.9.3基于篇章结构的自动摘要 285

5.9.4 Lucene中的动态摘要 285

5.10文本分类 288

5.10.1特征提取 290

5.10.2中心向量法 294

5.10.3朴素贝叶斯 296

5.10.4支持向量机 305

5.10.5多级分类 313

5.10.6规则方法 314

5.10.7网页分类 317

5.11自动聚类 318

5.11.1聚类的定义 318

5.11.2 K均值聚类方法 318

5.11.3 K均值实现 320

5.11.4深入理解DBScan算法 324

5.11.5使用DBScan算法聚类实例 326

5.12拼音转换 328

5.13概念搜索 329

5.14多语言搜索 337

5.15 跨语言搜索 338

5.16情感识别 339

5.16.1确定词语的褒贬倾向 342

5.16.2实现情感识别 343

5.16.3用户协同过滤 345

5.17本章小结 346

第6章Lucene原理与应用 348

6.1 Lucene深入介绍 349

6.1.1常用查询 349

6.1.2查询语法与解析 350

6.1.3查询原理 354

6.1.4使用Filter筛选搜索结果 355

6.1.5遍历索引库 355

6.1.6索引数值列 357

6.2 Lucene中的压缩算法 360

6.2.1变长压缩 360

6.2.2 PForDelta 362

6.2.3前缀压缩 365

6.2.4差分编码 366

6.2.5设计索引库结构 368

6.3创建和维护索引库 369

6.3.1创建索引库 369

6.3.2向索引库中添加索引文档 370

6.3.3删除索引库中的索引文档 373

6.3.4更新索引库中的索引文档 373

6.3.5索引的合并 374

6.3.6索引文件格式 374

6.3.7分发索引 377

6.3.8修复索引 380

6.4查找索引库 380

6.5读写并发控制 381

6.6优化使用Lucene 382

6.6.1索引优化 382

6.6.2查询优化 383

6.6.3实现时间加权排序 386

6.6.4实现字词混合索引 389

6.6.5重用Tokenizer 394

6.6.6定制Tokenizer 394

6.7检索模型 396

6.7.1向量空间模型 396

6.7.2 BM25概率模型 401

6.7.3统计语言模型 406

6.8查询大容量索引 408

6.9实时搜索 409

6.10本章小结 410

第7章 搜索引擎用户界面 411

7.1实现Lucene搜索 412

7.2搜索页面设计 413

7.2.1 Struts2实现的搜索界面 413

7.2.2翻页组件 414

7.3实现搜索接口 415

7.3.1编码识别 415

7.3.2布尔搜索 418

7.3.3指定范围搜索 419

7.3.4搜索结果排序 420

7.3.5搜索页面的索引缓存与更新 420

7.4历史搜索词记录 423

7.5实现关键词高亮显示 424

7.6实现分类统计视图 426

7.7实现相似文档搜索 431

7.8实现AJAX搜索联想词 433

7.8.1估计查询词的文档频率 433

7.8.2搜索联想词总体结构 434

7.8.3服务器端处理 434

7.8.4浏览器端处理 435

7.8.5服务器端改进 440

7.8.6拼音提示 443

7.8.7部署总结 444

7.9集成其他功能 444

7.9.1拼写检查 444

7.9.2分类统计 445

7.9.3相关搜索 447

7.9.4再次查找 450

7.9.5搜索日志 450

7.10搜索日志分析 452

7.10.1日志信息过滤 452

7.10.2信息统计 454

7.10.3挖掘日志信息 456

7.11本章小结 457

第8章 使用Solr实现企业搜索 458

8.1 Solr简介 459

8.2 Solr基本用法 460

8.2.1 Solr服务器端的配置与中文支持 461

8.2.2把数据放进Solr 466

8.2.3删除数据 468

8.2.4 Solr客户端与搜索界面 469

8.2.5 Solr索引库的查找 471

8.2.6 索引分发 475

8.2.7 Solr搜索优化 478

8.3从FAST Search移植到Solr 481

8.4 Solr扩展与定制 482

8.4.1 Solr中字词混合索引 483

8.4.2相关检索 484

8.4.3搜索结果去重 486

8.4.4定制输入/输出 490

8.4.5分布式搜索 494

8.4.6 Solr查询分析器 495

8.4.7扩展Solr 503

8.4.8扩展Solr 504

8.4.9查询Web图 508

8.5 Solr的.NET客户端 510

8.6 Solr的PHP客户端 516

8.7本章小结 519

第9章 地理信息系统案例分析 520

9.1新闻提取 522

9.2 POI信息提取 526

9.2.1提取主体 531

9.2.2提取地区 533

9.2.3指代消解 534

9.3本章小结 536

第10章 户外活动搜索案例分析 537

10.1爬虫 538

10.2信息提取 539

10.3活动分类 542

10.4搜索 543

10.5本章小结 544

参考资料 545