自己动手写搜索引擎PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:罗刚编著
- 出 版 社:北京:电子工业出版社
- 出版年份:2009
- ISBN:9787121096402
- 页数:356 页
第1章 遍历搜索引擎技术 1
1.1 30分钟实现的搜索引擎 1
1.1.1准备工作环境(10分钟) 1
1.1.2编写代码(15分钟) 3
1.1.3发布运行(5分钟) 5
1.2 Google神话 9
1.3体验搜索引擎 9
1.4搜索语法 10
1.5你也可以做搜索引擎 13
1.6搜索引擎基本技术 14
1.6.1网络蜘蛛 14
1.6.2全文索引结构 14
1.6.3 Lucene全文检索引擎 15
1.6.4 Nutch网络搜索软件 16
1.6.5用户界面 17
1.7商业搜索引擎技术介绍 19
1.7.1通用搜索 19
1.7.2垂直搜索 20
1.7.3站内搜索 21
1.7.4桌面搜索 23
1.8本章小结 24
第2章 获得海量数据 25
2.1自己的网络蜘蛛 25
2.1.1抓取网页 25
2.1.2网络蜘蛛遍历与实现 26
2.1.3改进网络蜘蛛 30
2.1.4 MP3抓取 34
2.1.5 RSS抓取 36
2.1.6图片抓取 38
2.1.7垂直行业抓取 39
2.2抓取数据库中的内容 42
2.2.1建立数据视图 42
2.2.2 JDBC数据库连接 43
2.2.3增量抓取 45
2.3抓取本地硬盘上的文件 47
2.4本章小结 49
第3章 提取文档中的文本内容 50
3.1从HTML文件中提取文本 50
3.1.1 HtmlParser介绍 53
3.1.2结构化信息提取 63
3.1.3查看网页的DOM结构 68
3.1.4正文提取的工具NekoHTML 71
3.1.5网页去噪 73
3.1.6网页结构相似度计算 76
3.1.7网站风格树去除文档噪声 80
3.1.8正文提取 92
3.2从非HTML文件中提取文本 98
3.2.1 TEXT文件 98
3.2.2 PDF文件 98
3.2.3 Word文件 105
3.2.4 RTF文件 106
3.2.5 Excel文件 107
3.2.6 PowerPoint文件 108
3.3流媒体内容提取 109
3.3.1音频流内容提取 109
3.3.2视频流内容提取 111
3.4抓取限制应对方法 113
3.5本章小结 114
第4章 中文分词 115
4.1 Lucene中的中文分词 115
4.2 Lietu中文分词的使用 116
4.3中文分词的原理 117
4.4查找词典算法 118
4.5最大概率分词方法 123
4.6新词发现 127
4.7词性标注 129
4.8本章小结 139
第5章 自然语言处理 140
5.1语法解析树 140
5.2文档排重 141
5.3中文关键词提取 142
5.3.1关键词提取的基本方法 142
5.3.2从网页中提取关键词 145
5.4相关搜索 145
5.5拼写检查 148
5.5.1英文拼写检查 148
5.5.2中文拼写检查 149
5.6自动摘要 153
5.6.1自动摘要技术 153
5.6.2自动摘要的设计 154
5.6.3 Lucene中的动态摘要 162
5.7自动分类 163
5.7.1 Classifiier4J 164
5.7.2自动分类的接口定义 165
5.7.3自动分类的SVM方法实现 166
5.7.4多级分类 167
5.8自动聚类 170
5.8.1聚类的定义 170
5.8.2 K均值聚类方法 170
5.8.3 K均值实现 173
5.9拼音转换 179
5.10语义搜索 180
5.11跨语言搜索 186
5.12本章小结 188
第6章 创建索引库 189
6.1设计索引库结构 190
6.1.1理解Lucene的索引库结构 190
6.1.2设计一个简单的索引库 192
6.2创建和维护索引库 193
6.2.1创建索引库 193
6.2.2向索引库中添加索引文档 194
6.2.3删除索引库中的索引文档 196
6.2.4更新索引库中的索引文档 197
6.2.5索引的合并 197
6.2.6索引的定时更新 197
6.2.7索引的备份和恢复 198
6.2.8修复索引 199
6.3读写并发控制 200
6.4优化使用Lucene 200
6.4.1索引优化 201
6.4.2查询优化 202
6.4.3实现时间加权排序 206
6.4.4实现字词混合索引 207
6.4.5定制Similarity 214
6.4.6定制Tokenizer 215
6.5查询大容量索引 217
6.6本章小结 218
第7章 用户界面设计与实现 219
7.1 Lucene搜索接口(search代码) 219
7.2搜索页面设计 221
7.2.1用于显示搜索结果的taglib 221
7.2.2用于搜索结果分页的taglib 223
7.2.3设计一个简单的搜索页面 225
7.3实现搜索接口 227
7.3.1布尔搜索 227
7.3.2指定范围搜索 228
7.3.3搜索结果排序 233
7.3.4搜索页面的索引缓存与更新 234
7.4实现关键词高亮显示 236
7.5实现分类统计视图 239
7.6实现相似文档搜索 244
7.7实现AJAX自动完成 246
7.7.1总体结构 247
7.7.2服务器端处理 247
7.7.3浏览器端处理 249
7.7.4服务器端改进 250
7.7.5部署总结 261
7.8 jQuery实现的自动完成 262
7.9集成其他功能 267
7.9.1拼写检查 267
7.9.2分类统计 267
7.9.3相关搜索 271
7.9.4再次查找 274
7.9.5搜索日志 275
7.10搜索日志分析 276
7.11本章小结 280
第8章 其他高级主题 281
8.1使用Solr实现分布式搜索 281
8.1.1 Solr服务器端的配置与中文支持 282
8.1.2把数据放进Solr 287
8.1.3删除数据 289
8.1.4客户端搜索界面 290
8.1.5 Solr索引库的查找 292
8.1.6索引分发 294
8.1.7 Solr搜索优化 298
8.1.8 Solr中字词混合索引 302
8.1.9相关检索 304
8.1.10搜索结果去重 307
8.1.11分布式搜索 311
8.1.12 SolrJ查询分析器 315
8.1.13扩展SolrJ 325
8.1.14扩展Solr 327
8.1.15 Solr的.NET客户端 333
8.1.16 Solr的PHP客户端 334
8.2图像的OCR识别 336
8.3竞价排名 343
8.4 Web图分析 344
8.5使用并行程序分析数据 350
8.6 RSS搜索 351
8.7本章小结 353
参考资料 354
- 《数据空间中基于语义的实体搜索》杨丹著 2019
- 《SEO搜索引擎优化 基础、案例与实战 第2版》杨韧 2020
- 《自己动手做推荐引擎》(印)苏雷什·库马尔·戈拉卡拉(Suresh Kumar Gorakala)著 2020
- 《秦晋豫新出墓志搜佚 2》赵君平,赵文成编 2012
- 《黄帝思想与中华引擎 2》廖凯原主编 2018
- 《秦晋豫新出墓志搜佚 4》赵君平,赵文成编 2012
- 《秦晋豫新出墓志搜佚 3》赵君平,赵文成编 2012
- 《秦晋豫新出墓志搜佚 1》赵君平,赵文成编 2012
- 《2016届高考引擎·破釜沉舟》高考引擎编委会主编 2016
- 《2016届高考引擎·志在必得》高考引擎编委会主编 2016
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017