搜索引擎零距离 基于Ruby+Java搜索引擎原理与实现PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:王亮编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2009
- ISBN:9787302201472
- 页数:394 页
第1章 网页数据挖掘 1
1.1 网页数据挖掘定义 1
1.2 Web数据挖掘面临的问题 1
1.3 Web数据挖掘的分类 1
1.4 网页数据的结构与特点 3
1.4.1 HTML超文本标记语言 3
1.4.2 WML无线标记语言 4
1.5 网页数据挖掘的基本方法 6
1.5.1 预备知识 7
1.5.2 变量模板匹配方法 8
1.5.3 树节点直接标识方法 10
1.5.4 语义规则识别方法 13
第2章 智能网络爬虫 14
2.1 智能网络爬虫的定义与特点 14
2.2 抓取入口定义 14
2.3 次级页面自动发现 15
2.4 次级页面地址拼接 16
2.5 已爬地址处理 17
2.6 信息采集强度控制 19
2.7 模拟用户登录 19
2.8 验证码识别 20
2.9 代理服务器设置 20
2.10 JavaScript解析控制 21
第3章 网页信息挖掘专用程序设计语言IRS 23
3.1 IRS语言的简介与设计原则 23
3.2 IRS脚本语法结构 23
3.2.1 页面配置块 23
3.2.2 页面名语句 23
3.2.3 爬虫配置声明语句 24
3.2.4 入口声明语句 24
3.2.5 编码配置 26
3.2.6 步长配置 26
3.2.7 重试次数配置 27
3.2.8 正则模式匹配语句 27
3.2.9 匹配名声明 28
3.2.10 lEE表达式 28
3.2.11 模式匹配修饰符 29
3.2.12 节点模式匹配语句 32
3.2.13 次级页面入口语句 33
3.2.14 保存语句 35
3.2.15 Ruby控制语句 35
3.2.16 爬虫配置语句 37
3.2.17 系统配置语句 37
3.2.18 外部配置文件. 38
3.2.19 执行语句块 39
3.2.20 IRQL存储语句 40
3.2.21 IRQL语言中的数据表 44
3.2.22 IRQL内部函数 49
3.2.23 实例解析 55
第4章 IRS虚拟机及编译器实现原理 69
4.1 Ruby基本语法 70
4.1.1 字句构造和表达式 70
4.1.2 字面值 71
4.1.3 控制结构 74
4.1.4 类和方法的定义 80
4.1.5 运算符表达式 84
4.1.6 变量和常量 89
4.1.7 方法调用 91
4.2 Java与JRuby的整合 93
4.2.1 Java中的Ruby运行库环境 93
4.2.2 IRSReflectionCallback类实现 94
4.2.3 在Java中编译执行Ruby脚本 99
4.2.4 Java内嵌Ruby方法总结 100
4.3 词法分析和语法分析 101
4.3.1 定义与简介 101
4.3.2 SableCC 103
4.4 IRS语言的语义分析 137
4.5 IRVM虚拟机主类 146
4.5.1 generateEntrance() 147
4.5.2 getContent() 149
4.5.3 match() 160
4.5.4 Save() 174
4.5.5 compileAndRun() 198
第5章 搜索引擎设计原理 200
5.1 概述 200
5.2 Lucene搜索引擎的原理 205
5.2.1 工作方式 205
5.2.2 基本概念 206
5.2.3 包结构 207
5.2.4 索引操作 208
5.2.5 搜索 210
5.2.6 分析器 214
5.2.7 性能优化 215
5.2.8 并行集群 216
5.3 Hadoop搜索引擎的原理 220
5.3.1 组成结构 220
5.3.2 开发与使用 222
5.4 Nutch搜索引擎的原理 226
5.4.1 简介 226
5.4.2 插件体系 226
5.4.3 数据获取与分析 228
5.5 Compass搜索引擎的原理 264
5.5.1 功能增强 264
5.5.2 API简化 265
5.5.3 编程方式 265
5.6 Solr搜索引擎的原理 266
5.6.1 概述 266
5.6.2 使用Solr 269
第6章 搜索引擎的商业化实现 275
6.1 索引 275
6.1.1 Solr实现 275
6.1.2 MySE实现 279
6.1.3 总结 317
6.2 查询 317
6.2.1 Solr实现 317
6.2.2 MySE实现 318
6.2.3 总结 358
第7章 Hivemind 359
7.1 模块 359
7.2 子模块与依赖性 360
7.3 服务点 361
7.4 拦截器 362
7.5 配置点 363
7.6 符号资源 364
7.7 转换器 365
7.8 对象提供器 368
7.9 服务模型 370
7.10 启动&预加载 373
7.11 服务构造器 376
后记与感谢 393
- 《汞的分子转化与长距离传输》(中国)史建波,阴永光,江桂斌 2019
- 《数据空间中基于语义的实体搜索》杨丹著 2019
- 《SEO搜索引擎优化 基础、案例与实战 第2版》杨韧 2020
- 《自己动手做推荐引擎》(印)苏雷什·库马尔·戈拉卡拉(Suresh Kumar Gorakala)著 2020
- 《单招零距离 总复习方案 电子电工专业综合(试卷)》成荣春,唐万盈,刘克军主编
- 《拉开距离看人生》(德)苏珊娜·霍夫迈斯特(Susanne Hofmeister)著 2018
- 《黄帝思想与中华引擎 2》廖凯原主编 2018
- 《2016届高考引擎·破釜沉舟》高考引擎编委会主编 2016
- 《2016届高考引擎·志在必得》高考引擎编委会主编 2016
- 《培训引擎 卓越培训十步法》(美)Elaine Biech 2018
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019