《移动搜索引擎原理与实践》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:王鹏编著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2009
  • ISBN:9787111261292
  • 页数:249 页
图书介绍:本书对从事移动搜索引擎研发所需要的技术进行了全面的介绍。

第1章 移动搜索引擎概述 1

1.1引言 1

1.2移动搜索引擎的特点 3

1.3移动搜索引擎的分类 4

1.4移动搜索引擎市场现状 4

1.5移动搜索引擎的关键技术简介 5

1.6移动搜索与3G 6

1.7小结 7

第2章 移动通信技术概述 8

2.1移动通信的分类 8

2.2全球移动通信(GSM)网络 10

2.2.1移动台(MS) 11

2.2.2基站子系统(BSS) 12

2.2.3网络子系统(NSS) 12

2.2.4操作支持子系统(OSS) 14

2.2.5移动搜索引擎与GSM网络 14

2.3GSM的升级GPRS 15

2.3.1GPRS的特点 15

2.3.2GPRS的工作原理 17

2.3.3GPRS的网络结构和网元功能 18

2.3.4GPRS各个接口协议栈的功能 20

2.4CDMA(CodeDivisionMultipleAccess) 23

2.4.1CDMA技术的标准化 23

2.4.2CDMA的优势 24

2.5短信方式下的移动搜索引擎协议 25

2.5.1SMS(ShortMessaging Service) 25

2.5.2EMS(Enhanced Messaging Service) 26

2.5.3MMS(MultimediaMessageService) 26

2.5.4SMS、EMS、MMS三者技术对比 28

2.6WAP 29

2.6.1WAP的特点 30

2.6.2WAP的优势及局限性 32

2.6.3WAP的发展前景 33

2.7CMWAP和CMNET 33

2.7.1CMWAP与CMNET的区别 34

2.7.2CMWAP与CMNET服务适用范围 35

2.8小结 37

第3章 网页抓取技术 38

3.1基于WAP的搜索引擎系统结构 38

3.2WAP爬虫基本原理 40

3.2.1网页抓取 40

3.2.2内容提取 41

3.2.3爬虫的难题 43

3.2.4爬虫更新周期 43

3.3WAP爬虫的关键技术 43

3.3.1从种子站点开始逐层抓取(逐层抓取策略) 44

3.3.2不重复抓取策略 44

3.3.3网页抓取优先策略 45

3.3.4网页重访策略 53

3.3.5Robots协议 53

3.3.6抓取提速策略 55

3.4构建垂直搜索引擎 56

3.4.1小天音乐垂直搜索引擎整体处理流程 56

3.4.2小天音乐垂直搜索引擎服务器部分源代码 59

3.5小结 60

第4章 网页信息预处理 61

4.1结构化的数据和半结构化的数据 62

4.1.1XML——最常见的结构化数据 62

4.1.2半结构化的数据 63

4.2网页信息结构化 65

4.2.1网页信息结构化的基本流程 65

4.2.2建立DOM树的原理 66

4.2.3移动网页的信息结构化 69

4.3中文分词 71

4.3.1中文分词的概念 71

4.3.2中文分词的难点 72

4.3.3基于字典的分词方法 73

4.3.4用统计学的方法解决新词识别问题 76

4.3.5主流中文搜索引擎分词效果比较 78

4.3.6典型的中文分词系统 78

4.4小结 81

第5章 建立索引和实现查询 83

5.1搜索引擎中的索引简介 83

5.1.1基于索引的搜索引擎分类 84

5.1.2索引器在搜索引擎中的作用 84

5.2建立索引 85

5.2.1倒排文件索引(InvertedFileIndex)的建立 85

5.2.2后缀数组 90

5.2.3签名文件索引(SignatureFileIndex) 95

5.3查询服务 96

5.3.1查询器的实现原理 97

5.3.2查询器的分页机制 98

5.3.3查询扩展与结果集的动态分类 98

5.4查询结果排序 100

5.4.1PageRank算法 100

5.4.2HillTop算法 104

5.4.3提升网页排序的方法 104

5.5索引设计的典型案例 106

5.6小结 107

第6章 WML转换 108

6.1标记语言简介 109

6.1.1HTML 109

6.1.2XML 110

6.1.3XHTML 112

6.1.4WML 113

6.2WAP体系与结构 114

6.2.1WAP体系结构 114

6.2.2万维网模型 117

6.2.3WAP模型 118

6.3HTML到WML的转换 120

6.3.1标记语言转换概述 120

6.3.2HTML与WML的主要语法标记 122

6.3.3HTML与WML的文档结构对比 124

6.3.4HTML与WML的转换 125

6.3.5正则表达式和Java开源项目 127

6.4衡量搜索引擎性能 137

6.4.1衡量搜索引擎的性能指标 137

6.4.2搜索引擎的评价方式 139

6.5小结 141

第7章 基于短信的移动搜索引擎 142

7.1概述 142

7.2互联网和短信并存的效应 143

7.3短信平台 145

7.4短信接入 146

7.4.1协议规范 146

7.4.2协议流程 147

7.4.3接口更改 157

7.4.4接口开发 159

7.5短信搜索的功能设计 167

7.5.1功能组织结构 167

7.5.2短信监控功能设计 167

7.5.3短信监控的数据库设计 168

7.5.4分发平台功能设计 171

7.5.5处理模块功能设计 172

7.6小结 173

第8章 并行技术在移动搜索中的应用 174

8.1并行计算 174

8.1.1并行计算的概念 174

8.1.2并行计算的发展 176

8.2MPI简述 177

8.2.1MPI的产生 178

8.2.2MPI的语言绑定 178

8.2.3目前主要的MPI实现 179

8.2.4MPI程序结构 180

8.3并行计算技术在移动搜索引擎中的应用 183

8.4并行计算技术在索引/排序部分的应用 184

8.5并行计算技术在移动搜索部分的应用 186

8.5.1高性能并行Crawler的设计和实现 187

8.5.2并行Searcher部分的设计和实现 191

8.6基于并行技术的移动搜索引擎的发展趋势 192

8.7小结 192

第9章 3G时代的移动搜索引擎展望 193

9.13G移动搜索引擎概述 193

9.1.13G时代 194

9.1.23G技术标准 195

9.1.33G移动搜索引擎趋势 197

9.2Wi-Fi技术和WiMax技术 199

9.2.1Wi-Fi技术 199

9.2.2WiMax技术 202

9.3WAP-PUSH技术 205

9.3.1WAP-PUSH的含义 206

9.3.2WAP-PUSH的框架 206

9.3.3WAP-PUSH的协议和推送方式 207

9.3.4WAP-PUSH的实现 208

9.4音频搜索技术 211

9.4.1文本搜索 211

9.4.2语音分析 211

9.5图片搜索技术 212

9.5.1图像匹配技术 212

9.5.2人脸识别技术 213

9.6视频搜索技术 215

9.6.1文本搜索 215

9.6.2语音分析 215

9.6.3视觉特征分析 216

9.73G技术条件下的其他搜索技术 218

9.7.1即时信息搜索 218

9.7.2手机购物搜索 219

9.7.3商务搜索 219

9.8小结 220

第10章 数据挖掘技术在移动搜索引擎中的应用 221

10.1数据挖掘简介 221

10.2聚类在移动搜索引擎中的应用 223

10.2.1聚类简介 223

10.2.2数据结构和数据类型 224

10.2.3聚类分析方法 228

10.2.4聚类在移动搜索引擎中的应用 230

10.3关联规则在移动搜索引擎中的应用 232

10.3.1关联规则相关概念 232

10.3.2关联规则度量 234

10.3.3关联规则分类 234

10.3.4Apriori算法 234

10.3.5频繁项集产生强关联规则 239

10.3.6关联规则在移动搜索引擎中的应用 239

10.4Web数据挖掘 241

10.4.1Web结构挖掘 242

10.4.2Web内容挖掘 244

10.4.3Web日志挖掘 245

10.5小结 247

参考文献 249