《使用C#开发搜索引擎》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:罗刚编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2012
  • ISBN:9787302270706
  • 页数:346 页
图书介绍:本书介绍如何以C#作为工具开发搜索引擎。

第1章 使用C#开发搜索引擎快速入门 1

1.1各种搜索引擎 1

1.1.1通用搜索 2

1.1.2垂直搜索 2

1.1.3站内搜索 3

1.2搜索引擎整体结构 3

1.3搜索引擎基本技术 4

1.3.1网络爬虫 4

1.3.2文本挖掘 4

1.3.3全文索引 4

1.3.4搜索语法介绍 7

1.3.5搜索用户界面 8

1.4 C#开发快速入门 9

1.4.1准备开发环境 9

1.4.2基本语法 9

1.4.3多维数组 11

1.4.4位运算 11

1.4.5枚举类型 12

1.4.6面向对象 13

1.4.7集合类 15

1.4.8泛型 17

1.4.9委托和事件 17

1.4.10类库 20

1.5本章小结 20

1.6术语表 20

第2章 使用C#开发网络爬虫 22

2.1网络爬虫抓取原理 22

2.2爬虫架构 24

2.2.1基本架构 25

2.2.2分布式爬虫架构 26

2.2.3垂直爬虫架构 27

2.3下载网页 28

2.3.1 HTTP协议 28

2.3.2下载静态网页 31

2.3.3下载动态网页 35

2.4网络爬虫遍历与实现 42

2.5网站地图 44

2.6连接池 44

2.7 URL地址查新 45

2.7.1嵌入式数据库 46

2.7.2布隆过滤器 48

2.8抓取RSS 50

2.9解析相对地址 53

2.10网页更新 53

2.11信息过滤 56

2.12垂直行业抓取 60

2.13抓取限制应对方法 60

2.13.1更换IP地址 61

2.13.2抓取需要登录的网页 64

2.13.3抓取ASP. NET网页 66

2.14保存信息 69

2.14.1存入数据库 69

2.14.2存成图像 70

2.15 日志 71

2.16本章小结 74

2.17术语表 75

第3章 索引各种格式文档 78

3.1从HTML文件中提取信息 78

3.1.1识别网页的编码 78

3.1.2正则表达式 80

3.1.3 Html Agility Pack介绍 84

3.1.4网页正文提取 88

3.1.5结构化信息提取 100

3.1.6查看网页的DOM结构 104

3.1.7网页结构相似度计算 106

3.2从非HTML文件中提取文本 109

3.2.1 TEXT文件 109

3.2.2 PDF文件 109

3.2.3 Office文件 112

3.2.4 Rtf文件 113

3.3本章小结 114

3.4术语表 114

第4章 自然语言处理 115

4.1统计机器学习 115

4.2文档排重 121

4.3中文关键词提取 129

4.3.1关键词提取的基本方法 129

4.3.2从网页中提取关键词 132

4.4相关搜索 132

4.5拼写检查 133

4.5.1拼写检查的概率模型 134

4.5.2模糊匹配问题 134

4.5.3英文拼写检查 138

4.5.4中文拼写检查 141

4.6文本摘要 142

4.6.1文本摘要的设计 142

4.6.2实现文本摘要技术 143

4.6.3 Lucene.Net中的动态摘要 148

4.7文本分类 149

4.7.1自动分类的接口定义 149

4.7.2自动分类的实现 149

4.8自动聚类 151

4.8.1文档相似度 151

4.8.2 K均值聚类方法 154

4.8.3 K均值实现 155

4.9拼音转换 157

4.10句法分析树 157

4.11信息提取 164

4.12本章小结 171

4.13术语表 172

第5章用C#实现中文分词 174

5.1汉语中的词 174

5.2文本切分的基本方法 174

5.3有限状态机 177

5.4查找词典算法 179

5.4.1标准Trie树 180

5.4.2三叉Trie树 185

5.5中文分词的原理 189

5.6中文分词流程与结构 192

5.7切分词图 193

5.7.1保存切分词图 194

5.7.2生成全切分词图 198

5.8概率语言模型的分词方法 201

5.8.1一元模型 201

5.8.2 N元模型 204

5.9最大熵 208

5.10未登录词识别 210

5.11词性标注 210

5.12地名切分 220

5.12.1地址类性标注 220

5.12.2未登录词识别 220

5.13本章小结 222

5.14术语表 223

第6章Lucene.Net原理与应用 224

6.1 Lucene.Net快速入门 224

6.1.1索引文档 225

6.1.2搜索文档 226

6.1.3 Lucene.Net结构 228

6.2 Lucene.Net深入介绍 229

6.2.1索引原理 229

6.2.2分析文本 231

6.2.3遍历索引库 234

6.2.4检索模型 235

6.2.5收集最相关的文档 236

6.3索引中的压缩算法 240

6.3.1变长压缩 241

6.3.2差分编码 242

6.4创建和维护索引库 243

6.4.1设计一个简单的索引库 243

6.4.2创建索引库 244

6.4.3向索引库中添加索引文档 245

6.4.4删除索引库中的索引文档 247

6.4.5更新索引库中的索引文档 247

6.4.6索引的优化与合并 248

6.5查找索引库 248

6.5.1布尔查询 249

6.5.2同时查询多列 252

6.5.3跨度查询 253

6.5.4通配符查询 256

6.5.5过滤 256

6.5.6按指定列排序 258

6.5.7查询大容量索引 263

6.5.8函数查询 265

6.5.9定制相似性 268

6.5.10评价搜索结果 269

6.6中文信息检索 269

6.6.1 Lucene.Net中的中文处理 270

6.6.2 Lietu中文分词的使用 270

6.6.3定制Tokenizer 271

6.6.4解析查询串 273

6.6.5实现字词混合索引 276

6.7抓取数据库中的内容 280

6.7.1读取数据 280

6.7.2数据同步 282

6.8概念搜索 282

6.9本章小结 285

6.10术语表 286

第7章 实现搜索用户界面 287

7.1搜索页面设计 287

7.1.1用于显示搜索结果的 ASP.NET 287

7.1.2搜索结果分页 290

7.1.3设计一个简单的搜索页面 291

7.2实现搜索接口 291

7.2.1 Lucene.Net搜索接口 291

7.2.2指定范围搜索 296

7.2.3搜索页面的索引缓存与更新 297

7.3实现关键词高亮显示 300

7.4实现分类统计视图 301

7.4.1搜索结果分类统计与导航 301

7.4.2层次树 305

7.5相关搜索词 307

7.6实现AJAX自动完成 308

7.6.1总体结构 308

7.6.2服务器端处理 310

7.6.3浏览器端处理 310

7.7集成其他功能 312

7.7.1拼写检查 313

7.7.2再次查找 313

7.7.3黑名单 314

7.7.4搜索日志 315

7.8本章小结 316

第8章 使用Solr开发网站搜索 317

8.1搜索服务器端 317

8.8.1 Solr结构 317

8.1.2启动Solr服务器 318

8.1.3配置支持中文的Solr 321

8.1.4索引数据 324

8.1.5查询功能 325

8.1.6高亮 328

8.2 Solr的.NET客户端 329

8.2.1使用SolrNet 329

8.2.2实现多分类 336

8.2.3分类统计 338

8.3查询语法 341

8.3.1对空格的支持 341

8.3.2日期加权 342

8.4索引分布 344

8.5本章小结 345