第1篇 背景知识 1
第1章 绪论 1
1.1 信息及其分类 1
1.2 信息检索的起源和发展 2
1.2.1 手工检索 2
1.2.2 脱机批处理检索 2
1.2.3 联机检索 3
1.2.4 光盘检索 3
1.2.5 网络信息检索 3
1.3 信息检索与其他学科的关系 4
1.4 本书主要关注的内容及知识点间的联系 5
1.5 本章小结 6
参考文献 7
第2章 信息智能处理关键技术综述 8
2.1 自然语言处理及中文分词 8
2.1.1 基于词典匹配的中文分词法 9
2.1.2 基于词频统计的无词典中文分词法 10
2.2 异构信息处理与内容表示 11
2.3 文本挖掘 11
2.4 实体关系抽取 11
2.5 命名实体识别 12
2.6 话题跟踪 13
2.7 文本分类 13
2.7.1 基于统计和分词的方法 14
2.7.2 基于向量空间模型的方法 14
2.7.3 基于知识工程的分类方法 14
2.8 文本情感分析 14
2.9 文本聚类 16
2.10 自动摘要 16
2.11 全文检索 17
2.12 语义Web与信息集成 19
2.13 大数据处理与Hadoop开源系统 20
2.13.1 Hadoop简介 20
2.13.2 HBase简介 21
2.13.3 Hive简介 21
2.13.4 Pig简介 21
2.13.5 Cassandra简介 22
2.13.6 Chukwa简介 22
2.14 本章小结 22
参考文献 22
第3章 搜索引擎与信息检索综述 27
3.1 搜索引擎概述 27
3.2 搜索引擎的发展历程 28
3.3 搜索引擎的分类 29
3.3.1 目录索引式搜索引擎 29
3.3.2 自动式搜索引擎 29
3.3.3 元搜索引擎 29
3.3.4 分布式搜索引擎 30
3.4 网络信息检索与处理的基本流程 30
3.4.1 网络信息获取 30
3.4.2 信息抽取 32
3.4.3 信息加工 33
3.4.4 信息检索与结果提供 35
3.5 开源研发工具 35
3.5.1 Lucene 35
3.5.2 Lemur 37
3.5.3 LIUS 37
3.5.4 Egothor 37
3.5.5 Xapian 37
3.5.6 Sphinx 38
3.6 信息检索评测 38
3.6.1 TREC评测 38
3.6.2 其他评测:NTCIR、CLEF、SEWM 39
3.7 信息检索模型与基本方法 39
3.7.1 布尔检索模型 40
3.7.2 概率检索模型 41
3.7.3 向量空间模型 41
3.7.4 模糊检索模型 42
3.7.5 逻辑检索模型 42
3.7.6 概念检索 43
3.7.7 案例检索 44
3.8 信息检索系统的性能评价指标 44
3.9 信息检索系统的体系结构 46
3.10 本章小结 46
参考文献 46
第2篇 信息处理 48
第4章 海量异构信息采集 48
4.1 概述 48
4.2 相关工作综述与扩展阅读 48
4.3 海量异构信息的获取与处理 50
4.3.1 异构数据整合 50
4.3.2 爬虫设计 50
4.3.3 异构数据处理 53
4.4 基于网站优先级调整的信息动态采集算法 55
4.4.1 网页时新度的确定 56
4.4.2 基于网页时新度的网站优先级调整思路 57
4.4.3 基于网站优先级的多线程网页信息采集技术 58
4.4.4 根据网页类别确定优先级 59
4.4.5 实验及结果分析 59
4.5 本章小结 63
参考文献 63
第5章 网页正文提取与解析 65
5.1 概述 65
5.2 相关工作综述与扩展阅读 66
5.3 基于DOM的网页正文提取与解析 67
5.3.1 DOM规范简述 67
5.3.2 算法描述 68
5.4 基于文字密度的网页正文提取 70
5.4.1 算法流程图 71
5.4.2 网页源码预处理 71
5.4.3 网页正文源码行中文密度的计算 72
5.4.4 网页源码正文分块 72
5.4.5 网页正文识别 72
5.4.6 网页原始格式的保留问题 74
5.4.7 实验设计与数据分析 74
5.5 本章小结 75
参考文献 75
第6章 实体关系抽取 76
6.1 概述 76
6.2 相关工作综述与扩展阅读 76
6.2.1 基于模板的方法 77
6.2.2 基于特征的实体关系抽取 77
6.2.3 基于Kernel的实体关系抽取 77
6.2.4 基于无指导的学习方法 78
6.3 核函数 78
6.3.1 核函数的基本数学性质 79
6.3.2 常用的核函数 80
6.4 特征核函数 80
6.4.1 定义 80
6.4.2 句法核函数 81
6.4.3 组合核函数 83
6.5 未使用Bootstrapping算法的实体关系自动抽取 83
6.5.1 系统模型 83
6.5.2 实验数据集 84
6.5.3 实验结果 84
6.6 基于Bootstrapping算法的实体关系自动抽取 85
6.6.1 系统模型 85
6.6.2 实验结果 85
6.7 本章小结 87
参考文献 87
第7章 命名实体识别及话题跟踪 89
7.1 概述 89
7.2 相关工作综述与扩展阅读 89
7.2.1 命名实体识别研究概况及发展趋势 89
7.2.2 话题跟踪的相关研究 90
7.3 将时间信息用于话题跟踪 91
7.3.1 时间信息识别 91
7.3.2 时间信息的规范 92
7.3.3 时间信息的相似度计算 94
7.3.4 时间信息抽取性能评估 95
7.4 标题信息用于话题跟踪 96
7.5 话题跟踪模型 96
7.6 实验结果与分析 97
7.6.1 新闻正文抽取 97
7.6.2 新闻标题抽取 98
7.6.3 新闻发布时间的抽取 99
7.6.4 实验结果 99
7.7 本章小结 101
参考文献 102
第8章 主题概念自动标引 103
8.1 概述 103
8.2 相关工作综述与扩展阅读 103
8.3 基于概念分析的主题词自动标引 105
8.3.1 文章模型建立 105
8.3.2 主题词自动标引算法 105
8.3.3 主题概念权值的设定 110
8.3.4 同(近)义词、忽略词和用户自定义词的处理 112
8.3.5 基于频率统计和规则过滤的未登录词识别与处理 115
8.4 基于遗传算法的主题概念权值学习与调整算法 120
8.4.1 编码设计 120
8.4.2 适应性函数 120
8.4.3 选择策略 121
8.4.4 变异策略 121
8.4.5 杂交策略 122
8.4.6 学习算法 122
8.5 算法实验与性能分析 124
8.5.1 实验环境与实验数据 124
8.5.2 实验评价标准 124
8.5.3 各领域标引结果满意度测试 125
8.5.4 基于遗传算法的主题概念权值学习与调整实验 127
8.6 下一步的研究计划 128
8.7 本章小结 128
参考文献 128
第9章 文本自动摘要 130
9.1 概述 130
9.2 相关工作综述与扩展阅读 130
9.3 基于主题标引相似计算的文本自动摘要 132
9.3.1 文档结构模型表示 133
9.3.2 主题词串的向量化与构建文档向量空间模型 134
9.3.3 计算文档结构各部分的权重 135
9.3.4 正规则、负规则、用户倾向性词表的定义与应用 136
9.3.5 基于语句相似度的语句冗余度算法以及摘要句冗余度阈值的使用 136
9.3.6 摘要和原文比例的确定以及摘要生成 138
9.3.7 预处理网页正文对提高摘要准确性的作用 139
9.3.8 提高摘要算法实时性的措施 141
9.4 算法实验及性能分析 141
9.5 本章小结 143
参考文献 143
第10章 文本自动分类 145
1O.1 概述 145
10.2 相关工作综述与扩展阅读 147
10.3 算法流程 150
10.4 文本表示模型 151
10.4.1 基于主题词向量模板的文本表示模型 151
10.4.2 基于特征词哈希表的文本表示模型 152
10.5 两种辅助算法 153
10.5.1 改进的向量内积算法 153
10.5.2 改进的相似度算法 154
10.6 类别中心向量分类算法 154
10.6.1 算法主要步骤 154
10.6.2 类别中心向量修正 155
10.7 算法性能分析 157
10.7.1 两种向量表示方法的性能比较 157
10.7.2 类别中心向量分类算法的实验及分析 160
10.8 无分词分类算法 161
10.8.1 基于单字计算的文本分类算法 162
10.8.2 特征向量生成 162
10.8.3 相似度计算 163
10.8.4 实验结果分析 164
10.9 本章小结 169
参考文献 169
第3篇 应用 171
第11章 网络信息检索系统的设计与实现 171
11.1 “艺海拾贝”搜索引擎的设计与实现 171
11.1.1 系统特点 172
11.1.2 网络爬虫 172
11.1.3 信息检索与结果输出 178
11.1.4 系统总体架构与特点 179
11.1.5 目前尚存的主要问题及下一步的工作 180
11.2 “校园采风”搜索引擎的设计与实现 181
11.2.1 概述 181
11.2.2 网页采集 182
11.3 海量异构信息检索原型系统的设计与实现 184
11.3.1 各模块主要功能与实现 184
11.3.2 系统运行效果 186
11.4 本章小结 189
参考文献 189
第12章 文献共享平台与数字图书馆的设计与实现 190
12.1 概述 190
12.2 信息抽取与异构数据表示 190
12.2.1 开源HTML解析工具简介 191
12.2.2 基于XML的信息组织 191
12.3 科技文献共享平台设计与实现 192
12.3.1 系统需求分析 192
12.3.2 系统设计 193
12.3.3 访问CNKI中国期刊全文数据库 196
12.4 本章小结 200
参考文献 200
第13章 信息可视化技术及其实现 201
13.1 概述 201
13.2 可视化类库与工具 201
13.2.1 TouchGraph 201
13.2.2 Prefuse和Flare 202
13.2.3 JGraphX/mxGraph 202
13.3 基于Prefuse可视化技术的网络链接分析 202
13.3.1 问题和目标 202
13.3.2 设计思路 203
13.3.3 实现方案 203
13.3.4 系统实现 209
13.3.5 实验结果 214
13.4 本章小结 215
参考文献 215