第1章 文本检索技术 1
1.1基于索引的检索技术 1
1.2文本提取 2
1.3文本预处理 3
1.3.1停用词删除 4
1.3.2词干提取 4
1.3.3索引词选择 4
1.3.4建立词典 5
1.4索引 5
1.5文本检索模型 7
1.5.1布尔模型 8
1.5.2向量空间模型 8
1.5.3概率论模型 9
1.5.4 PageRank模型 10
1.6分布式搜索引擎 12
1.6.1分布式元搜索引擎 13
1.6.2散列式分布搜索引擎 13
1.6.3局部遍历型搜索引擎 14
1.6.4 P2P分布式搜索引擎 15
参考文献 16
第2章 文本自动分词 18
2.1基于字符串匹配的正向最大匹配算法 18
2.2基于简码匹配的Hash分词算法 20
2.2.1简码匹配方式 20
2.2.2 Hash分词算法 21
2.2.3消歧融入切分过程 22
2.2.4基于简码的Hash算法 23
2.2.5平均匹配次数的理论分析 25
2.2.6分词测试及结果 27
2.3基于统计的分词方法 30
参考文献 30
第3章 概念语义空间 32
3.1基于奇异值分解的潜在语义索引方法 32
3.2基于非负矩阵分解的潜在语义索引方法 33
3.2.1 NMF问题的提出 33
3.2.2目标函数 34
3.2.3 NMF方法的迭代规则 34
3.2.4 NMF的非唯一性 35
3.2.5基于NMF的概念语义生成 35
3.2.6其他NMF方法 37
3.3 NMF方法与SVD方法的比较 38
3.3.1问题本质 38
3.3.2概念语义向量的特点 38
3.3.3概念语义向量的解释 39
3.3.4 NMF方法与SVD方法敏感性的比较 39
3.3.5 NMF方法与SVD方法检索性能的比较 40
参考文献 41
第4章 基于本体的文本检索技术 42
4.1本体定义 42
4.2描述逻辑 44
4.2.1描述逻辑ALC 44
4.2.2描述逻辑ALC的构造子扩展 46
4.3本体语言 49
4.3.1可扩展标记语言XML 50
4.3.2资源描述框架RDF 54
4.3.3本体语言OWL 59
4.4基于本体的文本检索技术 64
4.4.1本体构建 64
4.4.2语义标注 70
4.4.3语义查询 72
参考文献 77
第5章 基于内容的图像检索 82
5.1基于内容的图像检索的原因 82
5.2基于内容的图像检索概述 82
5.2.1基于视觉特征的图像检索 83
5.2.2基于对象类型的图像检索 83
5.2.3基于抽象属性的图像检索 83
5.3 Web图像检索 83
参考文献 84
第6章 MPEG-7标准中图像的视觉特征 86
6.1图像的颜色特征 86
6.1.1颜色空间 86
6.1.2颜色量化 90
6.1.3主颜色 91
6.1.4可伸缩颜色 93
6.1.5颜色布局 94
6.1.6颜色结构 97
6.2图像的纹理特征 100
6.2.1同质纹理 100
6.2.2纹理浏览 106
6.2.3边缘直方图 110
6.3图像的形状特征 113
6.3.1基于区域的形状 113
6.3.2基于轮廓的形状 116
参考文献 120
第7章 图像的局部特征 122
7.1图像兴趣点和兴趣区域的发现器 122
7.1.1 Harris兴趣点发现器 122
7.1.2 Harris-Laplace兴趣区域发现器 124
7.1.3 Hessian-Laplace兴趣区域发现器 125
7.1.4高斯差分金字塔 125
7.2尺度不变特征变换SIFT 125
7.2.1 SIFT特征的提取 125
7.2.2 SIFT兴趣点的匹配 129
7.2.3与SIFT有关的其他局部特征 130
7.3方向可调滤波器 130
7.4形状上下文 132
7.5矩不变量 133
参考文献 134
第8章 基于视觉特征的图像检索技术 135
8.1图像分割技术 136
8.1.1图像分割概念 136
8.1.2图像分割算法 137
8.1.3分割方法存在的问题 141
8.2相似性度量 142
8.2.1几何模型 142
8.2.2相关计算模型 143
8.2.3关联系数模型 144
8.3索引 144
8.3.1高维索引方法 144
8.3.2降维方法 146
8.3.3近似最近邻方法 147
8.3.4单一维空间映射方法 148
8.3.5多重空间填充曲线方法 148
8.3.6基于过滤的方法 148
8.4相关反馈技术 149
8.5图像检索系统性能的评价准则 151
8.6基于视觉特征的图像检索系统 151
参考文献 153
第9章 基于语义的图像检索技术 157
9.1图像标注技术的概况 157
9.2图像标注系统的工作原理 159
9.3基于MPEG-7的图像标注技术 160
9.3.1 SVM分类器 160
9.3.2基于MPEG-7的图像标注技术 166
9.4基于特征选择的图像标注技术 167
9.4.1遗传算法的基本思想 167
9.4.2基于二进制编码遗传算法的最优特征子集选择方法 168
9.4.3基于双编码遗传算法的最优加权特征子集选择方法 170
9.4.4基于特征选择的图像标注技术 172
9.5基于Adaboost算法的图像标注技术 172
9.5.1 Adaboost算法 173
9.5.2 k-NN分类器 175
9.5.3主从式并行遗传算法的实现 176
9.5.4图像标注技术 179
9.6基于类对特征选择的图像标注技术 180
9.7实验结果 181
9.8大规模图像的标注技术 182
9.8.1 WordNet简介 183
9.8.2基于WordNet的图像标注技术 184
9.8.3小结 187
参考文献 187
第10章 Web图像的检索技术 190
10.1 Web图像搜索引擎的工作原理 190
10.2 Web图像的抓取 191
10.3网页文本信息的挖掘 193
10.3.1网页上的文本信息源 193
10.3.2标注精炼 195
10.4图像排序 200
10.5搜索结果重排 200
10.5.1基于相关反馈的结果重排 200
10.5.2基于PageRank的结果重排 202
参考文献 204
第11章 基于内容的视频检索技术 205
11.1基于内容的视频检索技术的基础 205
11.2当前的基于内容的视频检索技术 207
11.3存在的问题 209
参考文献 210
第12章 视频的结构化技术 212
12.1镜头的边界检测 213
12.1.1非压缩域内镜头边界检测算法 213
12.1.2压缩域内镜头边界检测算法 216
12.2镜头关键帧的提取 217
12.3视频的特征提取 218
12.4视频结构化中的关键技术 220
参考文献 221
第13章 语音识别技术 222
13.1语音识别技术的发展历程 222
13.2语音识别系统的工作原理 223
13.3梅尔频率倒谱系数 224
13.3.1语音信号预处理 224
13.3.2离散Fourier变换 225
13.3.3取能量 226
13.3.4梅尔尺度滤波器组 226
13.3.5取对数 226
13.3.6离散余弦变换 226
13.3.7梅尔频率倒谱系数 226
13.4 HMM模型 227
13.5语言模型 228
参考文献 229
第14章 视频的标注技术 230
14.1视频的标注技术概述 230
14.2特定领域内的视频标注技术 231
14.2.1视频场景分析 232
14.2.2视频精彩片段提取 232
14.2.3视频事件检测 232
14.3视频的多标签标注技术 233
14.3.1独立概念标注技术 234
14.3.2概念融合标注技术 234
14.3.3同时发现概念和概念间相互关系的标注技术 235
14.4主动学习方法在视频标注中的应用 236
参考文献 238