第1章 统计中文分词技术 1
1.1词法分析问题 1
1.2词典与基于规则分词 4
1.3仿词识别与最少分词技术 7
1.4基于词网格的N-gram统计分词技术 11
1.5数据平滑与专业词抽取 18
1.6本章小结 25
第2章 词性标注与序列标注 27
2.1三个序列标注问题 27
2.2隐马尔可夫序列标注 31
2.3 CRF模型与序列标注 39
2.4 CRF中文词性标注 43
2.5组合分类器的序列标注方法 46
2.6实验结果与分析 52
2.7本章小结 56
第3章 命名实体识别 58
3.1中文命名实体识别特点与任务描述 58
3.2 ME模型及其适用性 60
3.3基于ME模型的中文命名实体识别 64
3.4双层混合模型方法研究 70
3.5实验结果与分析 74
3.6本章小结 78
第4章 文本分类技术 80
4.1文本的向量空间模型 80
4.2文本相似度与kNN分类 85
4.3朴素贝叶斯文本分类 93
4.4朴素贝叶斯分类中的特征缺失补偿策略 96
4.5基于SVM的文本分类 102
4.6基于分类技术的歧义消解问题 107
4.7本章小结 112
第5章 文本聚类技术 114
5.1聚类方法与文本聚类问题 114
5.2 k-均值与k-中心点文本聚类方法 119
5.3文本层次聚类方法 124
5.4基于聚类技术的词义分析 126
5.5其他聚类方法 130
5.6本章小结 133
第6章 文本检索技术 135
6.1 Web检索系统构成与文本检索的评价 135
6.2信息检索模型与布尔模型 138
6.3向量空间模型与相关性反馈检索模型 140
6.4扩展的布尔模型与概率模型 145
6.5信息检索与信息过滤及信息推荐的关系 149
6.6本章小结 153
第7章 垃圾邮件过滤与情感分析 155
7.1垃圾邮件过滤问题与框架 155
7.2朴素贝叶斯垃圾邮件过滤方法 159
7.3 ME模型与SVM垃圾邮件过滤方法 162
7.4情感分析问题 167
7.5情感分析方法 172
7.6本章小结 181
第8章 个性化协同过滤推荐技术 183
8.1推荐问题提出 183
8.2通用推荐与个性化推荐 188
8.3基本协同过滤推荐方法 192
8.4基于SVD的协同过滤推荐 200
8.5改进协同过滤推荐方法 207
8.6本章小结 214
第9章 组合推荐技术 215
9.1基于内容的推荐技术 215
9.2基于分类技术的推荐方法 219
9.3基于推理的推荐技术 230
9.4混合推荐方法 238
9.5本章小结 242
参考文献 243