第1章 引言 1
1.1 文本分析简介 1
1.2 技术发展历程 5
1.3 应用现状 7
1.4 小结 12
第2章 常用的数学基础 13
2.1 机器学习的处理过程 13
2.2 数学工具 16
2.3 归一化与正则化 18
第3章 分词 23
3.1 分词的基本原理 23
3.2 分词中的序列标注方法 28
3.3 深度学习下的分词 37
3.4 词性标注 43
3.5 分词技术面临的挑战 49
3.6 小结 51
第4章 文本向量化 53
4.1 词向量介绍 53
4.2 word2vec词向量工具 54
4.3 词袋模型 57
4.4 BoW向量化 58
4.5 散列技巧 59
4.6 小结 61
第5章 文本特征简介与选择 62
5.1 特征简介 62
5.2 特征选择方法 64
5.3 逆文本词频 72
5.4 特征选择实践 76
5.5 小结 81
第6章 文本相似度 83
6.1 引言 83
6.2 算法介绍 83
6.3 利用word2 vec实现句子相似度计算 90
第7章 朴素贝叶斯文本分类 94
7.1 引言 94
7.2 一般概念 96
7.3 关键字过滤 98
7.4 贝叶斯模型 99
7.5 小结 112
第8章 fastText原理及文本分类实践 115
8.1 引言 115
8.2 fastText的技术依赖 115
8.3 fastText原理 118
8.4 利用fastText实现文本内容鉴别 119
8.5 小结 127
第9章 文本摘要技术 128
9.1 引言 129
9.2 基于句子评分的文本摘要技术 132
9.3 基于Word Embedding构造文本摘要 140
9.4 小结 144
第10章 文本主题建模 145
10.1 引言 145
10.2 基于统计特征的关键词抽取 146
10.3 基于词图模型的关键词抽取 148
10.4 基于LDA的主题建模 151
10.5 主题模型实践 161
10.6 LDA模型优化 166
10.7 小结 172
第11章 文本情感分析 174
11.1 情感分析技术 174
11.2 情感分析研究任务 179
11.3 情感词典自动扩充方法 181
11.4 情感分析模型设计 185
11.5 小结 200
参考文献 202
附录1中文文本相似度计算工具集 205
附录2实用的文本分析工具 207