《文本信息处理》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:张世博著
  • 出 版 社:北京:中国水利水电出版社
  • 出版年份:2019
  • ISBN:9787517069263
  • 页数:207 页
图书介绍:目前,大数据产业蓬勃发展,从而带动了人们对于非格式化文本数据的分析需求,本书全面、系统的介绍了文本信息处理的相关技术,包括分词、文本向量化、特征选择、文本相似度计算、文本分类、主题模型、情感计算等内容,并在若干综合性的章节中,设计了独到的模型算法,阐述了算法过程。所有章节都通过实例对过程做详细描述,并辅助以代码或伪代码实现,帮助读者理解,具有高度的可操作性和实用性。本书内容新颖、层次清晰,适合高校教师、研究生、高年级本科生使用,也可供相关的软件工程师做参考。

第1章 引言 1

1.1 文本分析简介 1

1.2 技术发展历程 5

1.3 应用现状 7

1.4 小结 12

第2章 常用的数学基础 13

2.1 机器学习的处理过程 13

2.2 数学工具 16

2.3 归一化与正则化 18

第3章 分词 23

3.1 分词的基本原理 23

3.2 分词中的序列标注方法 28

3.3 深度学习下的分词 37

3.4 词性标注 43

3.5 分词技术面临的挑战 49

3.6 小结 51

第4章 文本向量化 53

4.1 词向量介绍 53

4.2 word2vec词向量工具 54

4.3 词袋模型 57

4.4 BoW向量化 58

4.5 散列技巧 59

4.6 小结 61

第5章 文本特征简介与选择 62

5.1 特征简介 62

5.2 特征选择方法 64

5.3 逆文本词频 72

5.4 特征选择实践 76

5.5 小结 81

第6章 文本相似度 83

6.1 引言 83

6.2 算法介绍 83

6.3 利用word2 vec实现句子相似度计算 90

第7章 朴素贝叶斯文本分类 94

7.1 引言 94

7.2 一般概念 96

7.3 关键字过滤 98

7.4 贝叶斯模型 99

7.5 小结 112

第8章 fastText原理及文本分类实践 115

8.1 引言 115

8.2 fastText的技术依赖 115

8.3 fastText原理 118

8.4 利用fastText实现文本内容鉴别 119

8.5 小结 127

第9章 文本摘要技术 128

9.1 引言 129

9.2 基于句子评分的文本摘要技术 132

9.3 基于Word Embedding构造文本摘要 140

9.4 小结 144

第10章 文本主题建模 145

10.1 引言 145

10.2 基于统计特征的关键词抽取 146

10.3 基于词图模型的关键词抽取 148

10.4 基于LDA的主题建模 151

10.5 主题模型实践 161

10.6 LDA模型优化 166

10.7 小结 172

第11章 文本情感分析 174

11.1 情感分析技术 174

11.2 情感分析研究任务 179

11.3 情感词典自动扩充方法 181

11.4 情感分析模型设计 185

11.5 小结 200

参考文献 202

附录1中文文本相似度计算工具集 205

附录2实用的文本分析工具 207