前言 1
第1章 语言与计算 13
数据科学范式 14
语言感知数据产品 16
语言即数据 21
小结 29
第2章 构建自定义语料库 31
语料库是什么? 32
语料库数据管理 35
语料库读取器 39
小结 49
第3章 语料库预处理与处置 50
分解文档 50
语料库的转换 60
小结 67
第4章 文本向量化和转换流水线 68
空间中的词 69
Scikit-Learn API 81
流水线 88
小结 93
第5章 面向文本分析的文本分类 95
文本分类 96
构建文本分类应用 99
小结 110
第6章 文本相似性聚类 112
文本上的无监督学习 112
文档相似性聚类 114
文档主题建模 127
小结 139
第7章 上下文感知文本分析 140
基于语法的特征提取 141
n-Gram特征提取 147
n-Gram语言模型 155
小结 165
第8章 文本可视化 166
可视化特征空间 167
模型诊断 185
可视化操纵 193
小结 196
第9章 文本的图分析 198
图计算与分析 200
从文本中抽取图 204
实体解析 216
小结 221
第10章 聊天机器人 223
对话基础 224
礼貌对话规则 231
有趣的问题 239
学习帮助 250
小结 257
第11章 利用多处理和Spark扩展文本分析 259
Python多处理 260
Spark集群计算 271
小结 289
第12章 深度学习与未来 291
应用神经网络 292
神经网络语言模型 292
情感分析 303
未来(几乎)已来 309
词汇表 311