前言 1
第1章 整洁文本格式 7
比较整洁文本结构与其他数据结构 8
unnest tokens函数 8
整理Jane Austen的作品 10
gutenbergr包 13
词频 13
总结 17
第2章 基于整洁数据的情感分析 18
情感数据集 18
内连接的情感分析 21
比较三个情感词典 24
最常见的正面单词和负面单词 26
Wordclouds模块 28
除单词外的其他文本单元 30
总结 32
第3章 分析词和文件频率:tf-idf 33
Jane Austen小说中的词项频率 34
Zipf定律 35
bind tf idf函数 38
物理学语料库 41
总结 45
第4章 词之间的关系:n-gram及相关性 46
n-gram词条化 46
用widyr包对单词对计数并计算相关性 60
总结 66
第5章 非整洁格式转换 67
使文档-词项矩阵整洁 67
将整洁文本数据转换为矩阵 74
总结 84
第6章 主题建模 85
LDA 86
示例:博大的图书馆馆藏 91
LDA方法的替代实现 101
总结 102
第7章 案例研究:Twitter归档文件比较 103
单词使用情况的比较 107
单词使用情况的变化 109
收藏和转发 113
总结 117
第8章 案例研究:NASA元数据挖掘 118
NASA如何组织数据 118
共现单词与相关单词 123
计算描述字段的tf-idf 129
总结 142
第9章 案例研究:分析Usenet文本 143
预处理 143
新闻组中的单词 146
情感分析 151
总结 159
参考文献 160