前言 1
第1章绪论:Twitter数据的处理 9
Python开发工具的安装 9
Twitter数据的收集和处理 11
小结 24
第2章微格式:语义标记和常识碰撞 26
XFN和朋友 27
使用XFN来探讨社交关系 29
地理坐标:兴趣爱好的共同主线 37
(以健康的名义)对菜谱进行交叉分析 41
对餐厅评论的搜集 43
小结 45
第3章邮箱:虽然老套却很好用 47
mbox:Unix的入门级邮箱 48
mbox+CouchDB=随意的Email分析 54
将对话线程化到一起 70
使用SIMILE Timeline将邮件“事件”可视化 79
分析你自己的邮件数据 82
小结 84
第4章Twitter:朋友、关注者和Setwise操作 85
REST风格的和OAuth-Cladded API 86
干练而中肯的数据采集器 90
友谊图的构建 108
小结 116
第5章Twitter: tweet,所有的tweet,只有tweet 118
笔PK剑:和tweet PK机枪(?!?) 118
对tweet的分析(每次一个实体) 121
并置潜在的社交网站(或#JustinBieber VS #TeaParty) 144
对大量tweet的可视化 155
小结 163
第6章Linkedin:为了乐趣(和利润?)将职业网络聚类 164
聚类的动机 165
按职位将联系人聚类 167
获取补充个人信息 183
从地理上聚类网络 188
小结 192
第7章GoogleBuzz:TF-IDF、余弦相似性和搭配 194
Buzz=Twitter+博客(???) 195
使用NLTK处理数据 198
文本挖掘的基本原则 201
查找相似文档 208
在二元语法中发Buzz 215
利用Gmail 221
在中断之前试着创建一个搜索引擎 225
小结 226
第8章博客及其他:自然语言处理(等) 228
NLP:帕累托式介绍 228
使用NLTK的典型NLP管线 231
使用NLTK检测博客中的句子 234
对文件的总结 237
以实体为中心的分析:对数据的深层了解 245
小结 256
第9章Facebook:一体化的奇迹 257
利用社交网络数据 258
对Facebook数据的可视化 274
小结 294
第10章语义网:简短的讨论 296
发展中的变革 296
人不可能只靠事实生活 297
期望 301