第一章 绪论:Twitter资料的处理 1
Python开发工具的安装 1
Twitter资讯的收集和处理 4
处理Twitter的API 4
频率分析和词汇多样性 7
tweet图的视觉化 14
综合应用:用Protovis视觉化转推的tweet 17
结论 18
第二章 微格式:语义标记和常识碰撞 19
XFN和朋友 20
使用XFN来探讨社群关系 22
XFN资讯的广度优先撷取 23
地理座标:兴趣爱好的共同主线 31
维基百科文章+Google地图=开车旅行是否成立 31
对食谱进行交叉分析(以健康的名义) 35
蒐集餐厅评论 38
结论 40
第三章 信箱:老套但好用 41
mbox:Unix的入门级信箱 42
mbox+CouchDB=任意分析Email 49
将文件批次载入到CouchDB中 52
合理的排序 53
映射/简化启发的频率分析 57
按值排序文件 62
couchdb-lucene:不光是全文索引 64
将对话串接在一起 68
看谁在说话 74
使用SIMILE Timeline将邮件「事件」视觉化 79
分析你自己的邮件资讯 85
Graph Your (Gmail) Inbox Chrome工具 87
结论 88
第四章Twitter:朋友、追随者和Setwise操作 89
REST风格的和OAuth-Cladded API 90
不,才不告诉你密码呢 91
精明能干的资讯收集器 94
一个非常简短的重构子程式 97
Redis:资料结构伺服器 98
基本的集合操作 100
使用基本的朋友/追随者度量来增强效能 102
透过计算共同朋友和追随者来计算相似性 108
影响的度量 110
友谊图的构建 115
派系检测与分析 117
Infochimp「强连结」API 121
互动式3D图的视觉化 123
结论 126
第五章Twitter:tweet,tweet,全都是tweet 127
笔:剑::tweet:机枪(?!? 128
tweet的分析(每次一个实体) 131
对(Tim的)Tweet的利用 134
Tim最常转推谁的tweet 147
Tim的影响力 151
Tim的tweet中有多少包含hashtag ? 154
并行的潛在社群网站(或#JustinBieber VS #TeaParty ) 157
#JustinBieber和#TeaParty的tweet中最常共同出现的实体 159
平均来说,#JustinBieber或#TeaParty,谁的tweet包含更多hashtag? 163
谁比较常被转推:#JustinBieber或#TeaParty? 164
#TeaParty和#JustinBieber的tweet实体之间存在多少重叠 166
对大量tweet的视觉化 168
使用标籤云视觉化tweet 168
Twitter搜寻结果中群集结构的视觉化 173
结论 176
第六章Linkedln:为了乐趣(和利润?)将职场网路分类 179
分类的动机 180
按职位将连络人分类 183
规范并统计职位的数量 183
分类常见的相似性度量 186
分类的贪心方法 189
分层分类和k均值分类 197
获得补充个人资讯 200
从地理上分类网路 205
使用Google Earth标示职场网路 206
使用Dorling Cartograms标示职场网路 210
结论 212
第七章Google+:TF-IDF、馀弦相似性与搭配 213
采集 Google+资料 214
用N LTK检阅资料 217
文字探勘基础 221
TF-IDF简介 221
用TF-IDF查询Google+资料 226
寻找相似文件 228
向量空间模型与馀弦相似性的背后理论 228
零散文字与馀弦相似性 230
用图表软体将相似性视觉化 233
双字组分析(Bigram Analysis) 235
怎么灌出搭配香肠(Collocation Sausage):列联表与计分函式 239
伸手捞向Gmail 242
以OAuth存取 242
取得与解读电子邮件内容 243
动手打造你自己的搜寻引擎之前 246
结论 248
第八章 部落格及其他:自然语言处理(等等) 249
NLP:帕累托式介绍 249
句法与语义 250
简短的思考练习 251
使用NLTK的典型NLP管线 252
使用NLTK检测部落格中的句子 255
对文件的总结 259
Luhn摘要演算法的分析 266
以实体为中心的分析:对资料的深层瞭解 268
分析的品质 278
结论 280
第九章Facebook:一体化的奇迹 281
利用社群网路资料 282
在10分钟内从零到存取憑证 282
Facebook的查询API 288
Facebook数据的视觉化 300
对整个社群网路的视觉化 301
视觉化分组中的共同友谊 312
我的朋友都到哪里去了?(一个资料导向的游戏) 315
把留言板数据视觉化为(旋转的)标籤云 321
结论 324
第十章 语义网:简短的讨论 325
发展中的变革 325
人不可能只靠事实生活 326
开放世界与封闭世界假说 327
使用FuXi推断开放世界 328
期望 330