《社群网站的资料探勘》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:Matthew A.Russell著;师蓉,胡为君译
  • 出 版 社:碁峰资讯股份有限公司
  • 出版年份:2013
  • ISBN:9789862767825
  • 页数:346 页
图书介绍:

第一章 绪论:Twitter资料的处理 1

Python开发工具的安装 1

Twitter资讯的收集和处理 4

处理Twitter的API 4

频率分析和词汇多样性 7

tweet图的视觉化 14

综合应用:用Protovis视觉化转推的tweet 17

结论 18

第二章 微格式:语义标记和常识碰撞 19

XFN和朋友 20

使用XFN来探讨社群关系 22

XFN资讯的广度优先撷取 23

地理座标:兴趣爱好的共同主线 31

维基百科文章+Google地图=开车旅行是否成立 31

对食谱进行交叉分析(以健康的名义) 35

蒐集餐厅评论 38

结论 40

第三章 信箱:老套但好用 41

mbox:Unix的入门级信箱 42

mbox+CouchDB=任意分析Email 49

将文件批次载入到CouchDB中 52

合理的排序 53

映射/简化启发的频率分析 57

按值排序文件 62

couchdb-lucene:不光是全文索引 64

将对话串接在一起 68

看谁在说话 74

使用SIMILE Timeline将邮件「事件」视觉化 79

分析你自己的邮件资讯 85

Graph Your (Gmail) Inbox Chrome工具 87

结论 88

第四章Twitter:朋友、追随者和Setwise操作 89

REST风格的和OAuth-Cladded API 90

不,才不告诉你密码呢 91

精明能干的资讯收集器 94

一个非常简短的重构子程式 97

Redis:资料结构伺服器 98

基本的集合操作 100

使用基本的朋友/追随者度量来增强效能 102

透过计算共同朋友和追随者来计算相似性 108

影响的度量 110

友谊图的构建 115

派系检测与分析 117

Infochimp「强连结」API 121

互动式3D图的视觉化 123

结论 126

第五章Twitter:tweet,tweet,全都是tweet 127

笔:剑::tweet:机枪(?!? 128

tweet的分析(每次一个实体) 131

对(Tim的)Tweet的利用 134

Tim最常转推谁的tweet 147

Tim的影响力 151

Tim的tweet中有多少包含hashtag ? 154

并行的潛在社群网站(或#JustinBieber VS #TeaParty ) 157

#JustinBieber和#TeaParty的tweet中最常共同出现的实体 159

平均来说,#JustinBieber或#TeaParty,谁的tweet包含更多hashtag? 163

谁比较常被转推:#JustinBieber或#TeaParty? 164

#TeaParty和#JustinBieber的tweet实体之间存在多少重叠 166

对大量tweet的视觉化 168

使用标籤云视觉化tweet 168

Twitter搜寻结果中群集结构的视觉化 173

结论 176

第六章Linkedln:为了乐趣(和利润?)将职场网路分类 179

分类的动机 180

按职位将连络人分类 183

规范并统计职位的数量 183

分类常见的相似性度量 186

分类的贪心方法 189

分层分类和k均值分类 197

获得补充个人资讯 200

从地理上分类网路 205

使用Google Earth标示职场网路 206

使用Dorling Cartograms标示职场网路 210

结论 212

第七章Google+:TF-IDF、馀弦相似性与搭配 213

采集 Google+资料 214

用N LTK检阅资料 217

文字探勘基础 221

TF-IDF简介 221

用TF-IDF查询Google+资料 226

寻找相似文件 228

向量空间模型与馀弦相似性的背后理论 228

零散文字与馀弦相似性 230

用图表软体将相似性视觉化 233

双字组分析(Bigram Analysis) 235

怎么灌出搭配香肠(Collocation Sausage):列联表与计分函式 239

伸手捞向Gmail 242

以OAuth存取 242

取得与解读电子邮件内容 243

动手打造你自己的搜寻引擎之前 246

结论 248

第八章 部落格及其他:自然语言处理(等等) 249

NLP:帕累托式介绍 249

句法与语义 250

简短的思考练习 251

使用NLTK的典型NLP管线 252

使用NLTK检测部落格中的句子 255

对文件的总结 259

Luhn摘要演算法的分析 266

以实体为中心的分析:对资料的深层瞭解 268

分析的品质 278

结论 280

第九章Facebook:一体化的奇迹 281

利用社群网路资料 282

在10分钟内从零到存取憑证 282

Facebook的查询API 288

Facebook数据的视觉化 300

对整个社群网路的视觉化 301

视觉化分组中的共同友谊 312

我的朋友都到哪里去了?(一个资料导向的游戏) 315

把留言板数据视觉化为(旋转的)标籤云 321

结论 324

第十章 语义网:简短的讨论 325

发展中的变革 325

人不可能只靠事实生活 326

开放世界与封闭世界假说 327

使用FuXi推断开放世界 328

期望 330