当前位置：首页 > 工业技术

社群网站的资料探勘PDF电子书下载

工业技术

电子书积分：12 积分如何计算积分？
作者：Matthew A.Russell著；师蓉，胡为君译
出版社：碁峰资讯股份有限公司
出版年份：2013
ISBN：9789862767825
页数：346 页

图书介绍：

查看图书目录点击购买PDF全本电子书

上一篇：Head First C# 第3版下一篇：超营养的138道家常汤

《社群网站的资料探勘》目录

标签：探勘社群资料网站

第一章绪论：Twitter资料的处理 1

Python开发工具的安装 1

Twitter资讯的收集和处理 4

处理Twitter的API 4

频率分析和词汇多样性 7

tweet图的视觉化 14

综合应用：用Protovis视觉化转推的tweet 17

结论 18

第二章微格式：语义标记和常识碰撞 19

XFN和朋友 20

使用XFN来探讨社群关系 22

XFN资讯的广度优先撷取 23

地理座标：兴趣爱好的共同主线 31

维基百科文章＋Google地图=开车旅行是否成立 31

对食谱进行交叉分析（以健康的名义） 35

蒐集餐厅评论 38

结论 40

第三章信箱：老套但好用 41

mbox：Unix的入门级信箱 42

mbox＋CouchDB=任意分析Email 49

将文件批次载入到CouchDB中 52

合理的排序 53

映射/简化启发的频率分析 57

按值排序文件 62

couchdb-lucene：不光是全文索引 64

将对话串接在一起 68

看谁在说话 74

使用SIMILE Timeline将邮件「事件」视觉化 79

分析你自己的邮件资讯 85

Graph Your （Gmail） Inbox Chrome工具 87

结论 88

第四章Twitter：朋友、追随者和Setwise操作 89

REST风格的和OAuth-Cladded API 90

不，才不告诉你密码呢 91

精明能干的资讯收集器 94

一个非常简短的重构子程式 97

Redis：资料结构伺服器 98

基本的集合操作 100

使用基本的朋友/追随者度量来增强效能 102

透过计算共同朋友和追随者来计算相似性 108

影响的度量 110

友谊图的构建 115

派系检测与分析 117

Infochimp「强连结」API 121

互动式3D图的视觉化 123

结论 126

第五章Twitter：tweet，tweet，全都是tweet 127

笔：剑：：tweet：机枪（？！？ 128

tweet的分析（每次一个实体） 131

对（Tim的）Tweet的利用 134

Tim最常转推谁的tweet 147

Tim的影响力 151

Tim的tweet中有多少包含hashtag ？ 154

并行的潛在社群网站（或#JustinBieber VS #TeaParty ） 157

#JustinBieber和#TeaParty的tweet中最常共同出现的实体 159

平均来说，#JustinBieber或#TeaParty，谁的tweet包含更多hashtag？ 163

谁比较常被转推：#JustinBieber或#TeaParty？ 164

#TeaParty和#JustinBieber的tweet实体之间存在多少重叠 166

对大量tweet的视觉化 168

使用标籤云视觉化tweet 168

Twitter搜寻结果中群集结构的视觉化 173

结论 176

第六章Linkedln：为了乐趣（和利润？）将职场网路分类 179

分类的动机 180

按职位将连络人分类 183

规范并统计职位的数量 183

分类常见的相似性度量 186

分类的贪心方法 189

分层分类和k均值分类 197

获得补充个人资讯 200

从地理上分类网路 205

使用Google Earth标示职场网路 206

使用Dorling Cartograms标示职场网路 210

结论 212

第七章Google＋：TF-IDF、馀弦相似性与搭配 213

采集 Google＋资料 214

用N LTK检阅资料 217

文字探勘基础 221

TF-IDF简介 221

用TF-IDF查询Google＋资料 226

寻找相似文件 228

向量空间模型与馀弦相似性的背后理论 228

零散文字与馀弦相似性 230

用图表软体将相似性视觉化 233

双字组分析（Bigram Analysis） 235

怎么灌出搭配香肠（Collocation Sausage）：列联表与计分函式 239

伸手捞向Gmail 242

以OAuth存取 242

取得与解读电子邮件内容 243

动手打造你自己的搜寻引擎之前 246

结论 248

第八章部落格及其他：自然语言处理（等等） 249

NLP：帕累托式介绍 249

句法与语义 250

简短的思考练习 251

使用NLTK的典型NLP管线 252

使用NLTK检测部落格中的句子 255

对文件的总结 259

Luhn摘要演算法的分析 266

以实体为中心的分析：对资料的深层瞭解 268

分析的品质 278

结论 280

第九章Facebook：一体化的奇迹 281

利用社群网路资料 282

在10分钟内从零到存取憑证 282

Facebook的查询API 288

Facebook数据的视觉化 300

对整个社群网路的视觉化 301

视觉化分组中的共同友谊 312

我的朋友都到哪里去了？（一个资料导向的游戏） 315

把留言板数据视觉化为（旋转的）标籤云 321

结论 324

第十章语义网：简短的讨论 325

发展中的变革 325

人不可能只靠事实生活 326

开放世界与封闭世界假说 327

使用FuXi推断开放世界 328

期望 330

相关图书

作者其它书籍

出版社其它书籍

本类热门