当前位置:首页 > 工业技术
Collective Intelligence实战
Collective Intelligence实战

Collective Intelligence实战PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:(美)SatnamAlag著;腾灵灵,冯飞译
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2010
  • ISBN:9787302233022
  • 页数:385 页
图书介绍:本书介绍了集体智慧的概念和构建更具交互性的网站的思想,然后使用示例开发了一个直接可用的、基于 Java的CI工具包。
《Collective Intelligence实战》目录
标签:实战

第Ⅰ部分 收集数据,获取智慧 3

第1章 了解集体智慧(CI) 3

1.1 什么是集体智慧 4

1.2 集体智慧在Web应用程序中的应用 5

1.2.1 通过一个示例全面了解集体智慧 6

1.2.2 使用集体智慧的好处 8

1.2.3 集体智慧是Web 2.0的核心 9

1.2.4 利用CI将以内容为中心的应用程序转化为以用户为中心的应用程序 10

1.3 对智慧进行分类 12

1.3.1 显性智慧 12

1.3.2 隐性智慧 14

1.3.3 衍生智慧 14

1.4 小结 16

1.5 相关资源 16

第2章 从用户交互中学习 19

2.1 运用智慧的体系结构 19

2.1.1 同步和异步服务 20

2.1.2 事件驱动系统中的实时学习 21

2.1.3 非事件驱动系统中的轮询 22

2.1.4 事件驱动和非事件驱动体系结构的优缺点 23

2.2 应用集体智慧的算法 23

2.2.1 用户和项目 23

2.2.2 表示用户信息 25

2.2.3 基于内容的分析和协作过滤 26

2.2.4 从非结构化文本中提取智慧 27

2.2.5 计算相似度 29

2.2.6 数据集的类型 29

2.3 用户交互的形式 32

2.3.1 评分和投票 32

2.3.2 邮寄或转发链接 33

2.3.3 书签和保存 34

2.3.4 购物记录 35

2.3.5 点击流 35

2.3.6 评论 36

2.4 将用户交互转化为集体智慧 38

2.4.1 一个将评分转化为智慧的示例 38

2.4.2 来自书签、保存项目、购物记录、链接转发、点击流和评论的智慧 44

2.5 小结 46

2.6 相关资源 46

第3章 从标签中提取智慧 49

3.1 标记 50

3.1.1 用户和项目的标签元数据 50

3.1.2 专业生成的标签 51

3.1.3 用户生成的标签 51

3.1.4 计算机生成的标签 52

3.1.5 有关标记的建议 52

3.1.6 用户进行标记的原因 53

3.2 如何利用标签 54

3.2.1 构建动态导航 54

3.2.2 创新使用标签云 56

3.2.3 目标搜索 56

3.2.4 公众分类与构建一个字典 57

3.3 从用户标签中提取智慧的一个示例 57

3.3.1 与其他项目相关的项目 58

3.3.2 用户感兴趣的项目 59

3.3.3 某个项目的相关用户 60

3.4 用于标记的可扩展持久化体系结构 60

3.4.1 回顾其他方法 60

3.4.2 推荐的持久化体系结构 63

3.5 构建标签云 67

3.5.1 标签云的持久化设计 67

3.5.2 构建一个标签云的算法 68

3.5.3 实现标签云 69

3.5.4 显示标签云 74

3.6 找到类似标签 78

3.7 小结 78

3.8 相关资源 79

第4章 从内容中提取智慧 81

4.1 内容类型与整合 81

4.1.1 对内容进行分类 81

4.1.2 整合内容的体系结构 83

4.2 与集体智慧有关的主要内容类型 84

4.2.1 博客 85

4.2.2 维基 87

4.2.3 组和留言板 89

4.3 逐步提取智慧 91

4.3.1 构建示例 92

4.3.2 朴素分析 94

4.3.3 删除常见词 97

4.3.4 提取词干 98

4.3.5 检测短语 99

4.4 简单和复合内容类型 101

4.5 小结 102

4.6 相关资源 103

第5章 搜索博客圈 107

5.1 博客圈简介 108

5.1.1 利用博客圈 108

5.1.2 RSS:发布格式 109

5.1.3 博客跟踪公司 110

5.2 构建一个架构以搜索博客圈 111

5.2.1 搜索器 112

5.2.2 搜索参数 113

5.2.3 查询结果 114

5.2.4 处理XML响应 115

5.2.5 异常处理 116

5.3 实现基类 116

5.3.1 实现搜索参数 116

5.3.2 实现结果对象 117

5.3.3 实现搜索器 118

5.3.4 解析XML响应 123

5.3.5 扩展该架构 126

5.4 整合Technorati 127

5.4.1 Technorati搜索API概述 128

5.4.2 实现整合Technorati所需的类 129

5.5 整合Bloglines 134

5.5.1 Bloglines搜索API概述 135

5.5.2 实现整合Bloglines所需的类 136

5.6 使用RSS整合提供商 139

5.6.1 泛化查询参数 139

5.6.2 泛化博客搜索器 141

5.6.3 构建RSS 2.0 XML解析器 142

5.7 小结 144

5.8 相关资源 144

第6章 智能Web爬行 147

6.1 Web爬行简介 148

6.1.1 为什么要在Web上爬行 148

6.1.2 爬行过程 149

6.1.3 智能爬行和聚焦爬行 150

6.1.4 深度爬行 151

6.1.5 可用的爬虫 152

6.2 逐步构建一个智能爬虫 153

6.2.1 实现核心算法 153

6.2.2 遵循robots.txt文件 158

6.2.3 检索内容 160

6.2.4 提取URL 161

6.2.5 使爬虫具有智能 163

6.2.6 运行爬虫 163

6.2.7 扩展爬虫 165

6.3 使用Nutch进行可扩展的爬行 166

6.3.1 搭建Nutch 166

6.3.2 运行Nutch爬虫 167

6.3.3 使用Nutch进行搜索 170

6.3.4 Apache Hadoop、MapReduce和Dryad 171

6.4 小结 173

6.5 相关资源 173

第Ⅱ部分 衍生智慧 177

第7章 数据挖掘:过程、工具包和标准 177

7.1 数据挖掘中的核心概念 177

7.1.1 属性 178

7.1.2 监督性和非监督性学习 179

7.1.3 关键的学习算法 180

7.1.4 挖掘过程 182

7.2 使用开源数据挖掘架构:WEKA 183

7.2.1 使用WEKA应用程序 184

7.2.2 理解WEKA的API 187

7.2.3 WEKA的API使用示例 189

7.3 标准数据挖掘API:Java Data Mining(JDM) 194

7.3.1 JDM体系结构 195

7.3.2 关键的JDM对象 196

7.3.3 表示数据集 197

7.3.4 学习模型 198

7.3.5 算法设置 199

7.3.6 JDM任务 200

7.3.7 JDM连接 201

7.3.8 访问DME的示例代码 202

7.3.9 JDM模型和PMML 204

7.4 小结 204

7.5 相关资源 205

第8章 构建文本分析工具包 207

8.1 构建文本分析器 208

8.1.1 利用Lucene 209

8.1.2 编写一个词干分析器 213

8.1.3 编写一个TokenFilter来注入同义词和检测短语 215

8.1.4 编写一个分析器来注入同义词和检测短语 218

8.1.5 让分析器工作起来 219

8.2 构建文本分析基础结构 222

8.2.1 构建标签基础结构 223

8.2.2 构建单词向量基础结构 225

8.2.3 构建TextAnalyzer类 231

8.2.4 应用文本分析基础结构 235

8.3 架构的使用案例 238

8.4 小结 239

8.5 相关资源 239

第9章 通过聚类发现模式 241

9.1 聚类博客文章 241

9.1.1 定义文本聚类基础结构 242

9.1.2 从Technorati中检索博客文章 244

9.1.3 为文本处理实现k-均值聚类算法 248

9.1.4 为文本处理实现层次聚类算法 254

9.1.5 期望最大化以及其他聚类高维稀疏数据的示例 262

9.2 使用WEKA的聚类 263

9.2.1 创建学习数据集 263

9.2.2 创建聚类器 266

9.2.3 评估聚类过程的结果 267

9.3 使用JDM API的聚类 269

9.3.1 与聚类相关的重要的JDM类 269

9.3.2 使用JDM API的聚类设置 270

9.3.3 使用JDM API创建聚类任务 272

9.3.4 使用JDM API执行聚类任务 272

9.3.5 使用JDM API检索聚类模型 273

9.4 小结 273

9.5 相关资源 274

第10章 进行预测 275

10.1 分类的基础知识 276

10.1.1 通过示例学习决策树 276

10.1.2 朴素贝叶斯分类器 282

10.1.3 信度网 286

10.2 使用WEKA API来给博客文章分类 287

10.2.1 为博客文章的分类构建数据集 288

10.2.2 构建分类器的类 292

10.3 回归的基础知识 295

10.3.1 线性回归 295

10.3.2 多层感知器(MLP) 297

10.3.3 径向基函数(RBF) 298

10.4 使用WEKA的回归 299

10.5 使用JDM的分类和回归 300

10.5.1 与监督性学习相关的、重要的JDM类 300

10.5.2 使用了JDM API的监督性学习设置 302

10.5.3 使用JDM API创建分类任务 304

10.5.4 使用JDM API执行分类任务 304

10.5.5 使用JDM API检索分类模型 305

10.5.6 使用JDM API检索分类模型 305

10.6 小结 306

10.7 相关资源 306

第Ⅲ部分 在应用程序中运用集体智慧第11章 智能搜索 311

11.1 搜索的基础知识 311

11.1.1 搜索的体系结构 312

11.1.2 核心的Lucene类 313

11.1.3 通过示例介绍索引和搜索的基本过程 314

11.2 通过Lucene建立索引 321

11.2.1 理解索引的格式 321

11.2.2 修改索引 322

11.2.3 增量索引 323

11.2.4 访问词频向量 325

11.2.5 优化建立索引过程的性能 326

11.3 使用Lucene进行搜索 328

11.3.1 理解Lucene的评分机制 328

11.3.2 查询Lucene 330

11.3.3 给搜索结果排序 332

11.3.4 在多个字段上查询 333

11.3.5 过滤 334

11.3.6 搜索多个索引 335

11.3.7 使用HitCollector 336

11.3.8 优化搜索性能 339

11.4 有用的工具和架构 339

11.4.1 Luke 339

11.4.2 Solr 340

11.4.3 Compass 341

11.4.4 Hibernate搜索 341

11.5 实现智能搜索的方法 341

11.5.1 通过分类器和预测器增强搜索 342

11.5.2 聚类搜索的结果 342

11.5.3 为用户个性化结果 344

11.5.4 基于群体的搜索 344

11.5.5 基于语言学的搜索 345

11.5.6 数据搜索 345

11.6 小结 346

11.7 相关资源 347

第12章 构建推荐引擎 349

12.1 推荐引擎的基础知识 350

12.1.1 推荐引擎简介 350

12.1.2 基于项目和基于用户的分析 351

12.1.3 使用基于内容的技术和协作技术来计算相似度 352

12.1.4 基于内容的技术与协作技术的比较 353

12.2 基于内容的分析 354

12.2.1 使用搜索引擎(Lucene)寻找类似的项目 355

12.2.2 构建基于内容的搜索引擎 358

12.2.3 文档聚类的相关项目 361

12.2.4 为用户个性化内容 362

12.3 协作过滤 362

12.3.1 k最近邻算法 363

12.3.2 实现协作过滤的包 364

12.3.3 通过潜在语义索引减少维度 368

12.3.4 实现维度减少 369

12.3.5 基于概率模型的方法 372

12.4 现实世界中的解决方案 372

12.4.1 Amazon的项目-项目推荐 372

12.4.2 Google News的个性化修改 375

12.4.3 Netflix以及Netflix奖金的BellKor解决方案 378

12.5 小结 382

12.6 相关资源 383

返回顶部