Collective Intelligence实战PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:(美)SatnamAlag著;腾灵灵,冯飞译
- 出 版 社:北京:清华大学出版社
- 出版年份:2010
- ISBN:9787302233022
- 页数:385 页
第Ⅰ部分 收集数据,获取智慧 3
第1章 了解集体智慧(CI) 3
1.1 什么是集体智慧 4
1.2 集体智慧在Web应用程序中的应用 5
1.2.1 通过一个示例全面了解集体智慧 6
1.2.2 使用集体智慧的好处 8
1.2.3 集体智慧是Web 2.0的核心 9
1.2.4 利用CI将以内容为中心的应用程序转化为以用户为中心的应用程序 10
1.3 对智慧进行分类 12
1.3.1 显性智慧 12
1.3.2 隐性智慧 14
1.3.3 衍生智慧 14
1.4 小结 16
1.5 相关资源 16
第2章 从用户交互中学习 19
2.1 运用智慧的体系结构 19
2.1.1 同步和异步服务 20
2.1.2 事件驱动系统中的实时学习 21
2.1.3 非事件驱动系统中的轮询 22
2.1.4 事件驱动和非事件驱动体系结构的优缺点 23
2.2 应用集体智慧的算法 23
2.2.1 用户和项目 23
2.2.2 表示用户信息 25
2.2.3 基于内容的分析和协作过滤 26
2.2.4 从非结构化文本中提取智慧 27
2.2.5 计算相似度 29
2.2.6 数据集的类型 29
2.3 用户交互的形式 32
2.3.1 评分和投票 32
2.3.2 邮寄或转发链接 33
2.3.3 书签和保存 34
2.3.4 购物记录 35
2.3.5 点击流 35
2.3.6 评论 36
2.4 将用户交互转化为集体智慧 38
2.4.1 一个将评分转化为智慧的示例 38
2.4.2 来自书签、保存项目、购物记录、链接转发、点击流和评论的智慧 44
2.5 小结 46
2.6 相关资源 46
第3章 从标签中提取智慧 49
3.1 标记 50
3.1.1 用户和项目的标签元数据 50
3.1.2 专业生成的标签 51
3.1.3 用户生成的标签 51
3.1.4 计算机生成的标签 52
3.1.5 有关标记的建议 52
3.1.6 用户进行标记的原因 53
3.2 如何利用标签 54
3.2.1 构建动态导航 54
3.2.2 创新使用标签云 56
3.2.3 目标搜索 56
3.2.4 公众分类与构建一个字典 57
3.3 从用户标签中提取智慧的一个示例 57
3.3.1 与其他项目相关的项目 58
3.3.2 用户感兴趣的项目 59
3.3.3 某个项目的相关用户 60
3.4 用于标记的可扩展持久化体系结构 60
3.4.1 回顾其他方法 60
3.4.2 推荐的持久化体系结构 63
3.5 构建标签云 67
3.5.1 标签云的持久化设计 67
3.5.2 构建一个标签云的算法 68
3.5.3 实现标签云 69
3.5.4 显示标签云 74
3.6 找到类似标签 78
3.7 小结 78
3.8 相关资源 79
第4章 从内容中提取智慧 81
4.1 内容类型与整合 81
4.1.1 对内容进行分类 81
4.1.2 整合内容的体系结构 83
4.2 与集体智慧有关的主要内容类型 84
4.2.1 博客 85
4.2.2 维基 87
4.2.3 组和留言板 89
4.3 逐步提取智慧 91
4.3.1 构建示例 92
4.3.2 朴素分析 94
4.3.3 删除常见词 97
4.3.4 提取词干 98
4.3.5 检测短语 99
4.4 简单和复合内容类型 101
4.5 小结 102
4.6 相关资源 103
第5章 搜索博客圈 107
5.1 博客圈简介 108
5.1.1 利用博客圈 108
5.1.2 RSS:发布格式 109
5.1.3 博客跟踪公司 110
5.2 构建一个架构以搜索博客圈 111
5.2.1 搜索器 112
5.2.2 搜索参数 113
5.2.3 查询结果 114
5.2.4 处理XML响应 115
5.2.5 异常处理 116
5.3 实现基类 116
5.3.1 实现搜索参数 116
5.3.2 实现结果对象 117
5.3.3 实现搜索器 118
5.3.4 解析XML响应 123
5.3.5 扩展该架构 126
5.4 整合Technorati 127
5.4.1 Technorati搜索API概述 128
5.4.2 实现整合Technorati所需的类 129
5.5 整合Bloglines 134
5.5.1 Bloglines搜索API概述 135
5.5.2 实现整合Bloglines所需的类 136
5.6 使用RSS整合提供商 139
5.6.1 泛化查询参数 139
5.6.2 泛化博客搜索器 141
5.6.3 构建RSS 2.0 XML解析器 142
5.7 小结 144
5.8 相关资源 144
第6章 智能Web爬行 147
6.1 Web爬行简介 148
6.1.1 为什么要在Web上爬行 148
6.1.2 爬行过程 149
6.1.3 智能爬行和聚焦爬行 150
6.1.4 深度爬行 151
6.1.5 可用的爬虫 152
6.2 逐步构建一个智能爬虫 153
6.2.1 实现核心算法 153
6.2.2 遵循robots.txt文件 158
6.2.3 检索内容 160
6.2.4 提取URL 161
6.2.5 使爬虫具有智能 163
6.2.6 运行爬虫 163
6.2.7 扩展爬虫 165
6.3 使用Nutch进行可扩展的爬行 166
6.3.1 搭建Nutch 166
6.3.2 运行Nutch爬虫 167
6.3.3 使用Nutch进行搜索 170
6.3.4 Apache Hadoop、MapReduce和Dryad 171
6.4 小结 173
6.5 相关资源 173
第Ⅱ部分 衍生智慧 177
第7章 数据挖掘:过程、工具包和标准 177
7.1 数据挖掘中的核心概念 177
7.1.1 属性 178
7.1.2 监督性和非监督性学习 179
7.1.3 关键的学习算法 180
7.1.4 挖掘过程 182
7.2 使用开源数据挖掘架构:WEKA 183
7.2.1 使用WEKA应用程序 184
7.2.2 理解WEKA的API 187
7.2.3 WEKA的API使用示例 189
7.3 标准数据挖掘API:Java Data Mining(JDM) 194
7.3.1 JDM体系结构 195
7.3.2 关键的JDM对象 196
7.3.3 表示数据集 197
7.3.4 学习模型 198
7.3.5 算法设置 199
7.3.6 JDM任务 200
7.3.7 JDM连接 201
7.3.8 访问DME的示例代码 202
7.3.9 JDM模型和PMML 204
7.4 小结 204
7.5 相关资源 205
第8章 构建文本分析工具包 207
8.1 构建文本分析器 208
8.1.1 利用Lucene 209
8.1.2 编写一个词干分析器 213
8.1.3 编写一个TokenFilter来注入同义词和检测短语 215
8.1.4 编写一个分析器来注入同义词和检测短语 218
8.1.5 让分析器工作起来 219
8.2 构建文本分析基础结构 222
8.2.1 构建标签基础结构 223
8.2.2 构建单词向量基础结构 225
8.2.3 构建TextAnalyzer类 231
8.2.4 应用文本分析基础结构 235
8.3 架构的使用案例 238
8.4 小结 239
8.5 相关资源 239
第9章 通过聚类发现模式 241
9.1 聚类博客文章 241
9.1.1 定义文本聚类基础结构 242
9.1.2 从Technorati中检索博客文章 244
9.1.3 为文本处理实现k-均值聚类算法 248
9.1.4 为文本处理实现层次聚类算法 254
9.1.5 期望最大化以及其他聚类高维稀疏数据的示例 262
9.2 使用WEKA的聚类 263
9.2.1 创建学习数据集 263
9.2.2 创建聚类器 266
9.2.3 评估聚类过程的结果 267
9.3 使用JDM API的聚类 269
9.3.1 与聚类相关的重要的JDM类 269
9.3.2 使用JDM API的聚类设置 270
9.3.3 使用JDM API创建聚类任务 272
9.3.4 使用JDM API执行聚类任务 272
9.3.5 使用JDM API检索聚类模型 273
9.4 小结 273
9.5 相关资源 274
第10章 进行预测 275
10.1 分类的基础知识 276
10.1.1 通过示例学习决策树 276
10.1.2 朴素贝叶斯分类器 282
10.1.3 信度网 286
10.2 使用WEKA API来给博客文章分类 287
10.2.1 为博客文章的分类构建数据集 288
10.2.2 构建分类器的类 292
10.3 回归的基础知识 295
10.3.1 线性回归 295
10.3.2 多层感知器(MLP) 297
10.3.3 径向基函数(RBF) 298
10.4 使用WEKA的回归 299
10.5 使用JDM的分类和回归 300
10.5.1 与监督性学习相关的、重要的JDM类 300
10.5.2 使用了JDM API的监督性学习设置 302
10.5.3 使用JDM API创建分类任务 304
10.5.4 使用JDM API执行分类任务 304
10.5.5 使用JDM API检索分类模型 305
10.5.6 使用JDM API检索分类模型 305
10.6 小结 306
10.7 相关资源 306
第Ⅲ部分 在应用程序中运用集体智慧第11章 智能搜索 311
11.1 搜索的基础知识 311
11.1.1 搜索的体系结构 312
11.1.2 核心的Lucene类 313
11.1.3 通过示例介绍索引和搜索的基本过程 314
11.2 通过Lucene建立索引 321
11.2.1 理解索引的格式 321
11.2.2 修改索引 322
11.2.3 增量索引 323
11.2.4 访问词频向量 325
11.2.5 优化建立索引过程的性能 326
11.3 使用Lucene进行搜索 328
11.3.1 理解Lucene的评分机制 328
11.3.2 查询Lucene 330
11.3.3 给搜索结果排序 332
11.3.4 在多个字段上查询 333
11.3.5 过滤 334
11.3.6 搜索多个索引 335
11.3.7 使用HitCollector 336
11.3.8 优化搜索性能 339
11.4 有用的工具和架构 339
11.4.1 Luke 339
11.4.2 Solr 340
11.4.3 Compass 341
11.4.4 Hibernate搜索 341
11.5 实现智能搜索的方法 341
11.5.1 通过分类器和预测器增强搜索 342
11.5.2 聚类搜索的结果 342
11.5.3 为用户个性化结果 344
11.5.4 基于群体的搜索 344
11.5.5 基于语言学的搜索 345
11.5.6 数据搜索 345
11.6 小结 346
11.7 相关资源 347
第12章 构建推荐引擎 349
12.1 推荐引擎的基础知识 350
12.1.1 推荐引擎简介 350
12.1.2 基于项目和基于用户的分析 351
12.1.3 使用基于内容的技术和协作技术来计算相似度 352
12.1.4 基于内容的技术与协作技术的比较 353
12.2 基于内容的分析 354
12.2.1 使用搜索引擎(Lucene)寻找类似的项目 355
12.2.2 构建基于内容的搜索引擎 358
12.2.3 文档聚类的相关项目 361
12.2.4 为用户个性化内容 362
12.3 协作过滤 362
12.3.1 k最近邻算法 363
12.3.2 实现协作过滤的包 364
12.3.3 通过潜在语义索引减少维度 368
12.3.4 实现维度减少 369
12.3.5 基于概率模型的方法 372
12.4 现实世界中的解决方案 372
12.4.1 Amazon的项目-项目推荐 372
12.4.2 Google News的个性化修改 375
12.4.3 Netflix以及Netflix奖金的BellKor解决方案 378
12.5 小结 382
12.6 相关资源 383
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《Python3从入门到实战》董洪伟 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《星空摄影后期实战》阿五在路上著 2020
- 《半小时漫画股票实战法》财经杂质著 2019
- 《深度学习与飞桨PaddlePaddle Fluid实战》于祥 2019
- 《数字插画实战 人像创作30例》王鲁光著 2019
- 《2017国家执业药师资格考试 全考点实战通关必备 中药学综合知识与技能 第3版》国家执业药师资格考试命题研究专家组 2017
- 《微软Azure实战参考》李竞,陈勇华编著 2019
- 《Cocos Creator微信小游戏开发实战》王绍明编著 2020
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019