Web知识挖掘 理论、方法与应用PDF电子书下载
- 电子书积分:12 积分如何计算积分?
- 作 者:郑庆华,刘均,田锋等著
- 出 版 社:北京:科学出版社
- 出版年份:2010
- ISBN:9787030274991
- 页数:336 页
第1章 Web挖掘概述 1
1.1 Web发展历史与现状 1
1.1.1 Web技术发展 1
1.1.2 Web上的信息爆炸 2
1.2 Web挖掘的概念 3
1.2.1 典型的Web挖掘定义 4
1.2.2 Web挖掘与数据挖掘、信息检索、信息抽取的区别 4
1.3 Web挖掘面临的挑战 5
1.3.1 Web数据的高度复杂性 5
1.3.2 Web数据检索的局限性 6
1.4 Web挖掘的研究方向 8
1.5 小结 9
第2章 Web挖掘的基础知识 10
2.1 Web挖掘的主要预备知识 10
2.1.1 数据挖掘 10
2.1.2 文本挖掘 12
2.1.3 信息检索 15
2.2 Web挖掘分类 17
2.2.1 Web数据的分类体系 17
2.2.2 Web挖掘分类 17
2.3 Web挖掘的主要应用 20
2.4 Web挖掘的基本流程 21
2.4.1 数据采集 22
2.4.2 数据预处理 22
2.4.3 模式挖掘 23
2.4.4 模式评估 23
2.5 Web挖掘领域的重要文献、国际期刊与会议、标准规范 24
2.5.1 Web挖掘领域的重要文献 24
2.5.2 Web挖掘相关的国际期刊与国际会议 26
2.5.3 Web挖掘相关的标准、规范及语言 28
2.6 小结 33
第3章 Web爬取与页面组织管理 34
3.1 Web爬取概述 34
3.1.1 Web爬取的分类 34
3.1.2 Web爬取的基本原理 36
3.1.3 Web爬取面临的挑战 39
3.2 Web爬取中的主要技术问题 40
3.2.1 爬取次序 40
3.2.2 爬取性能问题 42
3.2.3 爬取礼貌性问题 48
3.3 隐含Web爬取 50
3.3.1 隐含Web爬虫框架及工作机理 51
3.3.2 表单分析与提交 52
3.3.3 隐含Web爬虫实例HiWE 57
3.4 面向主题的Web爬取 60
3.4.1 主题相关度分析 61
3.4.2 确定下个访问URL 62
3.4.3 面向主题爬取的爬虫实例 66
3.5 爬取页面的存储与管理 67
3.5.1 爬取文档的特点 67
3.5.2 爬取文档的存储方法 68
3.5.3 爬取文档的管理 72
3.6 小结 73
第4章 Web结构挖掘 74
4.1 Web结构挖掘概述 74
4.1.1 Web结构挖掘的分类 74
4.1.2 Web结构挖掘的应用 76
4.2 PageRank算法 78
4.2.1 超链接分析的假设 78
4.2.2 随机冲浪(random surfing)模型 79
4.2.3 PageRank值的计算 82
4.2.4 PageRank算法的改进 85
4.2.5 PageRank算法在Google中的应用 89
4.3 HITS算法 90
4.3.1 HITS算法的基本思想 91
4.3.2 HITS算法具体过程 91
4.3.3 HITS算法与PageRank算法的对比 96
4.3.4 HITS算法改进 97
4.4 Hilltop算法 99
4.4.1 Hilltop算法基本思想 100
4.4.2 专家页面选取及分值计算 100
4.4.3 目标页面选取及分值计算 101
4.4.4 PageRank算法和Hilltop算法区别 102
4.4.5 Hilltop算法的缺陷 102
4.5 Web宏观结构特性分析 102
4.5.1 Web的无尺度特性 103
4.5.2 Web的小世界(small world)特性 105
4.5.3 “蝴蝶结”和“日冕”现象 106
4.5.4 Web宏观结构特性的主要应用 109
4.6 小结 110
第5章 Web内容挖掘 111
5.1 Web页面的特征表示 111
5.1.1 特征表示的基本原理 112
5.1.2 特征的离散化 113
5.1.3 Web页面特征分析 114
5.1.4 页面文本建模 116
5.2 Web页面分类 121
5.2.1 分类方法综述 121
5.2.2 基于内容的网页分类 125
5.3 Web页面聚类 128
5.3.1 聚类方法综述 129
5.3.2 基于内容的页面聚类 133
5.4 面向Web的信息抽取 136
5.4.1 信息抽取概述 136
5.4.2 命名实体识别 140
5.4.3 实体关系检测 143
5.4.4 页面元数据抽取 145
5.5 面向Web的本体学习 162
5.5.1 面向文本的本体学习概述 162
5.5.2 概念获取 170
5.5.3 概念关系获取 187
5.5.4 试验结果与分析 196
5.6 面向Web的知识元及其关联抽取 203
5.6.1 知识元及其关联抽取概述 204
5.6.2 知识元抽取 205
5.6.3 知识元前序关系抽取 211
5.7 多媒体数据挖掘 219
5.7.1 图像数据的挖掘 220
5.7.2 视频数据的挖掘 223
5.7.3 音频数据的挖掘 224
5.8 Web内容挖掘的未来研究方向 225
5.9 小结 226
第6章 Web日志挖掘 227
6.1 Web日志挖掘概述 227
6.1.1 Web日志挖掘的分类 229
6.1.2 Web日志挖掘的典型应用 231
6.1.3 Web日志挖掘的流程 234
6.2 Web日志预处理 237
6.2.1 Web日志数据的格式 238
6.2.2 Web日志数据清洗 240
6.2.3 用户识别和会话识别 241
6.2.4 访问路径填充 244
6.2.5 事务识别 245
6.3 序列模式挖掘 248
6.3.1 序列模式的定义 248
6.3.2 GSP算法 250
6.3.3 PrefixSpan算法 255
6.4 Web用户行为模式挖掘 261
6.4.1 研究现状 261
6.4.2 相关概念 262
6.4.3 用户行为模式挖掘工作机理 262
6.5 Web用户个性挖掘 270
6.5.1 个性挖掘的基本概念 270
6.5.2 个性属性归并 271
6.5.3 用户个性聚类 273
6.5.4 个性特征与行为的关联规则分析 276
6.5.5 个性特征的获取 277
6.5.6 实例 277
6.6 Web用户兴趣感知 279
6.6.1 研究现状 279
6.6.2 基于建构主义的学习兴趣感知 280
6.6.3 用户兴趣模型的表示和更新 281
6.6.4 用户兴趣感知举例 281
6.7 Web日志挖掘的未来研究方向 283
6.8 小结 284
第7章 Web挖掘的应用实例 285
7.1 应用1:面向网络学习的学习者个性挖掘 285
7.1.1 学习者模型和数据收集 286
7.1.2 学习者个性挖掘机理 289
7.1.3 PELDIS工作流程 290
7.1.4 个性挖掘实例 292
7.2 应用2:海量Web资源中的知识处理与服务 295
7.2.1 体系结构与工作机理 296
7.2.2 基于主题图的Web资源组织与管理 299
7.2.3 主题图的自动生成 302
7.2.4 多维关联索引构建与检索结果的个性化排序 309
7.2.5 个性化资源推荐与导航 311
7.2.6 基于SOA的Yotta系统实现 317
7.3 小结 318
参考文献 320
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《汉语词汇知识与习得研究》邢红兵主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《情报学 服务国家安全与发展的现代情报理论》赵冰峰著 2018
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《新课标背景下英语教学理论与教学活动研究》应丽君 2018
- 《党员干部理论学习培训教材 理论热点问题党员干部学习辅导》(中国)胡磊 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019