第一章 数据挖掘简介 1
1.1 大数据时代的数据挖掘 1
1.1.1 数据挖掘 1
1.1.2 从数据挖掘应用的角度看大数据 3
1.2 数据挖掘技术发展和历史 3
1.3 十大数据挖掘算法简介 4
第二章 系统日志和事件的挖掘 8
2.1 摘要 8
2.2 系统日志分析的目的 8
2.2.1 系统问题诊断 8
2.2.2 调试与优化 9
2.2.3 系统安全维护 9
2.3 日志数据分析管理系统的架构 10
2.3.1 日志数据的收集和预处理 11
2.3.2 历史日志数据存储 11
2.3.3 日志事件数据的分析和结果展示以及使用 11
2.4 系统日志的数据形式 11
2.4.1 无结构的日志数据 12
2.4.2 结构化与半结构化的日志数据 13
2.4.3 非结构化数据的转换 14
2.5 基于日志数据的异常检测 15
2.5.1 基于监督学习的异常检测 15
2.5.2 基于无监督学习的异常检测 18
2.6 系统故障根源跟踪 21
2.6.1 日志事件的依赖性挖掘 22
2.6.2 基于依赖关系的系统故障追踪 30
2.7 日志事件总结 31
2.7.1 事件总结算法基本要求及相关工作 31
2.7.2 基于事件发生频率变迁描述的事件总结 32
2.7.3 基于马尔科夫模型描述的事件总结 32
2.7.4 基于事件关系网络描述的事件总结 33
2.8 本章小结 34
2.9 中英文术语对照表 34
参考文献 35
第三章 数据挖掘在云计算中的应用 38
3.1 摘要 38
3.2 云计算背景介绍 38
3.3 数据挖掘在云计算中的应用 39
3.4 案例介绍及困难分析:容量规划与虚拟机储备 41
3.4.1 问题背景 41
3.4.2 问题抽象与描述 42
3.4.3 预测结果评估 43
3.4.4 预测的困难性 44
3.5 案例具体分析及解决 44
3.5.1 预测困难性的体现 44
3.5.2 资源预测解决方案 46
3.5.3 数据预处理问题 47
3.5.4 预测评估标准选择 50
3.5.5 集成学习策略 52
3.6 案例分析结果 53
3.6.1 资源请求时间序列预测结果分析 53
3.6.2 资源销毁时间序列预测结果分析 54
3.6.3 虚拟机储备时间序列预测结果分析 55
3.7 本章小结 56
3.8 附录:时间序列分析模型介绍 57
3.8.1 滑动窗口平均数预测 57
3.8.2 自回归预测 57
3.8.3 人工神经网络 58
3.8.4 支持向量回归机 59
3.8.5 基因表达式编程 60
3.9 术语解释 61
参考文献 63
第四章 恶意软件智能检测 65
4.1 摘要 65
4.2 应用背景 65
4.2.1 互联网安全现状 65
4.2.2 “云安全”计划 66
4.2.3 数据挖掘在恶意软件智能检测中的应用 66
4.3 数据采集与预处理 67
4.3.1 恶意软件的定义 67
4.3.2 恶意软件的分类及特点 67
4.3.3 恶意软件的特征表达 68
4.4 数据挖掘的算法与实现 73
4.4.1 数据挖掘的任务 73
4.4.2 分类学习方法在恶意软件检测中的算法与实现 73
4.4.3 分类集成学习在恶意软件检测中的算法与实现 79
4.4.4 聚类及聚类融合在恶意软件检测中的算法与实现 81
4.5 系统实现 87
4.5.1 系统架构 87
4.5.2 系统实际应用效果与分析 88
4.6 本章小结 90
4.7 中英文对照表 91
参考文献 92
第五章 社交媒体挖掘 95
5.1 摘要 95
5.2 社交媒体数据挖掘简介 95
5.2.1 社交媒体分析的特点综述 96
5.2.2 社交媒体典型应用 97
5.3 社交网络数据 97
5.4 数据挖掘在社交媒体热点问题上的应用 98
5.4.1 社交媒体数据挖掘需求 99
5.4.2 信息扩散分析(Information Diffusion) 99
5.4.3 链接的预测(Link Prediction) 102
5.4.4 专家与关键人物的挖掘 106
5.4.5 搜索 111
5.4.6 信任(Trust) 115
5.4.7 社交网络的内容与情感挖掘 118
5.5 本章小结 118
5.6 术语解释 119
参考文献 120
第六章 推荐系统 123
6.1 摘要 123
6.2 个性化推荐系统概述 123
6.3 推荐技术 125
6.3.1 基于内容的推荐方法 127
6.3.2 基于协同过滤的推荐方法 130
6.3.3 基于混合过滤的推荐方法 133
6.3.4 小结 135
6.4 推荐系统评测 135
6.4.1 实验环境 135
6.4.2 评测指标 138
6.4.3 小结 142
6.5 推荐系统实例 142
6.5.1 新闻推荐 142
6.5.2 人才推荐 148
6.6 推荐系统前景展望 154
6.6.1 多维度推荐 155
6.6.2 推荐中的时间动态性 156
6.7 本章小结 156
6.8 术语解释 157
参考文献 159
第七章 智能广告 163
7.1 摘要 163
7.2 引言 163
7.3 计算广告产业链介绍 164
7.3.1 广告计价模式 166
7.3.2 广告竞价模式 167
7.4 计算广告系统介绍 167
7.4.1 离线分析平台 167
7.4.2 实时投放平台 169
7.4.3 广告系统评估标准 171
7.5 搜索广告 171
7.5.1 广告索引 173
7.5.2 广告匹配模型 174
7.5.3 CTR预测与广告投放 175
7.5.4 拍卖策略 176
7.6 上下文广告 177
7.6.1 广告匹配 178
7.6.2 关键字提取 180
7.6.3 广告排序模型 180
7.7 显示广告 181
7.7.1 用户定位 182
7.7.2 CTR预测 183
7.8 本章小结 184
7.9 术语解释 184
参考文献 186
第八章 灾难信息管理 193
8.1 摘要 193
8.2 灾难管理的背景和目标 193
8.3 灾难管理应用中数据的特点和难点 194
8.4 灾难管理工作流程和工具 195
8.5 灾难管理数据流和功能模块 197
8.5.1 信息抽取(Information Extraction,IE) 197
8.5.2 信息检索(Information Retrieval,IR) 198
8.5.3 信息过滤(Information Filtering,IF) 198
8.5.4 决策支持(Decision Support,DS) 199
8.6 数据挖掘在灾难管理中的作用 199
8.7 案例分析 201
8.7.1 项目背景 201
8.7.2 数据资源 201
8.7.3 系统目标 203
8.7.4 系统实现及功能组件 203
8.8 算法分析和评价标准 205
8.8.1 定向爬虫(Focused Crawler) 205
8.8.2 信息提取(Information Extraction) 207
8.8.3 多文档文摘(Multi-Document Summarization) 208
8.8.4 动态查询(Dynamic Query Form) 208
8.8.5 动态展板(Dynamic Dashboard) 209
8.8.6 社区发现(Community Generation) 209
8.8.7 推荐(Recommendation) 210
8.9 本章小结 212
8.10 中英文对照表 212
参考文献 214
第九章 文本挖掘 216
9.1 摘要 216
9.2 文本表示(Text Representation) 216
9.3 话题挖掘(Topic Mining) 218
9.3.1 非负矩阵分解(NMF) 218
9.3.2 概率潜在语义分析(PLSA) 218
9.3.3 潜在狄利克雷分配模型(LDA) 219
9.3.4 分析与实例比较 221
9.4 多文档自动文摘 222
9.4.1 目标函数选择:句子重要性评价 222
9.4.2 优化方法 225
9.4.3 其他的自动文摘问题 226
9.4.4 实例分析 227
9.5 情感分析和摘要 229
9.5.1 基于频繁项集(frequent item set)的方法 229
9.5.2 实例分析 232
9.5.3 基于方面(Aspect-based)的话题模型分析方法 233
9.6 剧情摘要 237
9.6.1 连点成线方法(Connecting Dots) 237
9.6.2 有向施泰纳树扩展支配集方法 241
9.6.3 地铁网络模型(Metro Map) 244
9.7 本章小结 246
9.8 中英文对照表 247
参考文献 248
第十章 多媒体数据挖掘 251
10.1 摘要 251
10.2 多媒体基本概念 251
10.2.1 数字化 251
10.2.2 多样性 252
10.2.3 集成性 252
10.2.4 交互性 252
10.2.5 非线性 252
10.2.6 实时性 252
10.3 多媒体数据挖掘概述 253
10.3.1 背景 253
10.3.2 研究及应用现状 253
10.4 多媒体数据的特征抽取 254
10.4.1 文本特征抽取 254
10.4.2 图像特征表示 255
10.5 数据挖掘在图像检索中的应用 257
10.5.1 应用背景 257
10.5.2 数据集描述 258
10.5.3 数据挖掘在图像检索中的算法分析 259
10.5.4 图像检索案例 261
10.6 数据挖掘在多媒体信息融合中的应用 266
10.6.1 应用背景 266
10.6.2 数据集描述 267
10.6.3 数据挖掘在多媒体信息融合中的算法分析 268
10.6.4 多媒体信息融合案例 269
10.7 本章小结 282
10.8 中英文对照表 283
参考文献 285
第十一章 空间数据挖掘 288
11.1 简介 288
11.2 空间数据挖掘特点 288
11.3 空间位置预测 289
11.3.1 自回归模型 289
11.3.2 马尔可夫随机场模型 290
11.4 空间异常检测 290
11.5 空间同位规则挖掘 291
11.5.1 参照中心特征模型 293
11.5.2 中心窗口模型 294
11.5.3 中心事件模型 294
11.6 案例分析 294
11.6.1 TerryFly GeoCloud系统功能介绍 294
11.6.2 实际案例分析 297
11.7 空间数据挖掘最新研究方向 299
11.7.1 时空数据挖掘 301
11.7.2 移动对象数据挖掘与检索 302
11.8 本章小结 303
11.9 中英文对照表 303
参考文献 305
第十二章 生物信息学和健康医疗 308
12.1 摘要 308
12.2 生物学背景知识概述 308
12.3 数据挖掘在基因芯片数据处理中的应用 310
12.3.1 基因芯片技术概述 310
12.3.2 基因芯片的应用概述 311
12.3.3 基因表达谱芯片数据的采集与预处理 311
12.3.4 数据挖掘应用算法概述 312
12.3.5 下一代测序技术 315
12.3.6 多源生物数据融合 317
12.4 案例分析——基因表达谱数据挖掘在药物毒理研究的应用 318
12.4.1 药物毒理研究简介 318
12.4.2 数据来源 318
12.4.3 数据预处理 319
12.4.4 特征选择与识别模式建立 319
12.5 数据挖掘在健康数据分析中的应用 323
12.5.1 健康数据的异质性 323
12.5.2 数据挖掘应用于医疗实践的各个方面 324
12.6 本章小结 326
12.7 中英文对照表 326
参考文献 329
第十三章 数据挖掘在建筑业中的应用 332
13.1 摘要 332
13.2 数据挖掘在建筑业的应用概述 332
13.3 数据挖掘在建筑结构损伤识别中的应用 334
13.3.1 应用背景 334
13.3.2 数据采集与预处理 335
13.3.3 数据挖掘应用算法分析 336
13.3.4 结构损伤系统实现案例 339
13.4 数据挖掘在建筑环境影响评价中的应用 345
13.4.1 应用背景 345
13.4.2 数据采集与预处理 346
13.4.3 数据挖掘方法应用与算法分析 348
13.5 本章小结 351
13.6 术语解释 351
参考文献 353
第十四章 数据挖掘在高端制造业的应用 355
14.1 摘要 355
14.2 引言 355
14.2.1 制造业发展 355
14.2.2 高端制造业中的数据挖掘 356
14.2.3 相关工作 357
14.3 从数据挖掘到生产实践 359
14.3.1 应用背景 359
14.3.2 数据挖掘方法 361
14.3.3 制造业数据挖掘平台 373
14.4 本章小结 375
14.5 中英文对照表 375
参考文献 377
第十五章 数据挖掘在可持续发展的应用 379
15.1 摘要 379
15.2 概述 379
15.3 可持续发展中的数据挖掘任务 379
15.3.1 气象 380
15.3.2 生态保护 381
15.3.3 农业和土地 382
15.3.4 智能电网 383
15.4 案例研究 384
15.5 可持续计算的数据 386
15.6 本章小结 388
15.7 术语解释 388
参考文献 389
第十六章 数据挖掘在专利领域中的应用 392
16.1 摘要 392
16.2 绪论 392
16.3 背景知识 394
16.3.1 专利文献的概念及其特点 394
16.3.2 专利文献的分类标准 395
16.3.3 专利文献的组成部分 396
16.4 数据挖掘在专利检索的应用 396
16.4.1 现阶段的专利检索系统 398
16.4.2 专利检索步骤 399
16.4.3 专利检索优化 400
16.5 数据挖掘在专利分析的应用 403
16.5.1 专利分析的内容、流程与方法 403
16.5.2 数据挖掘在专利分析的应用 407
16.6 本章小结 411
16.7 术语解释 412
参考文献 414