第1章 数据挖掘简介 1
1.1大数据时代的数据挖掘 2
1.1.1大数据的特点“4V+4V” 3
1.1.2数据挖掘 5
1.1.3从数据挖掘应用的角度看大数据 7
1.2数据挖掘技术的发展历史 8
1.3十大数据挖掘算法简介 10
1.4数据挖掘平台:FIU-Miner 21
1.4.1 FIU-Miner平台简介 22
1.4.2 FIU-Miner系统架构 22
1.4.3 FIU-Miner应用实例 23
参考文献 28
第2章 系统日志和事件的挖掘 31
2.1数据驱动的网络运维 32
2.1.1网络运维1.0阶段:简单数据处理 33
2.1.2网络运维2.0阶段:分布式大数据处理框架 34
2.1.3网络运维3.0阶段:网络运维平台套件 34
2.1.4网络运维4.0阶段:智能化网络运维 35
2.2系统日志分析的目的 35
2.2.1系统问题诊断 36
2.2.2调试与优化 37
2.2.3系统安全维护 37
2.3日志数据分析管理系统的架构 38
2.3.1日志数据的收集和预处理 39
2.3.2历史日志数据存储 39
2.3.3日志事件数据的分析以及对分析结果的展示和使用 39
2.4系统日志的数据形式 40
2.4.1无结构的日志数据 40
2.4.2结构化与半结构化的日志数据 41
2.4.3非结构化数据的转换 43
2.5基于日志数据的异常检测 44
2.5.1基于监督学习的异常检测 44
2.5.2基于无监督学习的异常检测 48
2.6系统故障根源跟踪 52
2.6.1日志事件的依赖性挖掘 54
2.6.2基于依赖关系的系统故障追踪 65
2.7日志事件总结 65
2.7.1事件总结算法基本要求及相关工作 66
2.7.2基于事件发生频率变迁描述的事件总结 67
2.7.3基于马尔可夫模型描述的事件总结 67
2.7.4基于事件关系网络描述的事件总结 68
参考文献 69
第3章 工作票数据挖掘 75
3.1工作票简介 76
3.2工作票产生机制和亟待解决的问题 77
3.3研究现状 79
3.3.1工作票分类 80
3.3.2工作票推荐 82
3.3.3整体解决方案和工具 84
3.4工作票漏报和误报检测 84
3.4.1漏报和误报 84
3.4.2基于规则的误报识别方法 86
3.4.3半监督的工作票漏报发现方法 89
3.4.4评价 92
3.5层次多标签工作票分类 96
3.5.1问题描述 98
3.5.2层次损失函数和期望损失最小化 98
3.5.3算法和解决方案 102
3.5.4实验 104
3.6工作票解决方案推荐 108
3.6.1背景 108
3.6.2基于KNN的推荐方法 109
3.6.3划分方法 111
3.6.4概率融合方法 112
3.6.5度量学习方法 113
3.6.6实验 116
参考文献 126
第4章 大数据与计算可持续性研究 131
4.1大数据与可持续发展 132
4.1.1可持续发展 132
4.1.2大数据时代可持续发展面临的机遇和挑战 133
4.2计算可持续性 133
4.2.1计算可持续性数据及其特征 134
4.2.2大数据环境下计算可持续性研究现状 137
4.3研究案例 142
4.3.1基于数据驱动的气象分析 142
4.3.2基于数据驱动的建筑能耗分析 145
参考文献 155
第5章 推荐系统 159
5.1个性化推荐系统概述 160
5.2推荐技术 163
5.2.1基于内容的推荐系统 163
5.2.2基于协同过滤的推荐系统 164
5.2.3基于知识的推荐系统 165
5.2.4基于混合技术的推荐系统 165
5.2.5基于计算智能的推荐系统 166
5.2.6基于社交网络的推荐系统 167
5.2.7基于上下文敏感的推荐系统 169
5.2.8基于组群的推荐系统 170
5.3推荐系统评测 170
5.3.1推荐系统评测环境 171
5.3.2推荐系统评测指标 174
5.4推荐系统实例 181
5.4.1新闻推荐 181
5.4.2 POI推荐 190
参考文献 198
第6章 智能问答系统 203
6.1发展历史 204
6.2句法分析 205
6.2.1中文分词技术 205
6.2.2词的分类和兼类 207
6.2.3汉语句法分析 208
6.3问题理解 210
6.3.1词法分析 210
6.3.2问题分类 210
6.3.3关键词扩展与抽取 211
6.3.4答案抽取 212
6.4问题检索 212
6.4.1基于词法的问句检索 212
6.4.2基于句法的问句检索 213
6.4.3基于语义的问句检索 213
6.4.4常见问题集的问句检索 213
6.5信息抽取 214
6.5.1抽取的对象 214
6.5.2抽取的种类 215
6.5.3抽取的方法 215
6.6知识库构建 217
6.6.1基本概念 217
6.6.2体系结构 218
6.6.3关键技术 219
6.7知识推理 223
6.7.1线索挖掘 223
6.7.2关系推理 224
6.7.3关系预测 225
6.8案例分析 225
6.8.1限定域系统的现有案例分析 225
6.8.2开放域系统的现有案例分析 233
参考文献 238
第7章 文本挖掘 245
7.1文本表示 246
7.2话题挖掘 248
7.2.1非负矩阵分解 248
7.2.2概率潜在语义分析 249
7.2.3潜在狄利克雷分配模型 250
7.2.4分析与实例比较 251
7.3多文档自动文摘 253
7.3.1目标函数选择:句子重要性评价 253
7.3.2优化方法 257
7.3.3其他的自动文摘问题 258
7.3.4实例分析 259
7.4情感分析和摘要 262
7.4.1基于频繁项集的方法 264
7.4.2实例分析 266
7.4.3基于方面的话题模型分析方法 267
7.5数据挖掘在专利分析中的应用 272
7.5.1专利分析的内容、流程与方法 273
7.5.2数据挖掘在专利分析中的应用方向 278
参考文献 284
第8章 多媒体数据挖掘 291
8.1多媒体技术的特点 292
8.1.1数字化 292
8.1.2多样性 293
8.1.3集成性 293
8.1.4交互性 293
8.1.5非线性 294
8.1.6实时性 294
8.2多媒体数据挖掘概述 294
8.2.1背景 294
8.2.2研究及应用现状 295
8.3多媒体数据的特征抽取 296
8.3.1文本特征抽取 296
8.3.2图像特征表示 297
8.4数据挖掘在图像检索中的应用 300
8.4.1应用背景 300
8.4.2数据集描述 302
8.4.3数据挖掘在图像检索中的算法分析 304
8.4.4图像检索案例 306
8.5数据挖掘在多媒体信息融合中的应用 312
8.5.1应用背景 313
8.5.2数据集描述 314
8.5.3数据挖掘在多媒体信息融合中的算法分析 315
8.5.4多媒体信息融合案例 317
8.6数据挖掘在人脸识别中的应用 334
8.6.1应用背景 334
8.6.2数据集描述 336
8.6.3人脸识别算法分析 338
8.6.4分布式人脸识别系统设计 348
参考文献 350
第9章 社交媒体挖掘 355
9.1社交媒体数据挖掘简介 356
9.1.1社交媒体分析的特点综述 357
9.1.2社交媒体的典型应用 358
9.2社交网络数据 360
9.3数据挖掘在社交媒体热点问题上的应用 362
9.3.1社交媒体数据挖掘需求 362
9.3.2信息扩散分析 362
9.3.3链接的预测 366
9.3.4专家与关键人物的挖掘 371
9.3.5搜索 380
9.3.6信任 385
9.3.7社交网络的内容与情感挖掘 388
参考文献 389
第10章 时空数据挖掘 395
10.1时空数据挖掘的发展背景 396
10.2时空数据挖掘的相关研究 397
10.2.1时空数据的来源 397
10.2.2时空数据的基本性质 398
10.2.3时空数据挖掘的方法与任务 399
10.3时空数据的模式挖掘 403
10.3.1时空数据的频繁模式 403
10.3.2时空数据的异常模式 404
10.4时空数据的聚类和分类 406
10.4.1时空数据的聚类 406
10.4.2时空数据的分类 410
10.5时空数据预测 411
10.5.1位置预测 412
10.5.2位置推荐 412
10.6时空数据挖掘的案例研究 413
10.6.1 TerryFly GeoCloud 413
10.6.2 NUPT-ST-Miner 420
10.7时空数据挖掘的挑战和发展 428
参考文献 430
第11章 生物信息学 437
11.1生物医学知识综述 438
11.2生物医学大数据 441
11.3数据挖掘在蛋白质与核酸相互作用研究中的应用 442
11.3.1基于机器学习的蛋白质与核酸相互作用的研究策略 443
11.3.2案例分析:蛋白质中RNA—结合残基的预测模型 445
11.4数据挖掘在生物医学文献中的应用 448
11.4.1生物医学文献挖掘概述 448
11.4.2数据挖掘应用方法描述 450
11.5数据挖掘在基因表达数据中的应用 463
11.5.1基因芯片技术 463
11.5.2下一代高通量测序技术 463
11.5.3 RNA-Seq技术与基因芯片技术的比较 464
11.5.4数据挖掘在下一代高通量RNA-Seq测序数据中的应用 465
参考文献 468
第12章 隐私保护和数据挖掘 473
12.1隐私保护概述 474
12.1.1隐私侵害事件 474
12.1.2隐私保护困境 475
12.1.3隐私保护要求 477
12.1.4隐私保护水平度量 477
12.2隐私保护技术分类 478
12.2.1匿名化技术 478
12.2.2加密技术 480
12.2.3数据扰动技术 481
12.3隐私保护数据挖掘方法 485
12.3.1隐私保护聚类 486
12.3.2隐私保护决策树 488
12.3.3隐私保护推荐系统 490
12.3.4隐私保护贝叶斯算法 492
12.3.5隐私保护支持向量机 493
12.3.6隐私保护关联规则挖掘 494
12.4复杂数据挖掘场景下的隐私保护 495
12.4.1大数据隐私保护 495
12.4.2图数据隐私保护 498
12.4.3云数据隐私保护 499
12.4.4隐私保护深度学习 500
参考文献 501
第13章 健康医疗大数据中的数据挖掘技术 507
13.1健康医疗大数据的含义 508
13.2数据特性 509
13.3预警系统 510
13.3.1数据预处理 513
13.3.2 Bucketing 514
13.3.3 Bucket Bagging 514
13.3.4特征集构造 515
13.3.5特征选择 517
13.3.6探索性下采样 518
13.3.7指数移动平均 519
13.4非结构化文本信息的挖掘 519
13.5数据挖掘实例 520
13.5.1评价标准 521
13.5.2实验设计 521
13.5.3逻辑回归模型的实验结果 522
13.5.4算法比较 523
13.5.5预警时间分析 525
13.6应用方向 526
13.6.1疾病预警预测及生存期分析 527
13.6.2疾病辅助诊断治疗 527
13.6.3药物研究 528
13.6.4医学影像 528
13.6.5医院信息系统 529
13.6.6远程医疗 530
13.6.7健康数据库管理 531
13.6.8医疗健康相关企业经营 531
参考文献 532