第1章 大规模数据云计算设施:当前的紧迫任务 1
1.1 引言 2
1.2 相关工作 3
1.3 云计算概述 4
1.3.1 云计算的基本特征 4
1.3.2 服务模型 5
1.3.3 部署模型 6
1.3.4 云存储设施 8
1.3.5 云存储设施需求 9
1.4 大数据概述 10
1.4.1 大数据的特征 11
1.4.2 大数据对于基础设施的影响 12
1.4.3 大数据对于未来市场的影响 14
1.5 云计算与大数据:不可抗拒的结合 15
1.5.1 优化当前基础设施以处理大数据 16
1.6 使用云服务处理大数据的挑战与困难 17
1.7 讨论 19
1.8 结论 20
参考文献 20
第2章 大数据运动:数据处理的挑战 24
2.1 引言 25
2.2 大数据中的数据处理 27
2.2.1 数据结构 27
2.2.2 NoSQL数据库 28
2.2.3 大数据 30
2.3 数据处理服务中的并行性 33
2.3.1 性能评估 33
2.3.2 可拓展性与Amdahl's定律 33
2.3.3 任务与数据并行性 34
2.3.4 编程环境 35
2.3.5 编程语言与代码优化 36
2.4 天文学中的大数据崩塌 37
2.4.1 虚拟观测 39
2.4.2 天文信息学 42
2.5 大数据与演化算法:视角与可能性 46
2.6 总结 53
参考文献 54
第3章 基于高维数据的鲁棒性能模型担保 59
3.1 引言 60
3.1.1 问题定义 61
3.2 相关工作 63
3.2.1 挑战与贡献 65
3.3 约束和对比模型性能的原则 68
3.3.1 鲁棒性统计评估 68
3.3.2 数据灵活性 73
3.3.3 数据可拓展性 75
3.3.4 多设置条件下性能担保水平评估 75
3.3.5 多准则集成 76
3.4 结果与讨论 77
3.5 结论及下一步工作 83
参考文献 84
第4章 流聚类算法导读 88
4.1 引言 89
4.2 流聚类算法的体系结构 90
4.3 数据流聚类存在的问题 91
4.3.1 概要表示 91
4.3.2 到达的数据点的高效增量处理 92
4.3.3 处理混合属性 92
4.3.4 获取近期性和数据演化 92
4.3.5 硬聚类和模糊聚类 94
4.3.6 异常值检测 94
4.4 流聚类方法 94
4.4.1 基于距离和基于密度的方法 95
4.4.2 基于网格的方法 99
4.4.3 基于统计法的方法 104
4.4.4 讨论 107
4.5 流聚类算法中概要的功能 110
4.5.1 概要对参数的敏感性 110
4.5.2 概要初始化 111
4.5.3 获取数据中自然结构的能力 111
4.5.4 存储器的使用 112
4.5.5 单点处理时间 112
4.5.6 对数据排序的敏感性 112
4.5.7 管理混合属性 113
4.5.8 处理异常值 113
4.5.9 获取数据演化 113
4.5.10 总结 114
4.6 流聚类的其他问题和挑战 114
4.6.1 弱实验评估 115
4.6.2 可用性 116
4.6.3 改变建模 117
4.7 结论 117
参考文献 118
第5章 大数据中的语言重复交叉检查 123
5.1 引言 124
5.2 重复记录检测概述 127
5.2.1 拼音名字匹配算法 129
5.2.2 重复记录检测技术的质量 129
5.3 相关工作 130
5.4 方法学 132
5.4.1 上述重复记录检测框架 133
5.4.2 预处理:数据清理和标准化 134
5.4.3 语言插件 135
5.4.4 创建基于语音的词典 136
5.4.5 索引/分块 136
5.4.6 记录配对比较 137
5.4.7 分类函数 137
5.4.8 跨语言重复记录检测的质量评估 137
5.4.9 未来展望:大数据趋势 138
5.5 结果和讨论 139
5.5.1 实验1:比较CLDRD和Febrl 140
5.5.2 实验2:比较Febrl和CLDRD中的分块技术 141
5.6 总结 141
参考文献 142
第6章 基于粗糙集和改进和声搜索算法混合的新型蛋白序列分类特征选择算法 145
6.1 引言 146
6.2 相关工作 148
6.3 提议的框架 150
6.3.1 蛋白质一级序列 150
6.3.2 伪氨基酸生成器 152
6.3.3 氨基酸成分 152
6.3.4 K-元组子序列 152
6.3.5 离散化 153
6.3.6 蛋白质分类 153
6.4 粗糙集理论基础 154
6.5 特征提取 155
6.6 特征选择 156
6.6.1 基于粗糙集属性的约简算法 156
6.6.2 粗糙集粒子群最优化算法 157
6.6.3 和声搜索算法 158
6.6.4 基于粗糙集的改进的和声搜索算法(RSIHS) 161
6.7 实验分析 163
6.7.1 数据源 163
6.7.2 结果及讨论 163
6.8 结论及未来工作 167
参考文献 168
第7章 Twitter中新闻演化的自动发现 172
7.1 引言 173
7.2 相关工作 175
7.2.1 大数据:挑战和机遇 175
7.2.2 社交媒体和“大数据” 176
7.3 Twitter网络的背景 178
7.3.1 作为决策支持工具的Twitter 180
7.4 关联规则挖掘概述 180
7.4.1 推文中的关联规则 181
7.4.2 规则相似性和差异性 181
7.4.3 度量相似性 182
7.5 基于事务的规则改变挖掘的演化 182
7.5.1 基于事务的规则改变挖掘规则的定义 183
7.6 使用基于事务的规则改变挖掘规则类型识别(TRCM-RTI),分析推文趋势 184
7.6.1 规则趋势分析 184
7.6.2 推文中正在演化规则的时间帧窗口 185
7.6.3 新闻和主题标签,哪个先出现?——“TwO-NwO”状态 186
7.7 实证评估 187
7.7.1 实验设置 188
7.7.2 实验性的案例研究 189
7.7.3 案例研究 192
7.8 结论 193
7.8.1 未来工作 194
参考文献 194
第8章 基于混合容差粗糙集的社交标签系统智能方法研究 197
8.1 引言 198
8.2 相关工作 200
8.3 社交标签数据聚类的各阶段 203
8.3.1 数据格式化 203
8.3.2 预处理 204
8.3.3 聚类 205
8.4 实验结果 211
8.4.1 无监督快速精简书签选择 211
8.4.2 聚类算法的性能分析 212
8.4.3 比较分析 217
8.5 结果的解释 221
8.6 结论 222
参考文献 222
第9章 为比较胆囊切除术后病患的共病指数开发麻醉和手术护理医疗数据库 225
9.1 引言 226
9.1.1 临床数据库 226
9.1.2 围手术期疗效比较研究 227
9.1.3 大型数据库和围手术期研究 229
9.1.4 基于风险分层的共病重要性 230
9.2 本章目标和结构 232
9.3 方法 232
9.3.1 参与者 232
9.3.2 变量 232
9.3.3 数据分析 233
9.4 结果 233
9.4.1 病患特征 233
9.4.2 粗死亡率 233
9.5 讨论 236
9.5.1 研究的局限性和优势 236
9.5.2 其他应用 236
9.5.3 大数据库的优势 240
9.5.4 大型数据库的有效性 241
9.5.5 注意事项和清单 244
9.6 总结 244
参考文献 245
第10章 采用初级保健服务、医院和职业数据库的病假和记录连接研究 250
10.1 引言 251
10.1.1 电子卫生数据库 251
10.1.2 记录连接 254
10.1.3 初级卫生保健患者的Charlson共病指数和病假 258
10.2 目的和章节结构 260
10.3 方法 260
10.3.1 研究人群 260
10.3.2 数据收集 260
10.3.3 统计分析 261
10.4 结果 262
10.5 讨论 267
10.5.1 病假和CCIPC 267
10.5.2 下一步:通过大数据提高信息的可用性 269
10.6 结论 270
参考文献 271
第11章 基于双射软集合的ECG心律失常的分类 276
11.1 引言 277
11.2 相关工作 278
11.3 材料和方法 281
11.3.1 信号采集 282
11.3.2 信号预处理和特征提取 282
11.3.3 改良双射软集合的提出和应用 284
11.4 Pan-Tompkins算法 286
11.4.1 带通滤波器 286
11.4.2 求导 287
11.4.3 非线性转换 287
11.4.4 移动窗口整合 287
11.4.5 框标 287
11.5 基本概念——软集合和双射软集合 288
11.5.1 软集合理论 288
11.5.2 双射软集合理论 288
11.6 ECG信号相对性分类算法 289
11.6.1 反向传播神经网络 289
11.6.2 朴素贝叶斯分类法 291
11.6.3 决策树——J48 291
11.6.4 决策表算法 292
11.7 实验分析和结果 293
11.8 结论 297
参考文献 298
第12章 地理空间语义:从大数据到数据生态系统 301
12.1 引言 301
12.2 相关工作 303
12.3 地理空间语义 304
12.3.1 语义关系 305
12.3.2 语义属性和剖析 307
12.4 应用 308
12.4.1 地理数据生态系统 308
12.4.2 犯罪地图:分析员和公民 310
12.4.3 地理空间的推理 314
12.5 结论 318
参考文献 318
第13章 常见乳腺癌中DNA甲基化的大数据分析和可视化 322
13.1 引言 323
13.2 背景 324
13.2.1 DNA甲基化 324
13.2.2 乳腺癌亚型的生物学特征 325
13.2.3 统计学背景 327
13.3 实验方法 328
13.3.1 非特异性过滤 329
13.3.2 特异性过滤 330
13.3.3 形式概念分析(FCA) 330
13.4 实验结果与讨论 331
13.5 应用FCA识别乳腺癌亚型 332
13.5.1 形式背景 332
13.5.2 FCA 335
13.6 结论与展望 336
参考文献 337
第14章 大数据的数据质量、分析学和隐私 339
14.1 引言 340
14.2 数据/信息质量和数据集成 341
14.2.1 定义 341
14.2.2 市场概述 341
14.2.3 数据/信息质量管理 343
14.2.4 大数据质量 344
14.3 数据隐私和安全 344
14.3.1 医疗保健大数据 345
14.3.2 医疗保健领域的数据隐私 345
14.3.3 数据安全概述 346
14.3.4 管理和政策 347
14.3.5 大量安全数据 348
14.3.6 安全产品 348
14.4 大数据分析学 352
14.4.1 概述 352
14.4.2 技术 352
14.4.3 商业决策 353
14.5 讨论 354
14.5.1 大数据人才的市场需求 355
14.5.2 大数据解决方案的实施 355
14.5.3 大数据出版物分析 355
14.5.4 大数据安全 358
14.6 结论 359
参考文献 360
第15章 医学领域海量异构数据的检索、分析与可视化对比研究 362
15.1 引言 363
15.2 相关工作 364
15.2.1 数据可视化 364
15.2.2 电子病历的可视化系统 366
15.3 医疗多项目系统 370
15.3.1 M2ICOP系统的结构 371
15.4 实验 378
15.5 M2ICOP系统功能和可用性的评估 379
15.5.1 数据采集和评估过程 380
15.5.2 评估结果 380
15.6 结论 381
参考文献 381
第16章 基于改进软粗糙集的心律失常心电图信号分类方法 385
16.1 引言 386
16.1.1 心电图波形描述 387
16.1.2 心电图的解释 387
16.2 相关工作 388
16.3 研究方法 389
16.3.1 信号采集 390
16.3.2 预处理 390
16.3.3 特征提取 392
16.4 背景 393
16.4.1 粗糙集 393
16.4.2 软集合理论 394
16.4.3 软粗糙集 395
16.5 分类 396
16.5.1 朴素贝叶斯 396
16.5.2 MLP 396
16.5.3 BPN 397
16.5.4 J48 397
16.5.5 JRip 397
16.5.6 决策表 398
16.5.7 MSR 399
16.6 实验分析及结果 400
16.6.1 评价指标 401
16.6.2 性能评估 402
16.6.3 讨论 404
16.7 结论 405
参考文献 405
第17章 一种新型大型分布式数据的描述与操作架构 408
17.1 引言 409
17.2 分布式数据库和大数据 410
17.2.1 集中式架构内大数据的缺点 410
17.2.2 分布式数据库的性能问题 411
17.2.3 关于透明度问题 411
17.3 现有DDBMS概述 412
17.3.1 DDBMS规范 412
17.3.2 在Oracle下的DDB实现示例 412
17.4 目的 416
17.5 描述和操作大型分布式数据的新架构 418
17.5.1 本方法的目标 418
17.5.2 建议的分层架构 418
17.6 智能大型分布式数据 420
17.6.1 研究结果 420
17.6.2 结果评论 429
17.7 结论 430
参考文献 430