复杂系统中大数据分析与实践PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:(埃)阿布·埃拉·哈桑尼(Aboul Ella Hassanien)编著;陈桂明译
- 出 版 社:北京:国防工业出版社
- 出版年份:2018
- ISBN:9787118115659
- 页数:433 页
第1章 大规模数据云计算设施:当前的紧迫任务 1
1.1 引言 2
1.2 相关工作 3
1.3 云计算概述 4
1.3.1 云计算的基本特征 4
1.3.2 服务模型 5
1.3.3 部署模型 6
1.3.4 云存储设施 8
1.3.5 云存储设施需求 9
1.4 大数据概述 10
1.4.1 大数据的特征 11
1.4.2 大数据对于基础设施的影响 12
1.4.3 大数据对于未来市场的影响 14
1.5 云计算与大数据:不可抗拒的结合 15
1.5.1 优化当前基础设施以处理大数据 16
1.6 使用云服务处理大数据的挑战与困难 17
1.7 讨论 19
1.8 结论 20
参考文献 20
第2章 大数据运动:数据处理的挑战 24
2.1 引言 25
2.2 大数据中的数据处理 27
2.2.1 数据结构 27
2.2.2 NoSQL数据库 28
2.2.3 大数据 30
2.3 数据处理服务中的并行性 33
2.3.1 性能评估 33
2.3.2 可拓展性与Amdahl's定律 33
2.3.3 任务与数据并行性 34
2.3.4 编程环境 35
2.3.5 编程语言与代码优化 36
2.4 天文学中的大数据崩塌 37
2.4.1 虚拟观测 39
2.4.2 天文信息学 42
2.5 大数据与演化算法:视角与可能性 46
2.6 总结 53
参考文献 54
第3章 基于高维数据的鲁棒性能模型担保 59
3.1 引言 60
3.1.1 问题定义 61
3.2 相关工作 63
3.2.1 挑战与贡献 65
3.3 约束和对比模型性能的原则 68
3.3.1 鲁棒性统计评估 68
3.3.2 数据灵活性 73
3.3.3 数据可拓展性 75
3.3.4 多设置条件下性能担保水平评估 75
3.3.5 多准则集成 76
3.4 结果与讨论 77
3.5 结论及下一步工作 83
参考文献 84
第4章 流聚类算法导读 88
4.1 引言 89
4.2 流聚类算法的体系结构 90
4.3 数据流聚类存在的问题 91
4.3.1 概要表示 91
4.3.2 到达的数据点的高效增量处理 92
4.3.3 处理混合属性 92
4.3.4 获取近期性和数据演化 92
4.3.5 硬聚类和模糊聚类 94
4.3.6 异常值检测 94
4.4 流聚类方法 94
4.4.1 基于距离和基于密度的方法 95
4.4.2 基于网格的方法 99
4.4.3 基于统计法的方法 104
4.4.4 讨论 107
4.5 流聚类算法中概要的功能 110
4.5.1 概要对参数的敏感性 110
4.5.2 概要初始化 111
4.5.3 获取数据中自然结构的能力 111
4.5.4 存储器的使用 112
4.5.5 单点处理时间 112
4.5.6 对数据排序的敏感性 112
4.5.7 管理混合属性 113
4.5.8 处理异常值 113
4.5.9 获取数据演化 113
4.5.10 总结 114
4.6 流聚类的其他问题和挑战 114
4.6.1 弱实验评估 115
4.6.2 可用性 116
4.6.3 改变建模 117
4.7 结论 117
参考文献 118
第5章 大数据中的语言重复交叉检查 123
5.1 引言 124
5.2 重复记录检测概述 127
5.2.1 拼音名字匹配算法 129
5.2.2 重复记录检测技术的质量 129
5.3 相关工作 130
5.4 方法学 132
5.4.1 上述重复记录检测框架 133
5.4.2 预处理:数据清理和标准化 134
5.4.3 语言插件 135
5.4.4 创建基于语音的词典 136
5.4.5 索引/分块 136
5.4.6 记录配对比较 137
5.4.7 分类函数 137
5.4.8 跨语言重复记录检测的质量评估 137
5.4.9 未来展望:大数据趋势 138
5.5 结果和讨论 139
5.5.1 实验1:比较CLDRD和Febrl 140
5.5.2 实验2:比较Febrl和CLDRD中的分块技术 141
5.6 总结 141
参考文献 142
第6章 基于粗糙集和改进和声搜索算法混合的新型蛋白序列分类特征选择算法 145
6.1 引言 146
6.2 相关工作 148
6.3 提议的框架 150
6.3.1 蛋白质一级序列 150
6.3.2 伪氨基酸生成器 152
6.3.3 氨基酸成分 152
6.3.4 K-元组子序列 152
6.3.5 离散化 153
6.3.6 蛋白质分类 153
6.4 粗糙集理论基础 154
6.5 特征提取 155
6.6 特征选择 156
6.6.1 基于粗糙集属性的约简算法 156
6.6.2 粗糙集粒子群最优化算法 157
6.6.3 和声搜索算法 158
6.6.4 基于粗糙集的改进的和声搜索算法(RSIHS) 161
6.7 实验分析 163
6.7.1 数据源 163
6.7.2 结果及讨论 163
6.8 结论及未来工作 167
参考文献 168
第7章 Twitter中新闻演化的自动发现 172
7.1 引言 173
7.2 相关工作 175
7.2.1 大数据:挑战和机遇 175
7.2.2 社交媒体和“大数据” 176
7.3 Twitter网络的背景 178
7.3.1 作为决策支持工具的Twitter 180
7.4 关联规则挖掘概述 180
7.4.1 推文中的关联规则 181
7.4.2 规则相似性和差异性 181
7.4.3 度量相似性 182
7.5 基于事务的规则改变挖掘的演化 182
7.5.1 基于事务的规则改变挖掘规则的定义 183
7.6 使用基于事务的规则改变挖掘规则类型识别(TRCM-RTI),分析推文趋势 184
7.6.1 规则趋势分析 184
7.6.2 推文中正在演化规则的时间帧窗口 185
7.6.3 新闻和主题标签,哪个先出现?——“TwO-NwO”状态 186
7.7 实证评估 187
7.7.1 实验设置 188
7.7.2 实验性的案例研究 189
7.7.3 案例研究 192
7.8 结论 193
7.8.1 未来工作 194
参考文献 194
第8章 基于混合容差粗糙集的社交标签系统智能方法研究 197
8.1 引言 198
8.2 相关工作 200
8.3 社交标签数据聚类的各阶段 203
8.3.1 数据格式化 203
8.3.2 预处理 204
8.3.3 聚类 205
8.4 实验结果 211
8.4.1 无监督快速精简书签选择 211
8.4.2 聚类算法的性能分析 212
8.4.3 比较分析 217
8.5 结果的解释 221
8.6 结论 222
参考文献 222
第9章 为比较胆囊切除术后病患的共病指数开发麻醉和手术护理医疗数据库 225
9.1 引言 226
9.1.1 临床数据库 226
9.1.2 围手术期疗效比较研究 227
9.1.3 大型数据库和围手术期研究 229
9.1.4 基于风险分层的共病重要性 230
9.2 本章目标和结构 232
9.3 方法 232
9.3.1 参与者 232
9.3.2 变量 232
9.3.3 数据分析 233
9.4 结果 233
9.4.1 病患特征 233
9.4.2 粗死亡率 233
9.5 讨论 236
9.5.1 研究的局限性和优势 236
9.5.2 其他应用 236
9.5.3 大数据库的优势 240
9.5.4 大型数据库的有效性 241
9.5.5 注意事项和清单 244
9.6 总结 244
参考文献 245
第10章 采用初级保健服务、医院和职业数据库的病假和记录连接研究 250
10.1 引言 251
10.1.1 电子卫生数据库 251
10.1.2 记录连接 254
10.1.3 初级卫生保健患者的Charlson共病指数和病假 258
10.2 目的和章节结构 260
10.3 方法 260
10.3.1 研究人群 260
10.3.2 数据收集 260
10.3.3 统计分析 261
10.4 结果 262
10.5 讨论 267
10.5.1 病假和CCIPC 267
10.5.2 下一步:通过大数据提高信息的可用性 269
10.6 结论 270
参考文献 271
第11章 基于双射软集合的ECG心律失常的分类 276
11.1 引言 277
11.2 相关工作 278
11.3 材料和方法 281
11.3.1 信号采集 282
11.3.2 信号预处理和特征提取 282
11.3.3 改良双射软集合的提出和应用 284
11.4 Pan-Tompkins算法 286
11.4.1 带通滤波器 286
11.4.2 求导 287
11.4.3 非线性转换 287
11.4.4 移动窗口整合 287
11.4.5 框标 287
11.5 基本概念——软集合和双射软集合 288
11.5.1 软集合理论 288
11.5.2 双射软集合理论 288
11.6 ECG信号相对性分类算法 289
11.6.1 反向传播神经网络 289
11.6.2 朴素贝叶斯分类法 291
11.6.3 决策树——J48 291
11.6.4 决策表算法 292
11.7 实验分析和结果 293
11.8 结论 297
参考文献 298
第12章 地理空间语义:从大数据到数据生态系统 301
12.1 引言 301
12.2 相关工作 303
12.3 地理空间语义 304
12.3.1 语义关系 305
12.3.2 语义属性和剖析 307
12.4 应用 308
12.4.1 地理数据生态系统 308
12.4.2 犯罪地图:分析员和公民 310
12.4.3 地理空间的推理 314
12.5 结论 318
参考文献 318
第13章 常见乳腺癌中DNA甲基化的大数据分析和可视化 322
13.1 引言 323
13.2 背景 324
13.2.1 DNA甲基化 324
13.2.2 乳腺癌亚型的生物学特征 325
13.2.3 统计学背景 327
13.3 实验方法 328
13.3.1 非特异性过滤 329
13.3.2 特异性过滤 330
13.3.3 形式概念分析(FCA) 330
13.4 实验结果与讨论 331
13.5 应用FCA识别乳腺癌亚型 332
13.5.1 形式背景 332
13.5.2 FCA 335
13.6 结论与展望 336
参考文献 337
第14章 大数据的数据质量、分析学和隐私 339
14.1 引言 340
14.2 数据/信息质量和数据集成 341
14.2.1 定义 341
14.2.2 市场概述 341
14.2.3 数据/信息质量管理 343
14.2.4 大数据质量 344
14.3 数据隐私和安全 344
14.3.1 医疗保健大数据 345
14.3.2 医疗保健领域的数据隐私 345
14.3.3 数据安全概述 346
14.3.4 管理和政策 347
14.3.5 大量安全数据 348
14.3.6 安全产品 348
14.4 大数据分析学 352
14.4.1 概述 352
14.4.2 技术 352
14.4.3 商业决策 353
14.5 讨论 354
14.5.1 大数据人才的市场需求 355
14.5.2 大数据解决方案的实施 355
14.5.3 大数据出版物分析 355
14.5.4 大数据安全 358
14.6 结论 359
参考文献 360
第15章 医学领域海量异构数据的检索、分析与可视化对比研究 362
15.1 引言 363
15.2 相关工作 364
15.2.1 数据可视化 364
15.2.2 电子病历的可视化系统 366
15.3 医疗多项目系统 370
15.3.1 M2ICOP系统的结构 371
15.4 实验 378
15.5 M2ICOP系统功能和可用性的评估 379
15.5.1 数据采集和评估过程 380
15.5.2 评估结果 380
15.6 结论 381
参考文献 381
第16章 基于改进软粗糙集的心律失常心电图信号分类方法 385
16.1 引言 386
16.1.1 心电图波形描述 387
16.1.2 心电图的解释 387
16.2 相关工作 388
16.3 研究方法 389
16.3.1 信号采集 390
16.3.2 预处理 390
16.3.3 特征提取 392
16.4 背景 393
16.4.1 粗糙集 393
16.4.2 软集合理论 394
16.4.3 软粗糙集 395
16.5 分类 396
16.5.1 朴素贝叶斯 396
16.5.2 MLP 396
16.5.3 BPN 397
16.5.4 J48 397
16.5.5 JRip 397
16.5.6 决策表 398
16.5.7 MSR 399
16.6 实验分析及结果 400
16.6.1 评价指标 401
16.6.2 性能评估 402
16.6.3 讨论 404
16.7 结论 405
参考文献 405
第17章 一种新型大型分布式数据的描述与操作架构 408
17.1 引言 409
17.2 分布式数据库和大数据 410
17.2.1 集中式架构内大数据的缺点 410
17.2.2 分布式数据库的性能问题 411
17.2.3 关于透明度问题 411
17.3 现有DDBMS概述 412
17.3.1 DDBMS规范 412
17.3.2 在Oracle下的DDB实现示例 412
17.4 目的 416
17.5 描述和操作大型分布式数据的新架构 418
17.5.1 本方法的目标 418
17.5.2 建议的分层架构 418
17.6 智能大型分布式数据 420
17.6.1 研究结果 420
17.6.2 结果评论 429
17.7 结论 430
参考文献 430
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《管理信息系统习题集》郭晓军 2016
- 《激光加工实训技能指导理实一体化教程 下》王秀军,徐永红主编;刘波,刘克生副主编 2017
- 《分析化学》陈怀侠主编 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《星图 通往天空的旅程》(意)埃琳娜·帕西瓦迪 2019
- 《身材真相》(美),哈里特˙布朗;张敬婕; 2019
- 《我们深陷泥潭》(美)加布瑞埃拉·泽文 2019
- 《失踪的孩子》(意大利)埃莱娜·费兰特著,陈英译 2019
- 《两个人的车站 布拉金斯基、梁赞诺夫名作集》肖潇责任编辑;童道明,刘溪译;(俄罗斯)埃·韦·布拉金斯基,埃·亚·梁赞诺夫 2019
- 《早孕期胎儿畸形超声诊断》(美)阿尔弗莱德·阿布汗默德,(德)拉宾·查欧里编者;李胜利译者 2019
- 《海洋结构物设计、建造与维护》(埃)Mohamed A.El Reedy著 2016
- 《音乐猫 新编奥尔夫儿童音乐与舞蹈教程(3-6岁)教师用书 1 第3部分 课程设计 儿童图册2》(奥)鲁道夫·尼克林,(奥)米凯拉·格瑞纳,(奥)曼努埃拉·魏德曼编;陈艺文,谢呈译;金鑫审校 2018
- 《音乐猫 新编奥尔夫儿童音乐与舞蹈教程(3-6岁)教师用书 1 第1部分 引言》(奥)鲁道夫·尼克林,(奥)米凯拉·格瑞纳,(奥)曼努埃拉·魏德曼编;陈艺文,谢呈译;金鑫审校 2018
- 《音乐猫 新编奥尔夫儿童音乐与舞蹈教程(3-6岁)教师用书 1 第2部分 课程设计 儿童图册1》(奥)鲁道夫·尼克林,(奥)米凯拉·格瑞纳,(奥)曼努埃拉·魏德曼编;陈艺文,谢呈译;金鑫审校 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《抗战三部曲 国防诗歌集》蒲风著 1937
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《陶瓷工业节能减排技术丛书 陶瓷工业节能减排与污染综合治理》罗民华著 2017