《复杂系统中大数据分析与实践》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:(埃)阿布·埃拉·哈桑尼(Aboul Ella Hassanien)编著;陈桂明译
  • 出 版 社:北京:国防工业出版社
  • 出版年份:2018
  • ISBN:9787118115659
  • 页数:433 页
图书介绍:本书面向不同领域的大数据分析研究和从业人员介绍理论前沿,同时将前沿理论应用于解决不同领域的实际问题,最后进行归纳总结,提炼出复杂系统中大数据的应用要点。本书包括三个部分:第一部分介绍复杂系统中的大数据基础理论知识,第二部分介绍不同应用背景下大数据的成功应用案例,第三部分提炼总结复杂系统中大数据的应用要点。

第1章 大规模数据云计算设施:当前的紧迫任务 1

1.1 引言 2

1.2 相关工作 3

1.3 云计算概述 4

1.3.1 云计算的基本特征 4

1.3.2 服务模型 5

1.3.3 部署模型 6

1.3.4 云存储设施 8

1.3.5 云存储设施需求 9

1.4 大数据概述 10

1.4.1 大数据的特征 11

1.4.2 大数据对于基础设施的影响 12

1.4.3 大数据对于未来市场的影响 14

1.5 云计算与大数据:不可抗拒的结合 15

1.5.1 优化当前基础设施以处理大数据 16

1.6 使用云服务处理大数据的挑战与困难 17

1.7 讨论 19

1.8 结论 20

参考文献 20

第2章 大数据运动:数据处理的挑战 24

2.1 引言 25

2.2 大数据中的数据处理 27

2.2.1 数据结构 27

2.2.2 NoSQL数据库 28

2.2.3 大数据 30

2.3 数据处理服务中的并行性 33

2.3.1 性能评估 33

2.3.2 可拓展性与Amdahl's定律 33

2.3.3 任务与数据并行性 34

2.3.4 编程环境 35

2.3.5 编程语言与代码优化 36

2.4 天文学中的大数据崩塌 37

2.4.1 虚拟观测 39

2.4.2 天文信息学 42

2.5 大数据与演化算法:视角与可能性 46

2.6 总结 53

参考文献 54

第3章 基于高维数据的鲁棒性能模型担保 59

3.1 引言 60

3.1.1 问题定义 61

3.2 相关工作 63

3.2.1 挑战与贡献 65

3.3 约束和对比模型性能的原则 68

3.3.1 鲁棒性统计评估 68

3.3.2 数据灵活性 73

3.3.3 数据可拓展性 75

3.3.4 多设置条件下性能担保水平评估 75

3.3.5 多准则集成 76

3.4 结果与讨论 77

3.5 结论及下一步工作 83

参考文献 84

第4章 流聚类算法导读 88

4.1 引言 89

4.2 流聚类算法的体系结构 90

4.3 数据流聚类存在的问题 91

4.3.1 概要表示 91

4.3.2 到达的数据点的高效增量处理 92

4.3.3 处理混合属性 92

4.3.4 获取近期性和数据演化 92

4.3.5 硬聚类和模糊聚类 94

4.3.6 异常值检测 94

4.4 流聚类方法 94

4.4.1 基于距离和基于密度的方法 95

4.4.2 基于网格的方法 99

4.4.3 基于统计法的方法 104

4.4.4 讨论 107

4.5 流聚类算法中概要的功能 110

4.5.1 概要对参数的敏感性 110

4.5.2 概要初始化 111

4.5.3 获取数据中自然结构的能力 111

4.5.4 存储器的使用 112

4.5.5 单点处理时间 112

4.5.6 对数据排序的敏感性 112

4.5.7 管理混合属性 113

4.5.8 处理异常值 113

4.5.9 获取数据演化 113

4.5.10 总结 114

4.6 流聚类的其他问题和挑战 114

4.6.1 弱实验评估 115

4.6.2 可用性 116

4.6.3 改变建模 117

4.7 结论 117

参考文献 118

第5章 大数据中的语言重复交叉检查 123

5.1 引言 124

5.2 重复记录检测概述 127

5.2.1 拼音名字匹配算法 129

5.2.2 重复记录检测技术的质量 129

5.3 相关工作 130

5.4 方法学 132

5.4.1 上述重复记录检测框架 133

5.4.2 预处理:数据清理和标准化 134

5.4.3 语言插件 135

5.4.4 创建基于语音的词典 136

5.4.5 索引/分块 136

5.4.6 记录配对比较 137

5.4.7 分类函数 137

5.4.8 跨语言重复记录检测的质量评估 137

5.4.9 未来展望:大数据趋势 138

5.5 结果和讨论 139

5.5.1 实验1:比较CLDRD和Febrl 140

5.5.2 实验2:比较Febrl和CLDRD中的分块技术 141

5.6 总结 141

参考文献 142

第6章 基于粗糙集和改进和声搜索算法混合的新型蛋白序列分类特征选择算法 145

6.1 引言 146

6.2 相关工作 148

6.3 提议的框架 150

6.3.1 蛋白质一级序列 150

6.3.2 伪氨基酸生成器 152

6.3.3 氨基酸成分 152

6.3.4 K-元组子序列 152

6.3.5 离散化 153

6.3.6 蛋白质分类 153

6.4 粗糙集理论基础 154

6.5 特征提取 155

6.6 特征选择 156

6.6.1 基于粗糙集属性的约简算法 156

6.6.2 粗糙集粒子群最优化算法 157

6.6.3 和声搜索算法 158

6.6.4 基于粗糙集的改进的和声搜索算法(RSIHS) 161

6.7 实验分析 163

6.7.1 数据源 163

6.7.2 结果及讨论 163

6.8 结论及未来工作 167

参考文献 168

第7章 Twitter中新闻演化的自动发现 172

7.1 引言 173

7.2 相关工作 175

7.2.1 大数据:挑战和机遇 175

7.2.2 社交媒体和“大数据” 176

7.3 Twitter网络的背景 178

7.3.1 作为决策支持工具的Twitter 180

7.4 关联规则挖掘概述 180

7.4.1 推文中的关联规则 181

7.4.2 规则相似性和差异性 181

7.4.3 度量相似性 182

7.5 基于事务的规则改变挖掘的演化 182

7.5.1 基于事务的规则改变挖掘规则的定义 183

7.6 使用基于事务的规则改变挖掘规则类型识别(TRCM-RTI),分析推文趋势 184

7.6.1 规则趋势分析 184

7.6.2 推文中正在演化规则的时间帧窗口 185

7.6.3 新闻和主题标签,哪个先出现?——“TwO-NwO”状态 186

7.7 实证评估 187

7.7.1 实验设置 188

7.7.2 实验性的案例研究 189

7.7.3 案例研究 192

7.8 结论 193

7.8.1 未来工作 194

参考文献 194

第8章 基于混合容差粗糙集的社交标签系统智能方法研究 197

8.1 引言 198

8.2 相关工作 200

8.3 社交标签数据聚类的各阶段 203

8.3.1 数据格式化 203

8.3.2 预处理 204

8.3.3 聚类 205

8.4 实验结果 211

8.4.1 无监督快速精简书签选择 211

8.4.2 聚类算法的性能分析 212

8.4.3 比较分析 217

8.5 结果的解释 221

8.6 结论 222

参考文献 222

第9章 为比较胆囊切除术后病患的共病指数开发麻醉和手术护理医疗数据库 225

9.1 引言 226

9.1.1 临床数据库 226

9.1.2 围手术期疗效比较研究 227

9.1.3 大型数据库和围手术期研究 229

9.1.4 基于风险分层的共病重要性 230

9.2 本章目标和结构 232

9.3 方法 232

9.3.1 参与者 232

9.3.2 变量 232

9.3.3 数据分析 233

9.4 结果 233

9.4.1 病患特征 233

9.4.2 粗死亡率 233

9.5 讨论 236

9.5.1 研究的局限性和优势 236

9.5.2 其他应用 236

9.5.3 大数据库的优势 240

9.5.4 大型数据库的有效性 241

9.5.5 注意事项和清单 244

9.6 总结 244

参考文献 245

第10章 采用初级保健服务、医院和职业数据库的病假和记录连接研究 250

10.1 引言 251

10.1.1 电子卫生数据库 251

10.1.2 记录连接 254

10.1.3 初级卫生保健患者的Charlson共病指数和病假 258

10.2 目的和章节结构 260

10.3 方法 260

10.3.1 研究人群 260

10.3.2 数据收集 260

10.3.3 统计分析 261

10.4 结果 262

10.5 讨论 267

10.5.1 病假和CCIPC 267

10.5.2 下一步:通过大数据提高信息的可用性 269

10.6 结论 270

参考文献 271

第11章 基于双射软集合的ECG心律失常的分类 276

11.1 引言 277

11.2 相关工作 278

11.3 材料和方法 281

11.3.1 信号采集 282

11.3.2 信号预处理和特征提取 282

11.3.3 改良双射软集合的提出和应用 284

11.4 Pan-Tompkins算法 286

11.4.1 带通滤波器 286

11.4.2 求导 287

11.4.3 非线性转换 287

11.4.4 移动窗口整合 287

11.4.5 框标 287

11.5 基本概念——软集合和双射软集合 288

11.5.1 软集合理论 288

11.5.2 双射软集合理论 288

11.6 ECG信号相对性分类算法 289

11.6.1 反向传播神经网络 289

11.6.2 朴素贝叶斯分类法 291

11.6.3 决策树——J48 291

11.6.4 决策表算法 292

11.7 实验分析和结果 293

11.8 结论 297

参考文献 298

第12章 地理空间语义:从大数据到数据生态系统 301

12.1 引言 301

12.2 相关工作 303

12.3 地理空间语义 304

12.3.1 语义关系 305

12.3.2 语义属性和剖析 307

12.4 应用 308

12.4.1 地理数据生态系统 308

12.4.2 犯罪地图:分析员和公民 310

12.4.3 地理空间的推理 314

12.5 结论 318

参考文献 318

第13章 常见乳腺癌中DNA甲基化的大数据分析和可视化 322

13.1 引言 323

13.2 背景 324

13.2.1 DNA甲基化 324

13.2.2 乳腺癌亚型的生物学特征 325

13.2.3 统计学背景 327

13.3 实验方法 328

13.3.1 非特异性过滤 329

13.3.2 特异性过滤 330

13.3.3 形式概念分析(FCA) 330

13.4 实验结果与讨论 331

13.5 应用FCA识别乳腺癌亚型 332

13.5.1 形式背景 332

13.5.2 FCA 335

13.6 结论与展望 336

参考文献 337

第14章 大数据的数据质量、分析学和隐私 339

14.1 引言 340

14.2 数据/信息质量和数据集成 341

14.2.1 定义 341

14.2.2 市场概述 341

14.2.3 数据/信息质量管理 343

14.2.4 大数据质量 344

14.3 数据隐私和安全 344

14.3.1 医疗保健大数据 345

14.3.2 医疗保健领域的数据隐私 345

14.3.3 数据安全概述 346

14.3.4 管理和政策 347

14.3.5 大量安全数据 348

14.3.6 安全产品 348

14.4 大数据分析学 352

14.4.1 概述 352

14.4.2 技术 352

14.4.3 商业决策 353

14.5 讨论 354

14.5.1 大数据人才的市场需求 355

14.5.2 大数据解决方案的实施 355

14.5.3 大数据出版物分析 355

14.5.4 大数据安全 358

14.6 结论 359

参考文献 360

第15章 医学领域海量异构数据的检索、分析与可视化对比研究 362

15.1 引言 363

15.2 相关工作 364

15.2.1 数据可视化 364

15.2.2 电子病历的可视化系统 366

15.3 医疗多项目系统 370

15.3.1 M2ICOP系统的结构 371

15.4 实验 378

15.5 M2ICOP系统功能和可用性的评估 379

15.5.1 数据采集和评估过程 380

15.5.2 评估结果 380

15.6 结论 381

参考文献 381

第16章 基于改进软粗糙集的心律失常心电图信号分类方法 385

16.1 引言 386

16.1.1 心电图波形描述 387

16.1.2 心电图的解释 387

16.2 相关工作 388

16.3 研究方法 389

16.3.1 信号采集 390

16.3.2 预处理 390

16.3.3 特征提取 392

16.4 背景 393

16.4.1 粗糙集 393

16.4.2 软集合理论 394

16.4.3 软粗糙集 395

16.5 分类 396

16.5.1 朴素贝叶斯 396

16.5.2 MLP 396

16.5.3 BPN 397

16.5.4 J48 397

16.5.5 JRip 397

16.5.6 决策表 398

16.5.7 MSR 399

16.6 实验分析及结果 400

16.6.1 评价指标 401

16.6.2 性能评估 402

16.6.3 讨论 404

16.7 结论 405

参考文献 405

第17章 一种新型大型分布式数据的描述与操作架构 408

17.1 引言 409

17.2 分布式数据库和大数据 410

17.2.1 集中式架构内大数据的缺点 410

17.2.2 分布式数据库的性能问题 411

17.2.3 关于透明度问题 411

17.3 现有DDBMS概述 412

17.3.1 DDBMS规范 412

17.3.2 在Oracle下的DDB实现示例 412

17.4 目的 416

17.5 描述和操作大型分布式数据的新架构 418

17.5.1 本方法的目标 418

17.5.2 建议的分层架构 418

17.6 智能大型分布式数据 420

17.6.1 研究结果 420

17.6.2 结果评论 429

17.7 结论 430

参考文献 430