当前位置:首页 > 工业技术
大数据挖掘及应用
大数据挖掘及应用

大数据挖掘及应用PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:王国胤,刘群,于洪,曾宪华编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302469278
  • 页数:400 页
图书介绍:本书以大数据背景下的数据挖掘和应用为核心,立足于本科生的学习需要,由浅入深、循序渐进地介绍了大数据环境下数据挖掘基础知识、典型统计方法、数据可视化技术和挖掘分析算法,同时对大数据计算的常用平台架构编程方法,以及并行化程序设计的思想和技术也给了简单但完整的描述,力图使学生通过学习,在不仅满足专业要求的同时,提高对数据分析方法的动手能力,并拓展在数据分析领域的视野。
《大数据挖掘及应用》目录

第1章 大数据挖掘及应用概论 1

1.1大数据智能分析处理的普及和应用 1

1.1.1云计算 1

1.1.2大数据 3

1.1.3云计算与大数据的智能应用 4

1.2大数据的发展及挑战 10

1.2.1大数据的发展催生三元空间世界 10

1.2.2大数据智能分析处理面临的挑战 12

1.3数据挖掘概述 14

1.3.1数据挖掘的概念 14

1.3.2数据挖掘的功能 15

1.3.3数据挖掘运用的技术 16

1.3.4大数据挖掘与传统数据挖掘 16

1.4大数据挖掘的计算框架 17

1.4.1大数据挖掘计算框架 17

1.4.2大数据挖掘处理基本流程 21

1.5大数据时代“互联网+”的未来:智能互联 23

1.6本书架构 26

1.7小结 27

1.8习题 27

1.9参考文献 28

第2章 数据认知与预处理 29

2.1数据分析的定义和流程 30

2.1.1如何理解和描述数据分析的问题 30

2.1.2数据获取与准备 31

2.1.3数据质量评估 32

2.2数据类型 33

2.2.1属性的定义 33

2.2.2标称属性 33

2.2.3二元属性 34

2.2.4序值属性 34

2.2.5数值属性 34

2.3数据的统计描述方法 35

2.3.1数据的中心趋势度量 35

2.3.2数据的离散趋势度量 37

2.4数据对象关系的计算方法 39

2.4.1数据相似性计算方法 40

2.4.2数据相关性计算方法 46

2.5数据准备 48

2.5.1数据清洗与集成 48

2.5.2数据归约 52

2.5.3数据转换 58

2.6数据统计分析常用工具介绍 61

2.6.1 Excel统计分析工具 61

2.6.2 SPSS统计分析工具 63

2.6.3 SAS统计分析工具 64

2.6.4 R语言统计分析工具 66

2.7 SPSS案例分析 68

2.7.1日志文件数据准备 68

2.7.2数据录入与编辑 68

2.7.3数据清洗与转换 70

2.7.4数据方差分析 72

2.7.5数据相关性分析 74

2.7.6数据间距离分析 74

2.8小结 77

2.9习题 78

2.10参考文献 79

第3章 数据可视化 80

3.1可视化简介 80

3.2高维数据可视化 81

3.2.1降维方法 82

3.2.2非降维方法 84

3.3网络数据可视化 90

3.3.1节点-链接法 90

3.3.2邻接矩阵布局 96

3.3.3混合布局 98

3.4可视化案例分析 99

3.4.1案例一:China VIS 2015竞赛题 99

3.4.2案例二:VAST Challenge 2016竞赛题 107

3.5小结 120

3.6习题 121

3.7参考文献 122

第4章 数据关联分析 123

4.1数据关联分析简介 123

4.2基本概念 125

4.2.1频繁项集和关联规则 126

4.2.2闭项集和极大频繁项集 128

4.2.3稀有模式和负模式 129

4.3 Apriori算法 130

4.3.1 Apriori算法的核心思想 131

4.3.2 Apriori算法描述 132

4.3.3改进的Apriori算法 133

4.4 FP-Growth算法 137

4.4.1 FP-Growth算法的核心思想 138

4.4.2 FP-Growth算法描述 139

4.5面向大数据的有效数据结构 142

4.6关联规则有效性的评估方法 143

4.6.1关联规则兴趣度评估 144

4.6.2关联规则相关度评估 144

4.6.3其他相关评估度量方法 146

4.7多维关联规则挖掘 148

4.8多层关联规则挖掘 151

4.9基于Python平台的案例分析 156

4.10小结 158

4.11习题 159

4.12参考文献 161

第5章 数据分类分析 163

5.1基本概念和术语 163

5.1.1数据分类 163

5.1.2解决分类问题的一般方法 165

5.2决策树算法 166

5.2.1决策树归纳 166

5.2.2决策树构建 167

5.2.3属性测试条件的表示方法 169

5.2.4选择最佳划分的度量 171

5.2.5决策树归纳算法 175

5.2.6树剪枝 176

5.2.7决策树归纳的特点 178

5.3贝叶斯分类算法 180

5.3.1贝叶斯定理 181

5.3.2朴素贝叶斯分类 182

5.3.3贝叶斯信念网络 184

5.4支持向量机算法 185

5.4.1数据线性可分的情况 185

5.4.2数据非线性可分的情况 189

5.5粗糙集分类算法 190

5.6分类器评估方法 191

5.6.1评估分类器性能的度量 192

5.6.2保持方法和随机二次抽样 195

5.6.3交叉验证 195

5.6.4自助法 195

5.6.5使用统计显著性检验选择模型 196

5.7组合分类器技术 197

5.7.1组合分类方法简介 198

5.7.2装袋 198

5.7.3提升和AdaBoost 199

5.7.4随机森林 200

5.7.5提高类不平衡数据的分类准确率 200

5.8惰性学习法(k最近邻分类) 201

5.9基于Python平台的案例分析 203

5.9.1数据集准备 203

5.9.2算法描述 204

5.9.3算法测试 206

5.10小结 209

5.11习题 209

5.12参考文献 211

第6章 数据聚类分析 214

6.1基本概念和术语 214

6.1.1聚类分析简介 215

6.1.2对聚类的基本要求 215

6.1.3聚类分析方法 216

6.2基于划分的方法 218

6.2.1 k-means算法 218

6.2.2 k中心点算法 221

6.3基于层次的方法 224

6.3.1凝聚的与分裂的层次聚类 224

6.3.2簇间距离度量 225

6.4基于密度的方法 229

6.4.1传统的密度:基于中心的方法 230

6.4.2 DBSCAN算法 231

6.5基于概率模型的聚类方法 233

6.5.1模糊聚类 233

6.5.2基于概率模型的聚类 235

6.5.3期望最大化算法 237

6.6聚类评估 239

6.6.1聚类趋势的估计 239

6.6.2聚类簇数的确定 241

6.6.3聚类质量的测定 242

6.7基于Python平台的案例分析 245

6.7.1数据准备 245

6.7.2聚类分析结果探讨 246

6.8小结 248

6.9习题 249

6.10参考文献 253

第7章 深度学习 255

7.1引言 255

7.1.1发展背景 255

7.1.2基本概念 256

7.2深信网 257

7.2.1玻尔兹曼机 258

7.2.2受限玻尔兹曼机 258

7.2.3深信网 260

7.3深玻尔兹曼机 264

7.4栈式自动编码器 266

7.4.1自动编码器 266

7.4.2栈式自动编码器 267

7.5卷积神经网络 269

7.5.1卷积 269

7.5.2池化 270

7.5.3 CNN训练过程 272

7.5.4 CNN网络构造的案例分析 276

7.6深度学习开源框架 278

7.6.1开源框架简介 278

7.6.2开源案例分析 278

7.7深度学习应用技巧 284

7.8小结 285

7.9习题 286

7.10参考文献 286

第8章R语言 288

8.1下载和安装R语言 288

8.1.1下载R语言 288

8.1.2安装R语言 288

8.2使用R语言 292

8.2.1运行R语言 292

8.2.2 R语言常用操作 294

8.2.3包的使用 298

8.3 R语言的数据结构 300

8.3.1向量 300

8.3.2矩阵 301

8.3.3数组 302

8.3.4因子 303

8.3.5列表 304

8.3.6数据框 305

8.4 R语言的编程结构 306

8.4.1条件语句 306

8.4.2循环语句 308

8.5 R语言的数据挖掘和图形绘制包 310

8.6实际案例 312

8.7小结 314

8.8习题 314

8.9参考文献 315

第9章Hadoop大数据分布式处理生态系统 316

9.1 Hadoop集群基础 316

9.1.1 Hadoop安装 317

9.1.2 Hadoop配置 319

9.2 HDFS基础操作 324

9.3 MapReduce并行计算框架 331

9.3.1 MapReduce程序实例:WordCount 332

9.3.2 Hadoop Streaming 333

9.4基于 Storm的分布式实时计算 334

9.4.1 Storm简介 334

9.4.2 Storm基本概念 334

9.4.3 Storm编程 338

9.5基于Spark Streaming的分布式实时计算 346

9.5.1 Spark内存计算框架 346

9.5.2 Spark Streaming简介 347

9.5.3 Spark Streaming编程 349

9.6小结 352

9.7参考文献 353

第10章 大数据分析算法的并行化 355

10.1并行算法设计基础 355

10.1.1并行算法概念 355

10.1.2并行计算模型 356

10.1.3并行算法设计的策略和技术 360

10.2典型数据挖掘算法并行化案例 362

10.2.1 MR k-means算法分析 362

10.2.2 Mahout聚类算法案例 364

10.2.3 Spark MLlib聚类算法案例 369

10.3大数据分析应用案例 371

10.3.1搜索引擎日志数据分析 371

10.3.2出租车轨迹数据分析 374

10.3.3新闻组数据分析 377

10.4小结 383

10.5习题 383

10.6参考文献 384

第11章 大数据挖掘及应用展望 385

11.1大数据时代的发展回顾与展望 385

11.1.1大数据发展回顾 385

11.1.2从“小”到“大”的数据分析处理 387

11.1.3大数据的智能分析与挖掘 389

11.2大数据中的新数据类型 391

11.3大数据挖掘的新方法 394

11.3.1深度学习 394

11.3.2知识计算 395

11.3.3社会计算 396

11.3.4特异群组挖掘 397

11.4未来发展趋势 398

11.5小结 399

11.6参考文献 399

相关图书
作者其它书籍
返回顶部