《实战大数据 MATLAB数据挖掘详解与实践》PDF下载

  • 购买积分:16 如何计算积分?
  • 作  者:许国根,贾瑛著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2017
  • ISBN:9787302451013
  • 页数:548 页
图书介绍:本书是一本集数据挖掘理论及相应计算机程序于一体的书籍。内容全面、新颖、针对性和实用性强,可以帮助广大的读者既能掌握数据挖掘的基本理论,又能将之应用于实际工作;指导性强,对每一个实例本书都提供了作者编写的Matlab源代码,通过适当的修正和举一反三,就可以解决各种实际问题;凡是从事信息、控制、优化、管理、计算机、工业自动化等学科专业学习、研究的本科生、研究生、博士生本书都可将此书作为教材或教学参考书。

第1篇 关于数据挖掘 3

第1章 绪论 3

1.1数据挖掘概述 4

1.2数据挖掘的分类 6

1.3数据挖掘的过程 7

1.4数据挖掘的任务 9

1.5数据挖掘的对象 11

1.5.1数据库 11

1.5.2文本 13

1.5.3图像与视频数据 13

1.5.4 Web数据 14

1.6数据挖掘建模方法 14

1.6.1业务理解 15

1.6.2数据理解 16

1.6.3数据准备 16

1.6.4建模 17

1.6.5评估 18

1.6.6部署 19

1.7数据挖掘的应用 19

1.7.1在金融领域中的应用 19

1.7.2在零售业中的应用 20

1.7.3在电信业中的应用 21

1.7.4在管理中的应用 22

1.7.5在化学研究领域中的应用 22

1.7.6在材料研究、生产方面的应用 23

1.7.7在机械故障诊断与监测中的应用 24

1.7.8在医疗领域中的应用 25

第2篇 数据挖掘算法 29

第2章 决策树算法 29

2.1决策树算法概述 30

2.2决策树基本算法 30

2.3 ID3算法 32

2.4 C4.5算法 34

2.5 CART算法 35

2.6决策树的评价标准 36

2.7决策树的剪枝及优化 37

2.8基于 MATLAB的决策树分析 38

第3章 人工神经网络算法 47

3.1人工神经网络概述 48

3.2人工神经网络的基本模型 48

3.2.1神经元 48

3.2.2传递函数 49

3.2.3人工神经网络的分类 50

3.3 BP神经网络 50

3.3.1 BP人工神经网络结构 50

3.3.2 BP人工神经网络的学习算法 50

3.4 RBF神经网络 51

3.4.1 RBF网络结构 51

3.4.2 RBF人工神经网络的学习算法 52

3.5 SOM神经网络 53

3.5.1 SOM神经网络结构 53

3.5.2 SOM神经网络学习算法 53

3.6反馈型神经网络(Hopfield) 54

3.6.1 Hopfield网络的拓扑结构 54

3.6.2 Hopfield网络的学习算法 55

3.7基于MATLAB的神经网络方法 56

3.7.1信息表达方式 56

3.7.2网络模型选择 56

3.7.3网络参数选择 56

3.7.4学习训练算法选择 56

3.7.5系统仿真的性能对比 56

第4章 进化算法 65

4.1概述 66

4.2进化算法的基本原理 67

4.2.1编码 67

4.2.2适应度函数 68

4.2.3遗传算子 69

4.2.4基因算法的特点 71

4.3基因算法的主要步骤 71

4.4基本遗传算法 72

4.4.1遗传算法的基本流程 72

4.4.2控制参数选择 73

4.5进化规划算法 74

4.5.1变异算子 75

4.5.2选择算子 75

4.6进化策略计算 75

4.6.1进化策略算法的基本流程 76

4.6.2算法的构成要素 76

4.7量子遗传算法 79

4.7.1基本概念 79

4.7.2量子遗传算法流程 80

4.7.3量子算法中的控制参数 81

4.8人工免疫算法 83

4.8.1人工免疫算法的生物学基础 83

4.8.2生物免疫基本原理 85

4.8.3人工免疫算法的基本概念 86

4.8.4免疫算子 87

4.8.5免疫算法与免疫系统的对应 89

4.8.6人工免疫算法与遗传算法的比较 90

4.9基于MATLAB的进化算法 91

第5章 统计分析方法 99

5.1假设检验 100

5.1.1随机误差的判断 100

5.1.2系统误差的检验 101

5.2回归分析 103

5.2.1一元线性回归分析 103

5.2.2多元线性回归分析 106

5.2.3非线性回归分析 108

5.2.4虚拟及离散变量回归模型 110

5.2.5异常点、高杠杆点和强影响观测值 110

5.2.6回归假设检验 111

5.3二项逻辑(logistic)回归 112

5.3.1二项逻辑回归模型 112

5.3.2显著性检验 114

5.3.3回归方程的拟合优度检验 115

5.4方差分析 115

5.4.1单因素试验的方差分析 115

5.4.2双因素试验的方差分析 116

5.5主成分分析 118

5.5.1主成分分析的数字模型 119

5.5.2主成分计算步骤 119

5.5.3主成分估计 120

5.5.4主成分筛选 121

5.6因子分析 121

5.6.1因子分析的一般数学模型 121

5.6.2因子模型中公共因子、因子载荷和变量共同度的统计意义 123

5.6.3因子分析与主成分分析的联系与区别 123

5.6.4 Q型和R型因子分析 124

5.7基于MATLAB的统计分析方法 124

第6章 贝叶斯网络方法 155

6.1贝叶斯定理、先验和后验 156

6.2贝叶斯网络 157

6.3贝叶斯网络学习 158

6.3.1贝叶斯网络的结构学习 158

6.3.2贝叶斯网络的参数学习 158

6.4主要贝叶斯网络模型 160

6.4.1朴素贝叶斯网络 160

6.4.2 TAN贝叶斯网络 161

6.4.3无约束贝叶斯网络 162

6.5基于MATLAB的贝叶斯网络方法 162

第7章 支持向量机 177

7.1支持向量机概述 178

7.2核函数 180

7.3基于MATLAB的支持向量机方法 182

第8章 关联分析 185

8.1概述 186

8.1.1关联规则的主要概念 186

8.1.2关联规则的种类 187

8.1.3关联规则的价值衡量的方法 187

8.2 Apriori关联规则算法 188

8.3基于分类搜索的关联规则算法 189

8.3.1基于分类搜索的关联规则算法特点 189

8.3.2算法流程与实现 190

8.3.3数据更新实现 190

8.4时序关联规则算法 191

8.5多值属性关联规则算法 192

8.5.1静态离散属性关联规则 192

8.5.2动态离散关联规则 193

8.5.3基于距离的关联规则 193

8.6增量关联规则算法 193

8.7基于关联规则的分类算法 194

8.8模糊关联分类算法 195

8.8.1属性的模糊划分 195

8.8.2模糊关联的定义 195

8.9关联规则的评价 196

8.9.1支持度—置信度框架 196

8.9.2基于主观因素的主观度量 197

8.10辛普森悖论 197

8.11基于MATLAB的关联规则分析 198

第9章 其他数据挖掘方法 201

9.1近邻法 202

9.2 K-means聚类 203

9.3基于MATLAB的近邻法及K-means聚类法 206

第3篇 数据挖掘相关技术 213

第10章 数据仓库 213

10.1概述 214

10.1.1数据仓库重要特性 214

10.1.2数据仓库中几个重要概念 216

10.2数据仓库设计 218

10.2.1数据仓库的总体结构 218

10.2.2数据仓库的基本功能层 219

10.2.3数据仓库技术 220

10.2.4数据仓库设计 221

10.2.5数据仓库设计步骤 221

10.3数据仓库的开发应用 222

10.3.1数据仓库概念模型设计与开发 223

10.3.2数据仓库的逻辑模型设计 226

10.3.3数据仓库物理模型的设计 230

10.4数据仓库的技术管理 232

10.5 OLAP技术 233

10.5.1基本概念 233

10.5.2多维分析 234

10.5.3维的层次关系 235

10.5.4维的类关系 235

10.5.5 OLAP与数据仓库的关系 235

10.6基于MATLAB的数据仓库开发技术 237

10.6.1数据库工具箱 237

10.6.2可视查询生成器 239

10.6.3数据的存取类型 247

10.6.4数据输入和输出 252

第11章 模糊集理论 257

11.1模糊集合 258

11.1.1隶属度函数 258

11.1.2模糊集运算 260

11.1.3 λ截集 260

11.2模糊关系 261

11.3模糊聚类 262

11.3.1数据标准化 263

11.3.2相似系数和距离 263

11.3.3模糊聚类分析 266

11.3.4模糊K-均值聚类 267

11.4基于MATLAB的模糊集处理技术 267

第12章 粗糙集技术 281

12.1粗糙集理论的基本概念 282

12.1.1知识表达系统和决策表 282

12.1.2等价关系 282

12.1.3等价划分 283

12.1.4上近似集和下近似集 283

12.1.5粗糙集 284

12.1.6粗糙集的非确定性的精确度a A(Y)和粗糙度ρ A(Y) 284

12.2分类规则的形成 284

12.3知识的约简 285

12.3.1决策表的一致性 285

12.3.2属性约简 285

12.3.3分辨矩阵与分辨函数 286

12.4模糊集与粗糙集 287

12.5基于MATLAB的粗糙集处理方法 287

第13章 目标优化技术 291

13.1目标优化概述 292

13.2极值问题 293

13.3无约束非线性规划 293

13.3.1梯度下降法 294

13.3.2共轭梯度法 295

13.3.3牛顿法 295

13.4有约束非线性规划 295

13.5大规模优化问题的分解算法 296

13.5.1问题的描述 296

13.5.2目标协调法 297

13.5.3模型协调法 298

13.5.4混合协调法 298

13.6其他优化方法 299

13.7基于MATLAB的目标优化方法 300

第14章 可视化技术 307

14.1可视化技术概述 308

14.2可视化技术分类 309

14.2.1数据可视化 309

14.2.2科学计算可视化 309

14.2.3信息可视化 309

14.2.4知识可视化 310

14.3多维数据可视化 310

14.3.1平行坐标表示法 311

14.3.2雷达图 312

14.3.3树形图 313

14.3.4三角多项式图 314

14.3.5散点图 315

14.3.6星座图 316

14.3.7基于像素的高维数据的可视化 318

14.3.8基于非线性变换的图表示优化 318

14.3.9高维数据降维 319

14.4图形的特征分析 321

14.4.1平行坐标下的聚簇分析 321

14.4.3图形特征提取中的特征排序问题 323

14.5基于多元图的图形分类方法 324

14.5.1单原型图形分类器 324

14.5.2基于平行坐标的平行筛可视化分类方法 325

14.5.3基于平行坐标的贝叶斯可视化分类方法 325

14.6基于色度学空间的多元图表示 326

14.7基于MATLAB的数据可视化技术 327

第15章 公式发现 341

15.1公式发现概述 342

15.2公式发现系统中的知识 342

15.2.1规则一(函数规则) 343

15.2.2规则二(导数规则) 344

15.2.3多维函数扩展规则 345

15.2.4规则三 346

15.3基于MATLAB的公式发现 347

第16章 多媒体数据挖掘技术 349

16.1多媒体数据挖掘技术概述 350

16.1.1数据类型 350

16.1.2多媒体数据库管理系统(MM-DBMS) 351

16.2文本挖掘 352

16.2.1基于关键字的关联分析 354

16.2.2文档分类分析 354

16.3图像挖掘 360

16.4视频挖掘 361

16.4.1结构挖掘 361

16.4.2运动挖掘 361

16.4.3趋势挖掘 362

16.5音频挖掘 362

16.6复合类型数据的挖掘 363

第17章 Web数据挖掘技术 365

17.1 Web数据挖掘技术概述 366

17.2 Web内容挖掘 366

17.2.1爬虫 367

17.2.2虚拟Web视图 367

17.2.3个性化 368

17.3 Web结构挖掘 369

17.3.1 PageRank 369

17.3.2 Clever 369

17.4 Web使用挖掘 369

17.4.1预处理 370

17.4.2数据结构 370

17.4.3模式发现 370

17.4.4模式发现 371

17.4.5基于组织协同进化的Web日志挖掘算法 371

第4篇 数据挖掘应用实战 377

第18章 数据统计特性 377

18.1数据关系发现 378

18.2频率和众数 378

18.3百分位数(percentile) 378

18.4中心度量 378

18.5散布程度度量 379

18.6数据的分布描述 380

18.7数据的概率分布 383

第19章 数据预处理 385

19.1数据预处理完毕 386

19.2数据清理 386

19.2.1填补缺失数据 386

19.2.2消除噪声数据 387

19.2.3实现数据一致性 388

19.3数据集成与转换 388

19.3.1数据集成 388

19.3.2数据转换 389

19.4数据归约与压缩 390

19.4.1数据归约 390

19.4.2数据压缩 395

19.4.3数值归约 395

19.5数值数据的概念分层与离散化 396

19.5.1概念分层 396

19.5.2概念分层的类型 397

19.5.3数值数据离散化 398

19.5.4分类数据的概念分层 399

19.6例题 399

第20章 分类 411

20.1分类概述 412

20.2方法 412

20.3例题 415

第21章 预测 421

21.1回归分析 422

21.1.1逐步回归 422

21.1.2岭回归 424

21.1.3主成分回归分析 425

21.2时间序列预测模型 425

21.2.1时间序列的特征量 426

21.2.2平稳时间序列预测模型 426

21.3马尔可夫链 429

21.4灰色系统方法 430

21.4.1灰色系统的基本概念 430

21.4.2灰色序列生成算子 431

21.4.3灰色分析 433

21.5例题 438

第22章 聚类 459

22.1聚类分析概述 460

21.2聚类分析中的数据类型 461

22.3相似性度量 463

22.3.1属性间的相似性度量 464

22.3.2对象间的相似性度量 465

22.3.3相异度矩阵 465

22.4聚类的特征 468

22.5聚类准则 469

22.6划分方法 470

22.7层次方法 471

22.7.1利用层次方法的平衡迭代归约及聚类 473

22.7.2利用代表点聚类 474

22.8基于密度的方法 474

22.9基于网格的方法 476

22.10基于模型的聚类方法 477

22.11基于目标函数的方法 478

22.11.1样本与类之间的距离 478

22.11.2类内距离 479

22.11.3类与类之间的距离 479

22.12离群点检测 480

22.12.1基于统计的离群点检测方法 481

22.12.2基于距离的离群点检测方法 482

22.12.3基于相对密度的离群点检测方法 483

22.12.4基于聚类的离群点检测方法 484

22.12.5离群点挖掘方法的评估 486

22.13聚类有效性 487

22.13.1内部质量评价准则 487

22.13.2外部质量评价准则 489

22.14例题 489

第23章 时序数据挖掘 505

23.1基本定义 506

23.2时序数据挖掘参数 507

23.3时序关联规则 507

23.3.1事务间关联规则 508

23.3.2情节规则 508

23.3.3序列关联规则 508

23.3.4日历关联规则 509

23.4时间序列挖掘 509

23.4.1时间序列分析 509

23.4.2趋势分析 509

23.4.3相似性搜索 511

23.4.4周期分析 512

23.5时间序列分段线性表示 512

23.6时间序列的预测 513

23.7例题 513

第24章 关联规则挖掘 527

24.1关联规则的类型及挖掘算法 528

24.2基于组织进化的关联规则挖掘 528

24.2.1组织的定义 528

24.2.2组织适应度的计算 529

24.2.3组织进化算子 529

24.2.4算法步骤 529

24.3基于组织层次进化的关联规则挖掘 530

24.3.1聚合算子 530

24.3.2进化种群pe和最优种群pb 530

24.3.3算法步骤 530

24.4多维关联规则挖掘 531

24.4.1染色体的编码 531

24.4.2亲和度函数的构造 531

24.4.3算法步骤 532

24.5关联规则扩展 532

24.5.1多层次关联规则 532

24.5.2多维度关联规则 533

24.5.3定量关联规则 533

24.5.4基于约束的关联规则 534

24.6例题 534

参考文献 548