当前位置:首页 > 工业技术
大数据技术丛书  大数据挖掘  系统方法与实例分析
大数据技术丛书  大数据挖掘  系统方法与实例分析

大数据技术丛书 大数据挖掘 系统方法与实例分析PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:周英,卓金武,卞月青著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2016
  • ISBN:7111532678
  • 页数:386 页
图书介绍:全书规划上中下三篇,上篇将系统讲解数据挖掘涉及的各类技术,包括:数据挖掘基础知识(包括常用的概念、数学知识、数据挖掘流程,而不是通常的绪论或概论)、数据预处理方法和技术、关联技术、分类技术、聚类技术和数据立方技术等内容,每个部分都包含相关算法的讲解,包括算法理论基础、算法使用经验、应用案例,每个应用案例都将有Matlab源程序,以便读者通过模仿的方式来加深对知识的学习。中篇甄选几个典型的数据挖掘应用案例,包括搜索引擎文本挖掘、银行信用评级、电子商务精确营销、广告投放、手机客户精准挖掘等。通过这些案例的介绍来加深读者对数据挖掘技术的理解和应用场景的熟悉,从而培养读者对数据挖掘的应用感或者说项目感。下篇将总结数据挖掘中的项目经验、心得和感悟,以将读者提升到数据挖掘的更高境界。数据挖掘技术的现实使用更像是一门艺术,对不同的数据、不同的场景,技术的使用可能完全不同,所以非常有必要增强读者对各种技术的驾驭能力。这部分将介绍如何培养读者对数据挖掘技术的驾驭感,各种技术的使用场景、心得、技巧,以及技术优化、评判等内容。更直接地说就是让读者知道如何去有效高效地使用各种技术。
《大数据技术丛书 大数据挖掘 系统方法与实例分析》目录

第一篇 基础篇 3

第1章 认识大数据挖掘 3

1.1 大数据与数据挖掘 3

1.1.1 何为大数据 3

1.1.2 大数据的价值 5

1.1.3 大数据与数据挖掘的关系 5

1.2 数据挖掘的概念和原理 6

1.2.1 什么是数据挖掘 6

1.2.2 数据挖掘的原理 8

1.3 数据挖掘的内容 8

1.3.1 关联 8

1.3.2 回归 10

1.3.3 分类 10

1.3.4 聚类 11

1.3.5 预测 12

1.3.6 诊断 13

1.4 数据挖掘的应用领域 13

1.4.1 零售业 13

1.4.2 银行业 14

1.4.3 证券业 15

1.4.4 能源业 16

1.4.5 医疗行业 17

1.4.6 通信行业 18

1.4.7 汽车行业 19

1.4.8 公共事业 19

1.5 大数据挖掘的要点 20

1.6 小结 22

参考文献 22

第2章 数据挖掘的过程及工具 23

2.1 数据挖掘过程概述 23

2.2 挖掘目标的定义 24

2.3 数据的准备 24

2.4 数据的探索 26

2.5 模型的建立 27

2.6 模型的评估 30

2.7 模型的部署 32

2.8 工具的比较与选择 32

2.9 小结 33

参考文献 33

第3章 MATLAB数据挖掘快速入门 35

3.1 MATLAB快速入门 35

3.1.1 MATLAB概要 35

3.1.2 MATLAB的功能 36

3.1.3 快速入门实例 37

3.1.4 入门后的提高 43

3.2 MATLAB常用技巧 44

3.3 MATLAB开发模式 45

3.4 MATLAB数据挖掘实例 46

3.5 MATLAB集成数据挖掘工具 48

3.5.1 分类学习机简介 48

3.5.2 交互探索算法的方式 48

3.5.3 MATLAB分类学习机应用实例 49

3.6 小结 54

第二篇 技术篇 57

第4章 数据的准备 57

4.1 数据的收集 57

4.1.1 认识数据 57

4.1.2 数据挖掘的数据源 58

4.1.3 数据抽样 59

4.1.4 金融 行业的数据源 60

4.1.5 从雅虎获取交易数据 62

4.1.6 从大智慧获取财务数据 64

4.1.7 从Wind获取高质量数据 66

4.2 数据质量分析 68

4.2.1 数据质量分析的必要性 68

4.2.2 数据质量分析的目的 68

4.2.3 数据质量分析的内容 68

4.2.4 数据质量分析方法 69

4.2.5 数据质量分析的结果及应用 73

4.3 数据预处理 74

4.3.1 为什么需要数据预处理 74

4.3.2 数据预处理的方法 74

4.3.3 数据清洗 76

4.3.4 数据集成 79

4.3.5 数据归约 79

4.3.6 数据变换 80

4.4 小结 81

参考文献 82

第5章 数据的探索 83

5.1 衍生变量 84

5.1.1 衍生变量的定义 84

5.1.2 变量衍生的原则和方法 84

5.1.3 常用的股票衍生变量 85

5.1.4 评价型衍生变量 89

5.1.5 衍生变量的数据收集与集成 91

5.2 数据的统计 92

5.2.1 基本描述性统计 92

5.2.2 分布描述性统计 93

5.3 数据可视化 94

5.3.1 基本可视化方法 94

5.3.2 数据分布形状可视化 95

5.3.3 数据关联情况可视化 97

5.3.4 数据分组可视化 97

5.4 样本选择 98

5.4.1 样本选择的方法 98

5.4.2 样本选择应用实例 99

5.5 数据降维 101

5.5.1 主成分分析基本原理 101

5.5.2 PCA应用案例:企业综合实力排序 103

5.5.3 相关系数降维 106

5.6 小结 107

参考文献 108

第6章 关联规则方法 109

6.1 关联规则概要 109

6.1.1 关联规则的背景 109

6.1.2 关联规则的基本概念 110

6.1.3 关联规则的分类 111

6.1.4 关联规则挖掘常用算法 112

6.2 Apriori算法 112

6.2.1 Apriori算法基本思想 112

6.2.2 Apriori算法步骤 113

6.2.3 Apriori算法实例 113

6.2.4 Apriori算法程序实现 115

6.2.5 Apriori算法优缺点 118

6.3 FP-Growth算法 118

6.3.1 FP-Growth算法步骤 118

6.3.2 FP-Growth算法实例 119

6.3.3 FP-Growth算法优缺点 121

6.4 应用实例:行业关联选股法 122

6.5 小结 123

参考文献 124

第7章 数据回归方法 125

7.1 一元回归 126

7.1.1 一元线性回归 126

7.1.2 一元非线性回归 130

7.1.3 一元多项式回归 135

7.2 多元回归 136

7.2.1 多元线性回归 136

7.2.2 多元多项式回归 139

7.3 逐步回归 141

7.3.1 逐步回归基本思想 141

7.3.2 逐步回归步骤 142

7.3.3 逐步回归的MATLAB方法 143

7.4 Logistic回归 144

7.4.1 Logistic 模型 144

7.4.2 Logistic回归实例 145

7.5 应用实例:多因子选股模型的实现 148

7.5.1 多因子模型基本思想 148

7.5.2 多因子模型的实现 148

7.6 小结 151

参考文献 151

第8章 分类方法 153

8.1 分类方法概要 153

8.1.1 分类的概念 153

8.1.2 分类的原理 154

8.1.3 常用的分类方法 155

8.2 K-近邻 155

8.2.1 K-近邻原理 155

8.2.2 K-近邻实例 156

8.2.3 K-近邻特点 159

8.3 贝叶斯分类 160

8.3.1 贝叶斯分类原理 160

8.3.2 朴素贝叶斯分类原理 160

8.3.3 朴素贝叶斯分类实例 162

8.3.4 朴素贝叶斯特点 163

8.4 神经网络 163

8.4.1 神经网络原理 163

8.4.2 神经网络实例 165

8.4.3 神经网络特点 165

8.5 逻辑斯蒂 166

8.5.1 逻辑斯蒂原理 166

8.5.2 逻辑斯蒂实例 166

8.5.3 逻辑斯蒂特点 166

8.6 判别分析 167

8.6.1 判别分析原理 167

8.6.2 判别分析实例 168

8.6.3 判别分析特点 168

8.7 支持向量机 168

8.7.1 支持向量机基本思想 169

8.7.2 支持向量机理论基础 169

8.7.3 支持向量机实例 172

8.7.4 支持向量机特点 172

8.8 决策树 173

8.8.1 决策树的基本概念 173

8.8.2 决策树的构建步骤 173

8.8.3 决策树实例 177

8.8.4 决策树特点 177

8.9 分类的评判 177

8.9.1 正确率 177

8.9.2 ROC曲线 180

8.10 应用实例:分类选股法 181

8.10.1 案例背景 181

8.10.2 实现方…法 182

8.11 延伸阅读:其他分类方法 185

8.12 小结 185

参考文献 186

第9章 聚类方法 187

9.1 聚类方法概要 187

9.1.1 聚类的概念 187

9.1.2 类的度量方法 189

9.1.3 聚类方法的应用场景 190

9.1.4 聚类方法分类 191

9.2 K-means方法 192

9.2.1 K-means原理和步骤 192

9.2.2 K-means实例1:自主编程 193

9.2.3 K-means实例2:集成函数 194

9.2.4 K-means特点 198

9.3 层次聚类 198

9.3.1 层次聚类原理和步骤 198

9.3.2 层次聚类实例 199

9.3.3 层次聚类特点 201

9.4 神经网络聚类 202

9.4.1 神经网络聚类原理和步骤 202

9.4.2 神经网络聚类实例 202

9.4.3 神经网络聚类特点 203

9.5 模糊C-均值方法 203

9.5.1 FCM原理和步骤 203

9.5.2 FCM应用实例 205

9.5.3 FCM算法特点 205

9.6 高斯混合聚类方法 206

9.6.1 高斯混合聚类原理和步骤 206

9.6.2 高斯混合聚类实例 208

9.6.3 高斯混合聚类特点 209

9.7 类别数的确定方法 209

9.7.1 原理 209

9.7.2 实例 210

9.8 应用实例:股票聚类分池 212

9.8.1 聚类目标和数据描述 212

9.8.2 实现过程 212

9.8.3 结果及分析 214

9.9 延伸阅读 215

9.9.1 目前聚类分析研究的主要内容 215

9.9.2 SOM智能聚类算法 216

9.10 小结 217

参考文献 218

第10章 预测方法 219

10.1 预测方法概要 219

10.1.1 预测的概念 219

10.1.2 预测的基本原理 220

10.1.3 预测的准确度评价及影响因素 221

10.1.4 常用的预测方法 222

10.2 灰色预测 223

10.2.1 灰色预测原理 223

10.2.2 灰色预测的实例 225

10.3 马尔科夫预测 226

10.3.1 马尔科夫预测原理 226

10.3.2 马尔科夫过程的特性 227

10.3.3 马尔科夫预测实例 228

10.4 应用实例:大盘走势预测 232

10.4.1 数据的选取及模型的建立 232

10.4.2 预测过程 233

10.4.3 预测结果与分析 234

10.5 小结 234

参考文献 235

第11章 诊断方法 237

11.1 离群点诊断概要 237

11.1.1 离群点诊断的定义 237

11.1.2 离群点诊断的作用 238

11.1.3 离群点诊断方法分类 239

11.2 基于统计的离群点诊断 240

11.2.1 理论基础 240

11.2.2 应用实例 241

11.2.3 优点与缺点 242

11.3 基于距离的离群点诊断 243

11.3.1 理论基础 243

11.3.2 应用实例 244

11.3.3 优点与缺点 244

11.4 基于密度的离群点挖掘 245

11.4.1 理论基础 245

11.4.2 应用实例 246

11.4.3 优点与缺点 247

11.5 基于聚类的离群点挖掘 247

11.5.1 理论基础 247

11.5.2 应用实例 248

11.5.3 优点与缺点 249

11.6 应用实例:离群点诊断股票买卖择时 249

11.7 延伸阅读:新兴的离群点挖掘方法 251

11.7.1 基于关联的离群点挖掘 251

11.7.2 基于粗糙集的离群点挖掘 251

11.7.3 基于人工神经网络的离群点挖掘 251

11.8 小结 252

参考文献 252

第12章 时间序列方法 253

12.1 时间序列基本概念 253

12.1.1 时间序列的定义 253

12.1.2 时间序列的组成因素 254

12.1.3 时间序列的分类 255

12.1.4 时间序列分析方法 255

12.2 平稳时间序列分析方法 256

12.2.1 移动平均法 256

12.2.2 指数平滑法 257

12.3 季节指数预测法 258

12.3.1 季节性水平模型 258

12.3.2 季节性趋势模型 259

12.4 时间序列模型 259

12.4.1 ARMA模型 259

12.4.2 ARIMA模型 259

12.4.3 ARCH模型 260

12.4.4 GARCH模型 261

12.5 应用实例:基于时间序列的股票预测 261

12.6 小结 264

参考文献 264

第13章 智能优化方法 265

13.1 智能优化方法概要 266

13.1.1 智能优化方法的概念 266

13.1.2 常用的智能优化方法 266

13.2 遗传算法 268

13.2.1 遗传算法的原理 268

13.2.2 遗传算法的步骤 268

13.2.3 遗传算法实例 274

13.2.4 遗传算法的特点 275

13.3 模拟退火算法 276

13.3.1 模拟退火算法的原理 276

13.3.2 模拟退火算法的步骤 278

13.3.3 模拟退火算法实例 280

13.3.4 模拟退火算法的特点 285

13.4 延伸阅读:其他智能方法 286

13.4.1 粒子群算法 286

13.4.2 蚁群算法 287

13.5 小结 288

参考文献 288

第三篇 项目篇 291

第14章 数据挖掘在银行信用评分中的应用 291

14.1 什么是信用评分 291

14.1.1 信用评分的概念 291

14.1.2 信用评分的意义 293

14.1.3 个人信用评分的影响因素 293

14.1.4 信用评分的方法 294

14.2 DM法信用评分实施过程 295

14.2.1 数据的准备 295

14.2.2 数据预处理 295

14.2.3 Logis和tic模型 296

14.2.4 神经网络模型 297

14.3 AHP信用评分方法 298

14.3.1 AHP法简介 298

14.3.2 AHP法信用评分实例 298

14.4 延伸阅读:企业信用评级 299

14.5 小结 300

第15章 数据挖掘在量化选股中的应用 301

15.1 什么是量化选股 301

15.1.1 量化选股定义 301

15.1.2 量化选股实现过程 302

15.1.3 量化选股的分类 304

15.2 数据的处理及探索 304

15.2.1 获取股票日交易数据 304

15.2.2 计算指标 307

15.2.3 数据标准化 312

15.2.4 变量筛选 313

15.3 模型的建立及评估 315

15.3.1 股票预测的基本思想 315

15.3.2 模型的训练及评价 315

15.4 组合投资的优化 317

15.4.1 组合投资的理论基础 317

15.4.2 组合投资的实现 320

15.5 量化选股的实施 323

15.6 小结 323

参考文献 324

第16章 数据挖掘在工业故障诊断中的应用 325

16.1 什么是故障诊断 325

16.1.1 故障诊断的概念 325

16.1.2 故障诊断的方法 326

16.1.3 数据挖掘技术的故障诊断原理 326

16.2 DM设备故障诊断实例 327

16.2.1 加载数据 327

16.2.2 探索数据 327

16.2.3 设置训练样本的测试样本 332

16.2.4 决策树方法训练模型 332

16.2.5 集成决策树方法训练模型 332

16.3 小结 333

第17章 数据挖掘技术在矿业工程中的应用 335

17.1 什么是矿业工程 335

17.1.1 矿业工程的内容 335

17.1.2 矿业工程的数据及特征 336

17.1.3 数据挖掘技术在矿业工程中的作用 337

17.2 矿业工程数据挖掘实例:提纯预测 337

17.2.1 数据的集成 337

17.2.2 采用插值方式处理缺失值 338

17.2.3 设置建模数据及验证方式 338

17.2.4 多元线性回归模型 338

17.3 小结 343

参考文献 343

第18章 数据挖掘技术在生命科学中的应用 345

18.1 什么是生命科学 345

18.1.1 生命科学的研究内容 345

18.1.2 生命科学中大数据的特征 346

18.1.3 数据挖掘技术在生命科学中的作用 347

18.2 生命科学数据挖掘实例:基因表达模式挖掘 349

18.2.1 加载数据 349

18.2.2 数据初探 349

18.2.3 数据清洗 350

18.2.4 层次聚类 350

18.2.5 K-means聚类 352

18.3 小结 353

参考文献 353

第19章 数据挖掘在社会科学研究中的应用 355

19.1 什么是社会利学研究 355

19.1.1 社会学研究的内容 355

19.1.2 社会学研究的方法 356

19.1.3 数据挖掘在社会科学研究中的应用情况 356

19.2 社会科学挖掘实例:人类行为研究 358

19.2.1 加载数据 358

19.2.2 数据可视化 358

19.2.3 神经网络 359

19.2.4 混淆矩阵评价分类器 359

19.2.5 ROC法评价分类器 361

19.2.6 变量优选 361

19.2.7 用优选的变量训练网络 362

19.3 小结 362

第四篇 理念篇 365

第20章 数据挖掘的艺术 365

20.1 确定数据挖掘目标的艺术 365

20.1.1 数据挖掘中的商业意识 365

20.1.2 商业意识到数据挖掘目标 366

20.1.3 商业意识的培养 366

20.2 应用技术的艺术 367

20.2.1 技术服务于业务的艺术 367

20.2.2 算法选择的艺术 368

20.2.3 与机器配合的艺术 369

20.3 数据挖掘中平衡的艺术 370

20.3.1 客观与主观的平衡 370

20.3.2 数据量的平衡 370

20.4 理性对待大数据时代 371

20.4.1 发展大数据应避免的误区 371

20.4.2 正确认识大数据的价值 372

20.4.3 直面大数据应用面临的挑战 374

20.5 小结 375

参考文献 375

第21章 数据挖掘的项目管理和团队管理 377

21.1 数据挖掘项目实施之道 377

21.1.1 确定可行的目标 377

21.1.2 遵守数据挖掘流程 377

21.1.3 项目的质量控制 378

21.1.4 项目效率 378

21.1.5 成本控制 379

21.1.6 数据挖掘过程改进 379

21.2 数据挖掘团队的组建 380

21.2.1 数据挖掘项目团队的构成 380

21.2.2 团队负责人 380

21.3 数据挖掘团队的管理 381

21.3.1 团队管理的目标与策略 381

21.3.2 规范化的管理 381

21.4 优秀数据挖掘人才的修炼 382

21.4.1 专业知识与技术 382

21.4.2 快速获取知识的技能 383

21.4.3 提高表达能力 383

21.4.4 提高管理能力 383

21.4.5 培养对数据挖掘的热情 384

21.5 小结 384

返回顶部