数据挖掘 方法与应用PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:徐华编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2014
- ISBN:9787302369011
- 页数:176 页
第1章 绪论 1
1.1 应用背景 1
1.1.1 商业上的驱动 2
1.1.2 科学研究上的驱动 2
1.1.3 数据挖掘伴随着数据库技术而出现 2
1.2 什么是数据挖掘 3
1.2.1 基本描述 3
1.2.2 关于知识发现 4
1.3 数据挖掘的主要技术 5
1.4 数据挖掘的主要研究内容 7
1.5 数据挖掘面临的主要问题 10
1.6 数据挖掘相关的资料 11
1.7 本书的总体章节安排 12
1.8 小结 13
参考文献 13
第2章 数据预处理 14
2.1 前言 14
2.2 数据预处理的基本概念 14
2.2.1 数据的基本概念 14
2.2.2 为什么要进行数据预处理 17
2.2.3 数据预处理的任务 18
2.3 数据的描述 18
2.3.1 描述数据的中心趋势 19
2.3.2 描述数据的分散程度 21
2.3.3 描述数据的其他方式 22
2.4 数据清洗 24
2.4.1 数据缺失的处理 24
2.4.2 数据清洗 25
2.5 数据集成和转换 27
2.5.1 数据集成 27
2.5.2 数据冗余性 27
2.5.3 数据转换 29
2.6 数据归约和变换 30
2.6.1 数据归约 30
2.6.2 数据离散化 33
2.6.3 概念层次生成 34
2.7 小结 35
参考文献 36
第3章 数据仓库 37
3.1 前言 37
3.2 数据库基本概念回顾 37
3.2.1 数据库简介 38
3.2.2 表、记录和域 38
3.2.3 数据库管理系统 38
3.3 数据仓库简介 39
3.3.1 数据仓库特点 39
3.3.2 数据仓库概念 40
3.3.3 数据仓库作用 41
3.3.4 数据仓库与DBMS对比 41
3.3.5 分离数据仓库的原因 42
3.4 多维数据模型 43
3.4.1 数据立方体 43
3.4.2 概念模型 45
3.4.3 概念分层 48
3.4.4 典型OLAP操作 49
3.4.5 星型网络的查询模型 51
3.5 数据仓库结构 52
3.5.1 数据仓库设计 52
3.5.2 多层体系结构 54
3.6 数据仓库的功能 55
3.6.1 数据立方体的有效计算 55
3.6.2 索引OLAP数据 60
3.6.3 OLAP查询的有效处理 61
3.7 从数据仓库到数据挖掘 61
3.7.1 数据仓库应用 61
3.7.2 从OLAP到OLAM 62
3.8 小结 64
参考文献 64
第4章 相关性与关联规则 66
4.1 基本概念 66
4.1.1 潜在的应用 66
4.1.2 购物篮问题 67
4.1.3 频繁模式分析、闭项集和关联规则 67
4.2 频繁项集挖掘方法 69
4.2.1 Apriori算法 69
4.2.2 由频繁项集产生关联规则 71
4.2.3 提高Apriori的效率 72
4.2.4 挖掘频繁项集的模式增长方法 73
4.3 多种关联规则挖掘 75
4.3.1 挖掘多层关联规则 75
4.3.2 挖掘多维关联规则 77
4.3.3 挖掘量化关联规则 78
4.4 从关联分析到相关分析 79
4.4.1 相关分析 80
4.4.2 强规则不一定是有价值的 80
4.4.3 挖掘高度关联的模式 81
4.5 基于约束的频繁模式挖掘 82
4.5.1 关联规则的元规则制导挖掘 82
4.5.2 基于约束的模式生成:模式空间剪枝和数据空间剪枝 83
4.6 小结 85
参考文献 85
第5章 分类和预测 89
5.1 前言 89
5.2 基本概念 89
5.2.1 什么是分类 89
5.2.2 什么是预测 91
5.3 关于分类和预测的问题 91
5.3.1 准备分类和预测的数据 91
5.3.2 评价分类和预测方法 91
5.4 决策树分类 92
5.4.1 决策树归纳 93
5.4.2 属性选择度量 93
5.4.3 提取分类规则 96
5.4.4 基本决策树归纳的增强 97
5.4.5 在大数据集中的分类 97
5.5 贝叶斯分类 97
5.5.1 贝叶斯定理 98
5.5.2 朴素贝叶斯分类 98
5.5.3 贝叶斯信念网络 100
5.5.4 贝叶斯网络学习 101
5.6 神经网络 102
5.6.1 神经网络简介 103
5.6.2 多层神经网络 103
5.6.3 神经网络训练 104
5.6.4 后向传播 104
5.6.5 网络剪枝和规则抽取 106
5.7 支持向量机 106
5.7.1 数据线性可分的情况 107
5.7.2 数据线性不可分的情况 109
5.7.3 支持向量机和神经网络的对比 111
5.8 关联分类 111
5.8.1 为什么有效 111
5.8.2 常见关联分类算法 112
5.9 分类准确率 112
5.9.1 估计错误率 113
5.9.2 装袋和提升 113
5.10 小结 115
参考文献 115
第6章 聚类分析 117
6.1 聚类分析的定义和数据类型 117
6.1.1 聚类的定义 117
6.1.2 聚类分析和主要应用 118
6.1.3 聚类分析方法的性能指标 119
6.1.4 聚类分析使用的数据类型 119
6.2 流聚类方法分类与相似性质量 121
6.2.1 聚类分析方法分类 121
6.2.2 连续变量的距离与相似性度量 122
6.2.3 二元变量与标称变量的相似性度量 124
6.2.4 序数和比例标度变量的相似性度量 125
6.2.5 混合类型变量的相似性度量 125
6.3 基于分割的聚类 126
6.4 基于层次的聚类 129
6.5 基于密度的聚类 133
6.6 基于网格的聚类 134
6.7 基于模型的聚类 135
6.8 离群点检测 136
6.9 小结 137
参考文献 137
第7章 数据挖掘应用 139
7.1 前言 139
7.2 应用研发思路 140
7.3 预处理方法 140
7.3.1 基础数据说明 140
7.3.2 数字化方法说明 140
7.3.3 深入一步的预处理方法 142
7.3.4 基本数据分布情况说明 144
7.3.5 初步分析结果 145
7.3.6 小结 148
7.4 特征提取方法 148
7.4.1 8种特征提取方法 148
7.4.2 特征总体排名策略 149
7.4.3 最终关键特征 150
7.4.4 特征提取与分析结论 154
7.4.5 小结 155
7.5 皮肤特征预测模型 155
7.5.1 预测方法回顾 156
7.5.2 预测结果分析与结论 157
7.5.3 小结 168
7.6 小结 169
参考文献 170
附录 171
附录A 插图索引 171
附录B 表格索引 173
附录C 算法索引 174
附录D 关键词索引 174
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《数学物理方法与仿真 第3版》杨华军 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019