数据仓库和数据挖掘PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:苏新宁等编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2006
- ISBN:7302126488
- 页数:294 页
目录 1
第1章 绪论 1
1.1 企业用户关心的新问题 1
1.2 解决问题的一项新技术——数据仓库 2
1.3 数据仓库的商业应用 3
1.4 数据仓库与信息管理 4
1.5 信息管理的新问题催生数据挖掘 6
1.6 数据挖掘与信息管理 7
1.7 数据仓库与数据挖掘 9
1.8 数据仓库与非结构化数据的管理 10
1.9 数据仓库与传统数据库长期共存 11
第2章 数据仓库概述 13
2.1 从传统数据库到数据仓库 13
2.1.1 传统数据库的不足 13
2.1.2 数据仓库与传统数据库的区别 16
2.2 数据仓库的基本概念 17
2.2.1 外部数据源 18
2.2.2 数据抽取 18
2.2.3 抽取存储区 18
2.2.4 数据清洗 18
2.2.5 数据转换 19
2.2.6 元数据 20
2.2.7 数据集市 21
2.3 数据仓库的体系结构 22
2.3.1 数据仓库系统的三个层次 22
2.3.2 数据仓库的构造模式 24
2.4 数据仓库的特点 25
2.4.1 面向主题 26
2.4.2 数据的集成性 27
2.5 数据仓库的数据组织 28
2.4.3 数据的非易失性 28
2.4.4 数据的时变性 28
2.5.1 数据仓库的数据综合 29
2.5.2 数据仓库中的时间分割 30
2.5.3 数据仓库中的数据组织 32
第3章 数据仓库中的模型 34
3.1 数据仓库中数据模型概述 34
3.2 数据仓库的概念模型 36
3.2.1 企业模型的建立 36
3.2.2 数据模型的规范 37
3.2.3 常见的概念模型 40
3.3 逻辑模型与物理模型 41
3.3.1 逻辑数据模型的特点 42
3.3.2 物理模型的设计要点 43
3.3.3 事实表的设计 44
3.3.4 维度表的设计 45
3.3.5 物理模型的设计对数据仓库性能的影响 46
3.4 元数据模型 47
3.4.1 元数据的类型 48
3.4.2 元数据的作用 49
3.4.3 元数据的收集与维护 50
3.4.4 元数据的使用 52
3.5 数据仓库的粒度模型 53
3.5.1 粒度的划分 54
3.5.2 粒度级别的确定 54
第4章 OLAP技术 56
4.1 OLAP概述 56
4.1.1 OLAP的发展历程与特点 56
4.1.2 OLAP的基本概念 57
4.1.3 OLAP分析的基本操作 60
4.1.4 OLAP与OLTP的比较 63
4.2.1 评价OLAP的十二条准则 64
4.2 OLAP的评价标准 64
4.2.2 对OLAP评价标准的补充 67
4.3 基于多维数据库的OLAP 67
4.3.1 多维数据库 67
4.3.2 MDDB数据中的时间序列 69
4.3.3 MDDB的数据存储与读取 70
4.4 基于RDBMS的OLAP 71
4.4.1 多维数据在RDBMS中的记录 72
4.4.2 星形结构的存储实现 73
4.4.3 MOLAP与ROLAP的比较 75
4.5 OLAP的前端展现 77
4.5.1 OLAP系统的结构 77
4.5.2 OLAP结果的展现方法 79
5.1.1 SQL Server所提供的数据仓库功能 81
5.1.2 SQL Server的安装 81
5.1 SQL Server简介 81
第5章 数据仓库的开发实例 81
5.1.3 Analysis Service窗口的打开与使用 85
5.2 SQL Server中创建数据仓库的准备工作 86
5.2.1 SQL Server中数据库与表的创建 86
5.2.2 DTS的设置与使用 88
5.2.3 分析数据库的建立与数据源的连接 91
5.3 维度的创建 93
5.3.1 创建“客户”维度 94
5.3.2 创建“时间”维度 97
5.3.3 其他维度的创建 98
5.4 多维数据集的创建与处理 99
5.4.1 多维数据集的创建 99
5.4.2 多维数据集的处理 101
5.5.1 多维数据集中数据的浏览 105
5.5 多维数据集数据浏览与OLAP的实施 105
5.5.2 多维数据集中维度的操作与OLAP功能的实现 106
5.6 数据仓库中的数据挖掘 108
5.6.1 SQL Server中数据挖掘的特性 108
5.6.2 决策树挖掘技术的使用 109
5.6.3 Microsoft聚集挖掘技术的应用 113
第6章 数据挖掘概述 115
6.1 数据挖掘基本概念 115
6.1.1 数据挖掘的由来 115
6.1.2 数据挖掘的技术定义 116
6.1.3 数据挖掘的商业定义 117
6.1.4 数据挖掘的对象 118
6.2 数据挖掘基本功能 119
6.2.1 概念描述 119
6.2.3 分类 120
6.2.2 关联分析 120
6.2.4 聚类 121
6.2.5 孤立点分析 121
6.2.6 时序演变分析 121
6.2.7 信息摘要 122
6.2.8 信息抽取 122
6.2.9 元数据挖掘 122
6.3 数据挖掘过程 123
6.3.1 Fayyad过程模型 123
6.3.2 CRISP-DM过程模型 125
6.3.3 数据挖掘过程工作量 129
6.3.4 建立数据挖掘环境 130
6.4 数据挖掘方法 132
6.4.1 决策树 132
6.4.2 神经网络 133
6.4.3 粗糙集 134
6.4.4 遗传算法 135
6.4.5 概率论与数理统计 137
6.4.6 模糊集 137
6.4.7 关联分析 138
6.5 数据挖掘系统发展阶段 138
第7章 数据库挖掘 140
7.1 概念描述 140
7.1.1 概念描述的生成过程 140
7.1.2 概念分层与数据泛化 141
7.1.3 概念分层方法 142
7.1.4 数据泛化方法 144
7.1.5 泛化的表示 147
7.1.6 属性相关分析 148
7.2.1 关联规则相关概念 149
7.1.7 区别性描述 149
7.2 关联规则 149
7.2.2 关联规则分类 151
7.2.3 单维布尔关联规则 151
7.2.4 多层关联规则 155
7.2.5 多维关联规则 156
7.2.6 基于约束的挖掘 159
7.3 分类 161
7.3.1 分类过程与方法 161
7.3.2 决策树分类 162
7.3.3 贝叶斯分类 165
7.3.4 神经网络方法 167
7.4 聚类分析 169
7.4.1 聚类分析概述 169
7.4.3 聚类处理的数据类型 171
7.4.2 聚类处理的数据结构 171
7.4.4 聚类方法分类 174
7.4.5 典型聚类方法 175
7.4.6 孤立点分析 182
7.5 关联规则兴趣度 183
7.5.1 兴趣度的作用 183
7.5.2 客观性兴趣度 183
7.5.3 主观性兴趣度 184
7.5.4 两种标准的综合 185
第8章 文本挖掘 187
8.1 文本挖掘概述 187
8.1.1 文本挖掘的主要技术 187
8.1.2 文本挖掘的一般过程 188
8.1.3 文本挖掘的主要应用 189
8.1.4 文本挖掘对信息检索的影响 189
8.2.1 文本表示 190
8.2 文本的预处理 190
8.2.2 自动分词 191
8.2.3 文本标引 194
8.2.4 文本相似度计算 197
8.2.5 词频矩阵降维 198
8.2.6 去除重复文本 199
8.2.7 文本过滤 200
8.3 文本分类 201
8.3.1 文本分类应用 201
8.3.2 文本分类方法 202
8.3.3 分类效果评价 204
8.4 文本聚类 205
8.4.1 划分聚类法 205
8.4.2 层次聚类法 206
8.4.3 神经网络聚类法 207
8.4.5 网页聚类 208
8.4.4 遗传算法聚类法 208
8.5 自动摘要 209
8.5.1 自动摘要应用 209
8.5.2 自动摘要方法 210
8.5.3 中文自动摘要系统 212
第9章 Web挖掘 214
9.1 概述 214
9.1.1 Web挖掘概念 214
9.1.2 几个相关概念 216
9.1.3 Web挖掘数据源 219
9.1.4 Web挖掘过程 221
9.1.5 Web挖掘的挑战 223
9.2 Web挖掘任务分类 225
9.2.1 Web内容挖掘 226
9.2.2 Web结构挖掘 228
9.2.3 Web使用挖掘 231
9.3 Web挖掘技术分类 234
9.3.1 统计分析 234
9.3.2 关联规则 235
9.3.3 序列模式 236
9.3.4 聚类与分类 237
9.4 Web挖掘的应用 237
9.4.1 在搜索引擎中的应用 238
9.4.2 在网站设计中的应用 239
9.4.3 在电子商务中的应用 240
9.4.4 电子商务网站的Web挖掘实施过程 241
第10章 数据挖掘应用 247
10.1 数据挖掘应用案例 247
10.1.1 生物医学 248
10.1.2 市场业 249
10.1.3 科学研究 250
10.1.4 竞技运动 252
10.1.5 商业银行 252
10.1.6 商务应用 253
10.2 数据挖掘产品 254
10.2.1 产品分类 255
10.2.2 产品介绍 256
10.2.3 产品评价 258
10.2.4 产品选择 260
第11章 数据挖掘与竞争情报系统 262
11.1 竞争情报系统概述 262
11.1.1 竞争情报系统概念 262
11.1.2 数据挖掘应用现状 263
11.2 竞争情报流程 265
11.2.1 数据挖掘应用 265
11.2.2 数据准备 266
11.2.3 关系信息的挖掘 267
11.2.4 指标值的自动抽取 269
11.3 竞争对手分析 272
11.3.1 主要竞争产品的确定 272
11.3.2 选择核心竞争对手的依据 273
11.3.3 潜在竞争对手的类型 274
11.3.4 核心竞争对手的确定 276
11.3.5 挖掘潜在竞争对手 278
11.4 客户分析 278
11.4.1 客户关系管理 279
11.4.2 客户数据收集 281
11.4.3 客户获取 282
11.4.4 客户保持 284
11.4.5 交叉销售 285
11.4.6 客户细分 286
参考文献 289
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《断陷湖盆比较沉积学与油气储层》赵永胜等著 1996
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019