R语言数据挖掘方法及应用PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:薛薇编著
- 出 版 社:北京:电子工业出版社
- 出版年份:2016
- ISBN:9787121283277
- 页数:392 页
第1篇 起步篇:R语言数据挖掘入门并不难 2
第1章 数据挖掘与R语言概述 2
1.1 为什么要学习数据挖掘和R语言 2
1.2 什么是数据挖掘 3
1.3 数据挖掘能给出什么 4
1.3.1 数据挖掘结果有哪些呈现方式 5
1.3.2 数据挖掘结果有哪些基本特征 6
1.4 数据挖掘能解决什么问题 8
1.4.1 数据预测 8
1.4.2 发现数据的内在结构 10
1.4.3 发现关联性 10
1.4.4 模式甄别 12
1.5 数据挖掘解决问题的思路 14
1.6 数据挖掘有哪些典型的商业应用 17
1.6.1 数据挖掘在客户细分中的应用 17
1.6.2 数据挖掘在客户流失分析中的应用 19
1.6.3 数据挖掘在营销响应分析中的应用 20
1.6.4 数据挖掘在交叉销售中的应用 20
1.6.5 数据挖掘在欺诈甄别中的应用 21
1.7 R语言入门需要知道什么 22
1.7.1 什么是R的包 22
1.7.2 如何获得R 23
1.7.3 R如何起步 24
1.7.4 R的基本操作和其他 29
第2章 R语言数据挖掘起步:R对象和数据组织 33
2.1 什么是R的数据对象 33
2.1.1 R的数据对象有哪些类型 33
2.1.2 如何创建和访问R的数据对象 34
2.2 如何用R的向量组织数据 35
2.2.1 创建只包含一个元素的向量 35
2.2.2 创建包含多个元素的向量 36
2.2.3 访问向量中的元素 38
2.3 如何用R的矩阵组织数据 40
2.3.1 创建矩阵 40
2.3.2 访问矩阵中的元素 42
2.4 如何用R的数据框组织数据 45
2.4.1 创建数据框 46
2.4.2 访问数据框 47
2.5 如何用R的数组、列表组织数据 49
2.5.1 创建和访问数组 49
2.5.2 创建和访问列表 51
2.6 R数据对象的相互转换 52
2.6.1 不同存储类型之间的转换 52
2.6.2 不同结构类型之间的转换 54
2.7 如何将外部数据组织到R数据对象中 58
2.7.1 将文本数据组织到R对象中 58
2.7.2 将SPSS数据组织到R对象中 61
2.7.3 将数据库和Excel表数据组织到R对象中 62
2.7.4 将网页表格数据组织到R对象中 64
2.7.5 R有哪些自带的数据包 65
2.7.6 如何将R对象中的数据保存起来 67
2.8 R程序设计需哪些必备知识 67
2.8.1 R程序设计涉及哪些基本概念 67
2.8.2 R有哪些常用的系统函数 68
2.8.3 用户自定义函数提升编程水平 75
2.8.4 如何提高R程序处理的能力 77
2.9 R程序设计与数据整理综合应用 81
2.9.1 综合应用一:数据的基本处理 81
2.9.2 综合应用二:如何将汇总数据还原为原始数据 82
第3章 R语言数据挖掘初体验:对数据的直观印象 84
3.1 数据的直观印象 85
3.1.1 R的数据可视化平台是什么 85
3.1.2 R的图形组成和图形参数 86
3.1.3 R的图形边界和布局 87
3.1.4 如何修改R的图形参数 89
3.2 如何获得单变量分布特征的直观印象 89
3.2.1 核密度图:车险理赔次数的分布特点是什么 89
3.2.2 小提琴图:不同车型车险理赔次数的分布有差异吗 92
3.2.3 克利夫兰点图:车险理赔次数存在异常吗 94
3.3 如何获得多变量联合分布的直观印象 96
3.3.1 曲面图和等高线图 96
3.3.2 二元核密度曲面图:投保人年龄和车险理赔次数的联合分布特点是什么 98
3.3.3 雷达图:不同区域气候特点有差异吗 99
3.4 如何获得变量间相关性的直观印象 101
3.4.1 马赛克图:车型和车龄有相关性吗 101
3.4.2 散点图:这些因素会影响空气湿度吗 102
3.4.3 相关系数图:淘宝各行业商品成交指数有相关性吗 111
3.5 如何获得GIS数据的直观印象 112
3.5.1 绘制世界地图和美国地图 112
3.5.2 绘制中国行政区划地图 114
3.5.3 依据地图绘制热力图:不同省市的淘宝女装成交指数有差异吗 117
3.6 如何获得文本词频数据的直观印象:政府工作报告中有哪些高频词 118
第2篇 数据预测篇:立足数据预测未知 122
第4章 基于近邻的分类预测:与近邻有趋同的选择 122
4.1 近邻分析:K-近邻法 123
4.1.1 K-近邻法中的距离 123
4.1.2 K-近邻法中的近邻个数 124
4.1.3 R的K-近邻法和模拟分析 126
4.1.4 K-近邻法应用:天猫成交顾客的分类预测 129
4.2 K-近邻法的适用性及特征选择 130
4.2.1 K-近邻法的适用性 130
4.2.2 特征选择:找到重要变量 131
4.3 基于变量重要性的加权K-近邻法 133
4.3.1 基于变量重要性的加权K-近邻法的基本原理 133
4.3.2 变量重要性判断应用:天猫成交顾客预测中的重要变量 134
4.4 基于观测相似性的加权K-近邻法 136
4.4.1 加权K-近邻法的权重设计 136
4.4.2 加权K-近邻法的距离和相似性变换 137
4.4.3 加权K-近邻法的R实现 138
4.4.4 加权K-近邻法应用:天猫成交顾客的分类预测 139
第5章 基于规则的分类和组合预测:给出易懂且稳健的预测 142
5.1 决策树概述 143
5.1.1 什么是决策树 143
5.1.2 决策树的几何意义是什么 144
5.1.3 决策树的核心问题 145
5.2 分类回归树的生长过程 147
5.2.1 分类树的生长过程 147
5.2.2 回归树的生长过程 150
5.2.3 损失矩阵对分类树的影响 151
5.3 分类回归树的剪枝 152
5.3.1 最小代价复杂度的测度 152
5.3.2 分类回归树后剪枝过程 153
5.3.3 分类回归树的交叉验证剪枝 154
5.4 分类回归树的R实现和应用 156
5.4.1 分类回归树的R实现 156
5.4.2 分类回归树的应用:提炼不同消费行为顾客的主要特征 158
5.5 建立分类回归树的组合预测模型:给出稳健的预测 161
5.5.1 袋装技术 161
5.5.2 袋装技术的R实现 163
5.5.3 袋装技术的应用:稳健定位目标客户 164
5.5.4 推进技术 165
5.5.5 推进技术的R实现 167
5.5.6 推进技术的应用:稳健定位目标客户 168
5.6 随机森林:具有随机性的组合预测 168
5.6.1 什么是随机森林 168
5.6.2 随机森林的R实现 170
5.6.3 随机森林的应用:稳健定位目标客户 171
第6章 基于神经网络的分类预测:给出高精准的预测 176
6.1 人工神经网络概述 177
6.1.1 人工神经网络和种类 177
6.1.2 节点:人工神经网络的核心处理器 178
6.1.3 建立人工神经网络的一般步骤 181
6.1.4 感知机模型:确定连接权重的基本策略 182
6.2 B-P反向传播网络:最常见的人工神经网络 184
6.2.1 B-P反向传播网络的三大特点 184
6.2.2 B-P反向传播算法:确定连接权重 187
6.2.3 学习率:影响连接权重调整的重要因素 188
6.3 B-P反向传播网络的R实现和应用 189
6.3.1 neuralnet包中的neuralnet函数 189
6.3.2 neuralnet函数的应用:精准预测顾客的消费行为 190
6.3.3 利用ROC曲线确定概率分割值 194
6.3.4 nnet包中的nnet函数 197
第7章 基于支持向量的分类预测:给出最大把握的预测 199
7.1 支持向量分类概述 199
7.1.1 支持向量分类的基本思路:确保把握程度 199
7.1.2 支持向量分类的三种情况 202
7.2 理想条件下的分类:线性可分问题下的支持向量分类 202
7.2.1 如何求解超平面 202
7.2.2 如何利用超平面进行分类预测 205
7.3 一般条件下的分类:广义线性可分时的支持向量分类 205
7.3.1 如何求解超平面 205
7.3.2 可调参数的意义:把握程度和精度的权衡 206
7.4 复杂条件下的分类:线性不可分时支持向量分类 207
7.4.1 线性不可分的一般解决途径和维灾难问题 207
7.4.2 支持向量分类克服维灾难的途径 208
7.5 多分类的支持向量分类:二分类的拓展 210
7.6 支持向量回归:解决数值预测问题 210
7.6.1 支持向量回归与一般线性回归:目标和策略 210
7.6.2 支持向量回归的基本思路 211
7.7 支持向量机的R实现及应用 213
7.7.1 支持向量机的R实现 213
7.7.2 利用R模拟线性可分下的支持向量分类 214
7.7.3 利用R模拟线性不可分下的支持向量分类 217
7.7.4 利用R模拟多分类的支持向量分类 220
7.7.5 支持向量分类应用:天猫成交顾客的预测 222
第3篇 数据分组篇:发现数据中的自然群组 226
第8章 常规聚类:直观的数据全方位自动分组 226
8.1 聚类分析概述 226
8.1.1 聚类分析目标:发现数据中的“自然小类” 226
8.1.2 有哪些主流的聚类算法 227
8.2 基于质心的聚类:K-Means聚类 228
8.2.1 K-Means聚类中的距离测度:体现全方位性 228
8.2.2 K-Means聚类过程:多次自动分组 229
8.2.3 K-Means聚类的R实现和模拟分析 231
8.2.4 K-Means聚类的应用:环境污染的区域划分 233
8.3 PAM聚类:改进的K-Means聚类 235
8.3.1 PAM聚类过程 235
8.3.2 PAM聚类的R实现和模拟分析 236
8.4 基于联通性的聚类:层次聚类 238
8.4.1 层次聚类的基本过程 238
8.4.2 层次聚类的R实现和应用:环境污染的区域划分 239
8.5 基于统计分布的聚类:EM聚类 241
8.5.1 基于统计分布的聚类出发点:有限混合分布 241
8.5.2 EM聚类:如何估计类参数和聚类解 242
8.5.3 EM聚类的R实现和模拟分析 245
8.5.4 EM聚类的应用:环境污染的区域划分 247
第9章 特色聚类:数据分组还可以这样做 250
9.1 BIRCH聚类概述 251
9.1.1 BIRCH聚类有哪些特点 251
9.1.2 聚类特征和聚类特征树:BIRCH聚类的重要策略 252
9.1.3 BIRCH的聚类过程:由存储空间决定的动态聚类 254
9.1.4 BIRCH聚类的R实现 255
9.1.5 BIRCH聚类应用:两期岗位培训的比较 258
9.2 SOM网络聚类概述 260
9.2.1 SOM网络聚类设计出发点 260
9.2.2 SOM网络的拓扑结构和聚类原理 261
9.2.3 SOM网络聚类的R实现 263
9.2.4 SOM网络聚类应用:手写邮政编码识别 266
9.2.5 拓展SOM网络:红酒品质预测 271
9.3 基于密度的聚类模型:DBSCAN聚类 275
9.3.1 DBSCAN聚类原理:密度可达性是核心 275
9.3.2 DBSCAN聚类的R实现 277
9.3.3 DBSCAN聚类的模拟分析 277
第4篇 数据关联篇:发现数据的内在关联性 282
第10章 发现数据中的关联特征:关联是推荐的依据 282
10.1 简单关联规则及其测度 283
10.1.1 什么是简单关联规则 283
10.1.2 如何评价简单关联规则的有效性 284
10.1.3 如何评价简单关联规则的实用性 285
10.2 Apriori算法:发现简单关联规则的高效算法 286
10.2.1 搜索频繁项集:Apriori算法的重中之重 287
10.2.2 依最大频繁项集产生简单关联规则:水到渠成 288
10.2.3 Apriori算法的R实现和应用示例 289
10.2.4 简单关联的可视化R实现和应用示例 297
10.3 Eclat算法:更快速地发现频繁项集 300
10.3.1 Eclat算法原理:对等类是核心 300
10.3.2 Eclat算法的R实现和应用示例 301
10.4 简单关联分析的应用:商品推荐 302
10.4.1 发现连带销售商品 302
10.4.2 顾客选择性倾向对比 304
10.5 序列关联分析及SPADE算法:发现数据中的时序关联性 306
10.5.1 序列关联中有哪些基本概念 306
10.5.2 SPADE算法:发现序列关联规则的高效算法 308
10.5.3 序列关联分析的R实现及应用示例 310
10.6 序列关联分析应用:发现网民的浏览习惯 313
第11章 复杂网络分析初步:基于关系的研究 316
11.1 网络的定义表示及构建:复杂网络分析的第一步 317
11.1.1 网络的图论定义及R实现 317
11.1.2 网络的矩阵表示方式及R实现 326
11.1.3 R的网络数据文件和建立网络对象 328
11.1.4 R的网络可视化 334
11.2 网络节点重要性的测度:谁是网络的“主导” 335
11.2.1 度和测地线距离 335
11.2.2 点度中心度和接近中心度:节点“中心”作用的测度 337
11.2.3 中间中心度:节点“枢纽”作用的测度 340
11.2.4 节点重要性的其他方面:结构洞和关节点、特征向量中心度和PageRank得分 341
11.3 网络子群构成特征研究:找到网络中的“小团体” 343
11.3.1 二元关系和三元关系及R实现 344
11.3.2 派系和k-核及R实现 345
11.3.3 社区和组件及R实现 348
11.4 网络整体特征刻画:整体关系是这样的 351
11.4.1 网络整体特征的测度 351
11.4.2 网络特征的各种分布和度量 354
11.5 主要网络类型及特点:多姿多彩的网络世界 356
11.5.1 规则网络及特点 356
11.5.2 随机网络及特点 358
11.5.3 小世界网络及特点 360
11.5.4 无标度网络及特点 362
第5篇 离群数据探索篇:发现数据中的离群点 368
第12章 模式甄别:诊断异常数据 368
12.1 模式甄别方法和评价概述 368
12.1.1 模式甄别方法 368
12.1.2 模式甄别结果及评价:风险评分 371
12.2 模式甄别的无监督侦测方法及应用示例 372
12.2.1 依概率侦测模式及R应用示例 373
12.2.2 依距离侦测模式:DB方法及R应用示例 375
12.2.3 依密度侦测模式:LOF方法及R应用示例 377
12.3 模式甄别的有监督侦测方法及应用示例 380
12.3.1 朴素贝叶斯分类法及示例 381
12.3.2 Logistic回归及示例 385
12.3.3 非平衡数据集的SMOTE处理 388
12.4 模式甄别的半监督侦测方法及应用示例 390
12.4.1 半监督分类:自训练分类模型 390
12.4.2 自训练分类模型的R实现及应用示例 391
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《程序逻辑及C语言编程》卢卫中,杨丽芳主编 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《幼儿园课程资源丛书 幼儿园语言教育资源》周兢编 2015
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《高等学校“十三五”规划教材 C语言程序设计》翟玉峰责任编辑;(中国)李聪,曾志华,江伟 2019
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017