当前位置:首页 > 工业技术
R语言数据挖掘
R语言数据挖掘

R语言数据挖掘PDF电子书下载

工业技术

  • 电子书积分:10 积分如何计算积分?
  • 作 者:(哈)贝特·麦克哈贝尔(Bater Makhabel)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2016
  • ISBN:7111547693
  • 页数:201 页
图书介绍:
《R语言数据挖掘》目录

第1章 预备知识 1

1.1 大数据 2

1.2 数据源 3

1.3 数据挖掘 4

1.3.1 特征提取 4

1.3.2 总结 4

1.3.3 数据挖掘过程 5

1.4 社交网络挖掘 7

1.5 文本挖掘 9

1.5.1 信息检索和文本挖掘 10

1.5.2 文本挖掘预测 10

1.6 网络数据挖掘 10

1.7 为什么选择R 12

1.8 统计学 12

1.8.1 统计学与数据挖掘 13

1.8.2 统计学与机器学习 13

1.8.3 统计学与R语言 13

1.8.4 数据挖掘中统计学的局限性 13

1.9 机器学习 13

1.9.1 机器学习方法 14

1.9.2 机器学习架构 14

1.10 数据属性与描述 15

1.10.1 数值属性 16

1.10.2 分类属性 16

1.10.3 数据描述 16

1.10.4 数据测量 17

1.11 数据清洗 18

1.11.1 缺失值 18

1.11.2 垃圾数据、噪声数据或异常值 19

1.12 数据集成 19

1.13 数据降维 20

1.13.1 特征值和特征向量 20

1.13.2 主成分分析 20

1.13.3 奇异值分解 20

1.13.4 CUR分解 21

1.14 数据变换与离散化 21

1.14.1 数据变换 21

1.14.2 标准化数据的变换方法 22

1.14.3 数据离散化 22

1.15 结果可视化 23

1.16 练习 24

1.17 总结 24

第2章 频繁模式、关联规则和相关规则挖掘 25

2.1 关联规则和关联模式概述 26

2.1.1 模式和模式发现 26

2.1.2 关系或规则发现 29

2.2 购物篮分析 30

2.2.1 购物篮模型 31

2.2.2 Apriori算法 31

2.2.3 Eclat算法 35

2.2.4 FP-growth算法 37

2.2.5 基于最大频繁项集的GenMax算法 41

2.2.6 基于频繁闭项集的Charm算法 43

2.2.7 关联规则生成算法 44

2.3 混合关联规则挖掘 46

2.3.1 多层次和多维度关联规则挖掘 46

2.3.2 基于约束的频繁模式挖掘 47

2.4 序列数据集挖掘 48

2.4.1 序列数据集 48

2.4.2 GSP算法 48

2.5 R语言实现 50

2.5.1 SPADE算法 51

2.5.2 从序列模式中生成规则 52

2.6 高性能算法 52

2.7 练习 53

2.8 总结 53

第3章 分类 54

3.1 分类 55

3.2 通用决策树归纳法 56

3.2.1 属性选择度量 58

3.2.2 决策树剪枝 59

3.2.3 决策树生成的一般算法 59

3.2.4 R语言实现 61

3.3 使用ID3算法对高额度信用卡用户分类 61

3.3.1 ID3算法 62

3.3.2 R语言实现 64

3.3.3 网络攻击检测 64

3.3.4 高额度信用卡用户分类 66

3.4 使用C4.5算法进行网络垃圾页面检测 66

3.4.1 C4.5算法 67

3.4.2 R语言实现 68

3.4.3 基于MapReduce的并行版本 69

3.4.4 网络垃圾页面检测 70

3.5 使用CART算法判断网络关键资源页面 72

3.5.1 CART算法 73

3.5.2 R语言实现 74

3.5.3 网络关键资源页面判断 74

3.6 木马程序流量识别方法和贝叶斯分类 75

3.6.1 估计 75

3.6.2 贝叶斯分类 76

3.6.3 R语言实现 77

3.6.4 木马流量识别方法 77

3.7 垃圾邮件识别和朴素贝叶斯分类 79

3.7.1 朴素贝叶斯分类 79

3.7.2 R语言实现 80

3.7.3 垃圾邮件识别 80

3.8 基于规则的计算机游戏玩家类型分类和基于规则的分类 81

3.8.1 从决策树变换为决策规则 82

3.8.2 基于规则的分类 82

3.8.3 序列覆盖算法 83

3.8.4 RIPPER算法 83

3.8.5 计算机游戏玩家类型的基于规则的分类 85

3.9 练习 86

3.10 总结 86

第4章 高级分类算法 87

4.1 集成方法 87

4.1.1 Bagging算法 88

4.1.2 Boosting和AdaBoost算法 89

4.1.3 随机森林算法 91

4.1.4 R语言实现 91

4.1.5 基于MapReduce的并行版本 92

4.2 生物学特征和贝叶斯信念网络 92

4.2.1 贝叶斯信念网络算法 93

4.2.2 R语言实现 94

4.2.3 生物学特征 94

4.3 蛋白质分类和k近邻算法 94

4.3.1 kNN算法 95

4.3.2 R语言实现 95

4.4 文档检索和支持向量机 95

4.4.1 支持向量机算法 97

4.4.2 R语言实现 99

4.4.3 基于MapReduce的并行版本 99

4.4.4 文档检索 100

4.5 基于频繁模式的分类 100

4.5.1 关联分类 100

4.5.2 基于判别频繁模式的分类 101

4.5.3 R语言实现 101

4.5.4 基于序列频繁项集的文本分类 102

4.6 基于反向传播算法的分类 102

4.6.1 BP算法 104

4.6.2 R语言实现 105

4.6.3 基于MapReduce的并行版本 105

4.7 练习 106

4.8 总结 107

第5章 聚类分析 108

5.1 搜索引擎和k均值算法 110

5.1.1 k均值聚类算法 111

5.1.2 核k均值聚类算法 112

5.1.3 k模式聚类算法 112

5.1.4 R语言实现 113

5.1.5 基于MapReduce的并行版本 113

5.1.6 搜索引擎和网页聚类 114

5.2 自动提取文档文本和k中心点算法 116

5.2.1 PAM算法 117

5.2.2 R语言实现 117

5.2.3 自动提取和总结文档文本 117

5.3 CLARA算法及实现 118

5.3.1 CLARA算法 119

5.3.2 R语言实现 119

5.4 CLARANS算法及实现 119

5.4.1 CLARANS算法 120

5.4.2 R语言实现 120

5.5 无监督的图像分类和仿射传播聚类 120

5.5.1 仿射传播聚类 121

5.5.2 R语言实现 122

5.5.3 无监督图像分类 122

5.5.4 谱聚类算法 123

5.5.5 R语言实现 123

5.6 新闻分类和层次聚类 123

5.6.1 凝聚层次聚类 123

5.6.2 BIRCH算法 124

5.6.3 变色龙算法 125

5.6.4 贝叶斯层次聚类算法 126

5.6.5 概率层次聚类算法 126

5.6.6 R语言实现 127

5.6.7 新闻分类 127

5.7 练习 127

5.8 总结 128

第6章 高级聚类分析 129

6.1 电子商务客户分类分析和DBSCAN算法 129

6.1.1 DBSCAN算法 130

6.1.2 电子商务客户分类分析 131

6.2 网页聚类和OPTICS算法 132

6.2.1 OPTICS算法 132

6.2.2 R语言实现 134

6.2.3 网页聚类 134

6.3 浏览器缓存中的访客分析和 DENCLUE算法 134

6.3.1 DENCLUE算法 135

6.3.2 R语言实现 135

6.3.3 浏览器缓存中的访客分析 136

6.4 推荐系统和STING算法 137

6.4.1 STING算法 137

6.4.2 R语言实现 138

6.4.3 推荐系统 138

6.5 网络情感分析和CLIQUE算法 139

6.5.1 CLIQUE算法 139

6.5.2 R语言实现 140

6.5.3 网络情感分析 140

6.6 观点挖掘和WAVE聚类算法 140

6.6.1 WAVE聚类算法 141

6.6.2 R语言实现 141

6.6.3 观点挖掘 141

6.7 用户搜索意图和EM算法 142

6.7.1 EM算法 143

6.7.2 R语言实现 143

6.7.3 用户搜索意图 143

6.8 客户购买数据分析和高维数据聚类 144

6.8.1 MAFIA算法 144

6.8.2 SURFING算法 145

6.8.3 R语言实现 146

6.8.4 客户购买数据分析 146

6.9 SNS和图与网络数据聚类 146

6.9.1 SCAN算法 146

6.9.2 R语言实现 147

6.9.3 社交网络服务 147

6.10 练习 148

6.11 总结 148

第7章 异常值检测 150

7.1 信用卡欺诈检测和统计方法 151

7.1.1 基于似然的异常值检测算法 152

7.1.2 R语言实现 152

7.1.3 信用卡欺诈检测 153

7.2 活动监控——涉及手机的欺诈检测和基于邻近度的方法 153

7.2.1 NL算法 153

7.2.2 FindAllOutsM算法 153

7.2.3 FindAllOutsD算法 154

7.2.4 基于距离的算法 155

7.2.5 Dolphin算法 156

7.2.6 R语言实现 157

7.2.7 活动监控与手机欺诈检测 157

7.3 入侵检测和基于密度的方法 157

7.3.1 OPTICS-OF算法 159

7.3.2 高对比度子空间算法 159

7.3.3 R语言实现 160

7.3.4 入侵检测 160

7.4 入侵检测和基于聚类的方法 161

7.4.1 层次聚类检测异常值 161

7.4.2 基于k均值的算法 161

7.4.3 ODIN算法 162

7.4.4 R语言实现 162

7.5 监控网络服务器的性能和基于分类的方法 163

7.5.1 OCSVM算法 163

7.5.2 一类最近邻算法 164

7.5.3 R语言实现 164

7.5.4 监控网络服务器的性能 164

7.6 文本的新奇性检测、话题检测与上下文异常值挖掘 164

7.6.1 条件异常值检测算法 165

7.6.2 R语言实现 166

7.6.3 文本的新奇性检测与话题检测 166

7.7 空间数据中的集体异常值 167

7.7.1 路径异常值检测算法 167

7.7.2 R语言实现 167

7.7.3 集体异常值的特征 168

7.8 高维数据中的异常值检测 168

7.8.1 Brute-Force算法 168

7.8.2 HilOut算法 168

7.8.3 R语言实现 169

7.9 练习 169

7.10 总结 169

第8章 流数据、时间序列数据和序列数据挖掘 171

8.1 信用卡交易数据流和STREAM算法 171

8.1.1 STREAM算法 172

8.1.2 单通道法聚类算法 173

8.1.3 R语言实现 174

8.1.4 信用卡交易数据流 174

8.2 预测未来价格和时间序列分析 175

8.2.1 ARIMA算法 176

8.2.2 预测未来价格 176

8.3 股票市场数据和时间序列聚类与分类 176

8.3.1 hError算法 177

8.3.2 基于INN分类器的时间序列分类 178

8.3.3 R语言实现 178

8.3.4 股票市场数据 178

8.4 网络点击流和挖掘符号序列 179

8.4.1 TECNO-STREAMS算法 179

8.4.2 R语言实现 181

8.4.3 网络点击流 181

8.5 挖掘事务数据库中的序列模式 181

8.5.1 PrefixSpan算法 182

8.5.2 R语言实现 182

8.6 练习 182

8.7 总结 182

第9章 图挖掘与网络分析 183

9.1 图挖掘 183

9.1.1 图 183

9.1.2 图挖掘算法 184

9.2 频繁子图模式挖掘 184

9.2.1 gPLS算法 184

9.2.2 GraphSig算法 184

9.2.3 gSpan算法 185

9.2.4 最右路径扩展和它们的支持 185

9.2.5 子图同构枚举算法 186

9.2.6 典型的检测算法 186

9.2.7 R语言实现 186

9.3 社交网络挖掘 186

9.3.1 社区检测和Shingling算法 187

9.3.2 节点分类和迭代分类算法 188

9.3.3 R语言实现 188

9.4 练习 188

9.5 总结 188

第10章 文本与网络数据挖掘 189

10.1 文本挖掘与TM包 190

10.2 文本总结 190

10.2.1 主题表示 191

10.2.2 多文档总结算法 192

10.2.3 最大边缘相关算法 193

10.2.4 R语言实现 193

10.3 问答系统 194

10.4 网页分类 194

10.5 对报刊文章和新闻主题分类 195

10.5.1 基于N-gram的文本分类算法 195

10.5.2 R语言实现 197

10.6 使用网络日志的网络使用挖掘 197

10.6.1 基于形式概念分析的关联规则挖掘算法 198

10.6.2 R语言实现 198

10.7 练习 198

10.8 总结 199

附录 算法和数据结构 200

相关图书
作者其它书籍
返回顶部