当前位置:首页 > 工业技术
R语言机器学习
R语言机器学习

R语言机器学习PDF电子书下载

工业技术

  • 电子书积分:14 积分如何计算积分?
  • 作 者:(印)卡西克·拉玛苏布兰马尼安(Karthik Ramasubramanian),(印)阿布舍克·辛格(Abhishek Singh)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2018
  • ISBN:9787111595915
  • 页数:411 页
图书介绍:本书讲解的是在R语言平台上使用大数据技术构建可扩展机器学习模型的新技术成果。它全面展示了如何采用机器学习算法在原始数据的基础上构建机器学习模型。本书还能让那些希望利用Apache Hadoop、Hive、Pig和Spark来实现可扩展机器学习模型的读者从中受益。
《R语言机器学习》目录

第1章 机器学习和R语言入门 1

1.1 了解发展历程 2

1.1.1 统计学习 2

1.1.2 机器学习 2

1.1.3 人工智能 3

1.1.4 数据挖掘 3

1.1.5 数据科学 4

1.2 概率与统计 5

1.2.1 计数和概率的定义 5

1.2.2 事件和关系 7

1.2.3 随机性、概率和分布 8

1.2.4 置信区间和假设检验 9

1.3 R语言入门 13

1.3.1 基本组成部分 13

1.3.2 R语言的数据结构 14

1.3.3 子集处理 15

1.3.4 函数和Apply系列 17

1.4 机器学习过程工作流 19

1.4.1 计划 19

1.4.2 探索 19

1.4.3 构建 20

1.4.4 评估 20

1.5 其他技术 20

1.6 小结 21

1.7 参考资料 21

第2章 数据准备和探索 22

2.1 规划数据收集 23

2.1.1 变量类型 23

2.1.2 数据格式 24

2.1.3 数据源 29

2.2 初始数据分析 30

2.2.1 初步印象 30

2.2.2 把多个数据源组织到一起 32

2.2.3 整理数据 34

2.2.4 补充更多信息 36

2.2.5 重塑 37

2.3 探索性数据分析 38

2.3.1 摘要统计量 38

2.3.2 矩 41

2.4 案例研究:信用卡欺诈 46

2.4.1 数据导入 46

2.4.2 数据变换 47

2.4.3 数据探索 48

2.5 小结 49

2.6 参考资料 49

第3章 抽样与重抽样技术 50

3.1 介绍抽样技术 50

3.2 抽样的术语 51

3.2.1 样本 51

3.2.2 抽样分布 52

3.2.3 总群体的均值和方差 52

3.2.4 样本均值和方差 52

3.2.5 汇总的均值和方差 52

3.2.6 抽样点 53

3.2.7 抽样误差 53

3.2.8 抽样率 53

3.2.9 抽样偏误 53

3.2.10 无放回的抽样 53

3.2.11 有放回的抽样 54

3.3 信用卡欺诈:总群体的统计量 54

3.3.1 数据描述 54

3.3.2 总群体的均值 55

3.3.3 总群体的方差 55

3.3.4 汇总的均值和方差 55

3.4 抽样在业务上的意义 58

3.4.1 抽样的特征 59

3.4.2 抽样的缺点 59

3.5 概率和非概率抽样 59

3.5.1 非概率抽样的类型 60

3.6 关于抽样分布的统计理论 61

3.6.1 大数定律 61

3.6.2 中心极限定理 63

3.7 概率抽样技术 66

3.7.1 总群体的统计量 66

3.7.2 简单随机抽样 69

3.7.3 系统性随机抽样 74

3.7.4 分层随机抽样 77

3.7.5 聚类抽样 82

3.7.6 自助抽样 86

3.8 蒙特卡罗方法:接受-拒绝 91

3.9 通过抽样节省计算开销的定性分析 93

3.10 小结 94

第4章 R语言里的数据可视化 95

4.1 ggplot2组件包简介 96

4.2 世界经济发展指标 97

4.3 折线图 97

4.4 堆叠柱状图 102

4.5 散点图 106

4.6 箱形图 107

4.7 直方图和密度图 109

4.8 饼图 113

4.9 相关图 114

4.10 热点图 116

4.11 气泡图 117

4.12 瀑布图 120

4.13 系统树图 122

4.14 关键字云 124

4.15 桑基图 125

4.16 时间序列图 127

4.17 队列图 128

4.18 空间图 130

4.19 小结 133

4.20 参考资料 133

第5章 特征工程 135

5.1 特征工程简介 136

5.1.1 过滤器方法 137

5.1.2 包装器方法 137

5.1.3 嵌入式方法 138

5.2 了解工作数据 138

5.2.1 数据摘要 139

5.2.2 因变量的属性 139

5.2.3 特征的可用性:连续型或分类型 141

5.2.4 设置数据的假设 142

5.3 特征排名 143

5.4 变量子集的选择 146

5.4.1 过滤器方法 146

5.4.2 包装器方法 149

5.4.3 嵌入式方法 154

5.5 降维 158

5.6 特征工程核对清单 161

5.7 小结 162

5.8 参考资料 162

第6章 机器学习理论和实践 163

6.1 机器学习的类型 165

6.1.1 有监督学习 166

6.1.2 无监督学习 166

6.1.3 半监督学习 166

6.1.4 强化学习 166

6.2 机器学习算法的类别 167

6.3 实际环境的数据集 170

6.3.1 房产售价 170

6.3.2 购买偏好 170

6.3.3 Twitter订阅和文章 171

6.3.4 乳腺癌 171

6.3.5 购物篮 172

6.3.6 亚马逊美食评论 172

6.4 回归分析 173

6.5 相关分析 174

6.5.1 线性回归 176

6.5.2 简单线性回归 177

6.5.3 多元线性回归 180

6.5.4 模型诊断:线性回归 182

6.5.5 多项回归 191

6.5.6 逻辑回归 194

6.5.7 洛基(logit)变换 195

6.5.8 几率比 196

6.5.9 模型诊断:逻辑回归 202

6.5.10 多项逻辑回归 209

6.5.11 广义线性模型 212

6.5.12 结论 213

6.6 支持向量机 213

6.6.1 线性SVM 214

6.6.2 二元SVM分类模型 215

6.6.3 多类别SVM 217

6.6.4 结论 218

6.7 决策树 218

6.7.1 决策树的类型 219

6.7.2 决策指标 220

6.7.3 决策树学习方法 222

6.7.4 集成树 235

6.7.5 结论 240

6.8 朴素贝叶斯方法 241

6.8.1 条件概率 241

6.8.2 贝叶斯定理 241

6.8.3 先验概率 242

6.8.4 后验概率 242

6.8.5 似然和边际似然 242

6.8.6 朴素贝叶斯方法 242

6.8.7 结论 246

6.9 聚类分析 246

6.9.1 聚类方法简介 247

6.9.2 聚类算法 247

6.9.3 内部评估 255

6.9.4 外部评估 256

6.9.5 结论 257

6.10 关联规则挖掘 258

6.10.1 关联概念简介 258

6.10.2 规则挖掘算法 259

6.10.3 推荐算法 265

6.10.4 结论 270

6.11 人工神经网络 271

6.11.1 人类认知学习 271

6.11.2 感知器 272

6.11.3 Sigmoid神经元 274

6.11.4 神经网络的体系架构 275

6.11.5 有监督与无监督的神经网络 276

6.11.6 神经网络的学习算法 277

6.11.7 前馈反向传播 278

6.11.8 深度学习 284

6.11.9 结论 289

6.12 文本挖掘方法 289

6.12.1 文本挖掘简介 290

6.12.2 文本摘要 291

6.12.3 TF-IDF 292

6.12.4 词性标注 294

6.12.5 关键字云 297

6.12.6 文本分析:Microsoft Cognitive Services 297

6.12.7 结论 305

6.13 在线机器学习算法 305

6.13.1 模糊C均值聚类 306

6.13.2 结论 308

6.14 构建模型的核对清单 309

6.15 小结 309

6.16 参考资料 309

第7章 机器学习模型的评估 311

7.1 数据集 311

7.1.1 房产售价 312

7.1.2 购买偏好 313

7.2 模型性能和评估入门 314

7.3 模型性能评估的目标 315

7.4 总群体的稳定性指数 316

7.5 连续型输出的模型评估 320

7.5.1 平均绝对误差 321

7.5.2 均方根误差 323

7.5.3 R2 324

7.6 离散型输出的模型评估 326

7.6.1 分类矩阵 327

7.6.2 灵敏度和特异性 330

7.6.3 ROC曲线下的面积 331

7.7 概率技术 334

7.7.1 K折交叉验证 334

7.7.2 自助抽样 336

7.8 Kappa误差指标 337

7.9 小结 340

7.10 参考资料 341

第8章 模型性能改进 342

8.1 机器学习和统计建模 343

8.2 Caret组件包概述 344

8.3 超参数简介 346

8.4 超参数优化 348

8.4.1 人工搜索 349

8.4.2 人工网格搜索 351

8.4.3 自动网格搜索 353

8.4.4 最优搜索 354

8.4.5 随机搜索 356

8.4.6 自定义搜索 357

8.5 偏误和方差权衡 359

8.5.1 装袋或自助聚合 363

8.5.2 增强 363

8.6 集成学习简介 363

8.6.1 投票集成 364

8.6.2 集成学习中的高级方法 365

8.7 在R语言里演示集成技术 367

8.7.1 装袋树 367

8.7.2 决策树的梯度增强 369

8.7.3 混合knn和rpart 372

8.7.4 利用caretEnemble进行堆叠 374

8.8 高级主题:机器学习模型的贝叶斯优化 377

8.9 小结 381

8.10 参考资料 382

第9章 可扩展机器学习和相关技术 384

9.1 分布式处理和存储 384

9.1.1 Google File System 385

9.1.2 MapReduce 386

9.1.3 R语言里的并行执行 386

9.2 Hadoop生态系统 389

9.2.1 MapReduce 390

9.2.2 Hive 393

9.2.3 Apache Pig 396

9.2.4 HBase 399

9.2.5 Spark 400

9.3 在R语言环境下用Spark进行机器学习 401

9.3.1 设置环境变量 401

9.3.2 初始化Spark会话 402

9.3.3 加载数据并运行预处理 402

9.3.4 创建Sp arkD ataF rame 403

9.3.5 构建机器学习模型 403

9.3.6 对测试数据进行预测 404

9.3.7 终止SparkR会话 404

9.4 在R语言里利用H2O进行机器学习 405

9.4.1 安装组件包 406

9.4.2 H2O集群的初始化 406

9.4.3 在R语言里使用H2O的深度学习演示 407

9.5 小结 410

9.6 参考资料 411

相关图书
作者其它书籍
返回顶部