《数据科学 R语言实现》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:丘佑玮著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111568315
  • 页数:310 页
图书介绍:本书通过简单直观的R代码、逐渐深入的讲解以及省时省力的方法,提供了大量数据分析样例,最终帮助你高效地解决各类数据问题。第1章介绍了如何创建R函数,避免不必要的代码重复。你会学到如何借助R程序包在各种数据源上准备、处理和执行复杂的ETL操作。后面的章节介绍了财务数据的时间序列分析,同时还介绍了机器学习的几个热点,例如数据分类、回归、聚类、关联规则挖掘、降维等。本书的结尾中,你会学到如何解决实际问题,并能够在数据分析过程中轻松地给出解决方案。

第1章 R中的函数 1

1.1引言 1

1.2创建R函数 2

1.3 匹配参数 3

1.4理解环境 5

1.5使用词法域 8

1.6理解闭包 10

1.7执行延迟计算 12

1.8创建中缀操作符 13

1.9使用替代函数 15

1.10处理函数中的错误 17

1.11调试函数 21

第2章 数据抽取、转换和加载 28

2.1引言 28

2.2下载公开数据 28

2.3读取和写入CSV文件 31

2.4扫描文本文件 32

2.5使用Excel文件 34

2.6从数据库中读取数据 36

2.7爬取网络数据 38

2.8获取Facebook数据 44

2.9使用twitteR 49

第3章 数据预处理和准备 53

3.1引言 53

3.2重命名数据变量 53

3.3转换数据类型 55

3.4使用日期格式 57

3.5添加新的记录 58

3.6过滤数据 60

3.7舍弃数据 63

3.8合并数据 64

3.9排列数据 65

3.10重塑数据 67

3.11检测缺失数据 69

3.12估计缺失数据 71

第4章 数据操作 74

4.1引言 74

4.2使用data.table加强data.frame 74

4.3使用data.table管理数据 77

4.4使用data.table执行快速聚合 82

4.5使用data.table合并大型数据集 85

4.6使用dplyr进行数据抽取和切片 88

4.7使用dplyr进行数据抽样 91

4.8使用dplyr选取列 92

4.9使用dplyr进行链式操作 94

4.10使用dplyr整理行 95

4.11使用dplyr消除重复行 97

4.12使用dplyr添加新列 98

4.13使用dplyr汇总数据 99

4.14使用dplyr合并数据 102

第5章 使用ggplot2可视化数据 105

5.1引言 105

5.2使用ggplot2创建基础图形 106

5.3改变美学映射 109

5.4引入几何对象 112

5.5执行变换 116

5.6调整图形尺度 118

5.7分面 120

5.8调整主题 122

5.9组合图形 124

5.10创建地图 126

第6章 制作交互式报告 131

6.1引言 131

6.2创建R Markdown报告 131

6.3学习markdown语法 135

6.4嵌入R代码块 137

6.5使用ggvis创建交互式图形 140

6.6理解基础语法 143

6.7控制坐标轴和图例 148

6.8使用尺度 153

6.9给ggvis图形添加交互 154

6.10创建R Shiny文档 159

6.11发布R Shiny报告 164

第7章 概率分布模拟 169

7.1引言 169

7.2生成随机样本 169

7.3理解均匀分布 171

7.4生成二项随机变量 173

7.5生成泊松随机变量 175

7.6从正态分布中抽样 177

7.7从卡方分布中抽样 183

7.8理解学生t-分布 185

7.9从数据集中抽样 187

7.10模拟随机过程 188

第8章 R中的统计推断 191

8.1引言 191

8.2获取置信区间 191

8.3执行Z-检验 196

8.4执行学生T-检验 199

8.5执行精确二项检验 202

8.6执行Kolmogorov-Smimov检验 203

8.7使用Pearson卡方检验 205

8.8理解Wilcoxon秩和检验 207

8.9执行单因素方差分析 209

8.10执行双因素方差分析 212

第9章 R语言规则和模式挖掘 216

9.1引言 216

9.2把数据转换为事务 216

9.3展示事务和关联 218

9.4使用Apriori规则挖掘关联关系 220

9.5对冗余规则剪枝 223

9.6可视化关联规则 224

9.7使用Eclat挖掘频繁项集 226

9.8使用时序信息创建事务 228

9.9使用cSPADE挖掘频繁序列模式 231

第10章 R语言时间序列挖掘 235

10.1引言 235

10.2创建时间序列数据 235

10.3绘制时间序列对象 238

10.4分解时间序列 241

10.5平滑时间序列 243

10.6预测时间序列 247

10.7选取ARIMA模型 251

10.8创建ARIMA模型 255

10.9使用ARIMA模型预测 257

10.10使用ARIMA模型预测股票价格 260

第11章 监督式机器学习 264

11.1引言 264

11.2使用1m拟合线性回归模型 264

11.3汇总线性模型拟合 266

11.4使用线性回归来预测未知值 268

11.5度量回归模型的性能 270

11.6执行多元回归分析 272

11.7使用逐步回归选取最优拟合回归模型 274

11.8应用高斯模型泛化线性回归 276

11.9执行逻辑斯谛回归分析 277

11.10使用递归分割树构建分类模型 280

11.11可视化递归分割树 282

11.12使用混淆矩阵度量模型性能 283

11.13使用ROCR度量预测性能 285

第12章 非监督式机器学习 288

12.1引言 288

12.2使用层次聚类法对数据聚类 288

12.3切割树成聚类 291

12.4使用k-means方法对数据聚类 293

12.5使用基于密度的方法对数据聚类 294

12.6从聚类中抽取轮廓信息 296

12.7比较多种聚类方法 298

12.8使用基于密度的聚类识别数字 299

12.9使用k-means聚类方法分组相似文本文档 301

12.10使用主成分分析法进行数据降维 303

12.11使用陡坡图确定主成分数量 305

12.12使用Kaiser方法确定主成分数量 306

12.13使用双标图可视化多变元数据 308