《R语言与数据清洗》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:陈兴栋,张铁军,刘振球主编
  • 出 版 社:北京:人民卫生出版社
  • 出版年份:2019
  • ISBN:9787117280594
  • 页数:311 页
图书介绍:本书是国内第一本专注于利用R语言进行科研数据清洗的书籍,全书主要分为两大块,第一块以最简洁的内容向读者介绍R语言的入门知识,让读者了解并认识R语言,为后面的内容打下基础。全书大部分篇幅主要集中在第二块内容,即数据清洗的知识。作者从实际问题出发,详细的介绍了如何利用R语言处理科研中的数据,比如缺失值的插补,异常值的查找,长宽型数据结构的转换,时间日期数据的处理,文本数据的处理等,此外,作者也将数据清洗的内容进行了适当扩展,比如书中加入了R语言与数据库的连接方法,让大数据的处理更加得心应手。

第一章 整洁数据的原则 1

第二章 R语言与Rstudio 27

第一节 R语言的下载与安装 27

第二节 Rstudio的下载与安装 28

第三章 小试牛刀 33

第一节 基本数学运算 33

第二节 R语言中最常用的函数 36

第三节 对象与变量 36

第四节 向量与向量化运算 39

第四章 R语言的包 43

第一节 R包的来源 43

第二节 R包的安装 45

第三节 R包的加载 48

第五章 R语言中的对象 50

第一节 数值型向量 50

第二节 字符串向量 55

第三节 布尔向量 57

第四节 因子向量 60

第五节 矩阵和数组 63

第六节 数据框 69

第七节 列表 72

第八节 R语言中的特殊字符和保留字 76

第六章 控制结构与函数 79

第一节 条件语句 79

第二节 循环语句 81

第三节 自定义函数 83

第七章 数据的读取与导出 85

第一节 读取逗号分隔符文件 85

第二节 读取其他符号分隔的文件 86

第三节 读取固定宽度数据 87

第四节 读取excel文件 88

第五节 读取其他软件产生的数据 90

第六节 读取文本数据 91

第七节 读取基因序列数据 93

第八节 批量读取数据 95

第九节 数据的导出 96

第八章 数据框的预处理 97

第一节 数据框的基本结构 97

第二节 数据框的合并 100

第三节 数据框的索引与数据提取 105

第四节 数据框结构变换 106

第九章 数据的汇总操作 110

第一节 apply函数家族 110

第二节 aggregate函数 125

第三节 plyr包 133

第四节 dplyr包 137

第十章 异常值和缺失值的处理 153

第一节 异常值的发现 153

第二节 缺失值的发现 157

第三节 缺失值的模式 159

第四节 缺失值的可视化 161

第五节 缺失值的插补 162

第十一章 字符串的操作 169

第一节 简单的字符串操作 169

第二节 字符串的高级操作 174

第三节 正则表达式 181

第四节 stringr包和stringi包 187

第十二章 分类变量的操作 197

第一节 分类变量的产生 197

第二节 无序和有序分类变量 199

第三节 分类变量的转换 201

第四节 分类水平的设定 204

第十三章 时间日期的处理 206

第一节 时间日期数据的基本处理 206

第二节 lubridate包的使用 215

第三节 时间序列数据的处理 224

第十四章 基因数据处理 233

第一节 常见基因数据储存格式 233

第二节 GenBank下载序列及其注释信息的提取 238

第三节 序列的基本操作 246

第四节 Bioconductor简介 254

第五节 Biostrings包 255

第十五章 R语言与数据库的对接 266

第一节 MySQL 266

第二节 SQL Server数据库 273

第三节 Oracle数据库 277

第四节 其他数据库 281

第十六章 R语言数据抓取 283

第一节 数据抓取的一般逻辑 284

第二节 数据抓取之网络请求基础知识 285

第三节 数据抓取之网页解析基础知识 293

第四节 R语言中数据抓取与爬虫的工具框架 299

后记 309