命令行中的数据科学PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:(荷)詹森斯著
- 出 版 社:北京:人民邮电出版社
- 出版年份:2015
- ISBN:9787115391681
- 页数:170 页
第1章 简介 1
1.1 概述 1
1.2 数据科学就是OSEMN 2
1.2.1 数据获取 2
1.2.2 数据清洗 2
1.2.3 数据探索 3
1.2.4 数据建模 3
1.2.5 数据解释 3
1.3 插入的几章 4
1.4 什么是命令行 4
1.5 为什么用命令行做数据科学工作 6
1.5.1 命令行的灵活性 6
1.5.2 命令行可增强 6
1.5.3 命令行可扩展 7
1.5.4 命令行可扩充 7
1.5.5 命令行无处不在 7
1.6 一个现实用例 8
1.7 延伸阅读 11
第2章 入门指南 13
2.1 概述 13
2.2 设置数据科学工具箱 13
2.2.1 步骤1:下载和安装VirtualBox 14
2.2.2 步骤2:下载和安装Vagrant 14
2.2.3 步骤3:下载并启动数据科学工具箱 14
2.2.4 步骤4:登录(Linux和Mac OS X) 16
2.2.5 步骤4:登录(微软Windows) 16
2.2.6 步骤5:关闭或重启 16
2.3 必要的概念和工具 17
2.3.1 环境 17
2.3.2 运行命令行工具 18
2.3.3 五类命令行工具 19
2.3.4 命令行工具的组合 21
2.3.5 输入和输出重定向 22
2.3.6 处理文件 23
2.3.7 寻求帮助 24
2.4 延伸阅读 26
第3章 数据获取 27
3.1 概述 27
3.2 将本地文件复制到数据科学工具箱 28
3.2.1 本地数据科学工具箱 28
3.2.2 远程数据科学工具箱 28
3.3 解压缩文件 29
3.4 微软Excel电子表格的转换 30
3.5 查询关系数据库 32
3.6 从互联网下载 33
3.7 调用Web API 35
3.8 延伸阅读 36
第4章 创建可重用的命令行工具 37
4.1 概述 38
4.2 将单行转变为shell脚本 38
4.2.1 步骤1:复制和粘贴 39
4.2.2 步骤2:添加执行权限 40
4.2.3 步骤3:定义shebang 41
4.2.4 步骤4:删除固定的输入 42
4.2.5 步骤5:参数化 42
4.2.6 步骤6:扩展PATH 43
4.3 用Python和R创建命令行工具 44
4.3.1 移植shell脚本 45
4.3.2 处理来自标准输入的流数据 46
4.4 延伸阅读 47
第5章 数据清洗 49
5.1 概述 50
5.2 纯文本的常见清洗操作 50
5.2.1 行过滤 50
5.2.2 值提取 54
5.2.3 值替换和删除 55
5.3 处理CSV 56
5.3.1 主体、头部和列 56
5.3.2 对CSV执行SQL查询 60
5.4 处理HTML/XML和JSON 61
5.5 CSV的常见清洗操作 65
5.5.1 列的提取和重排序 65
5.5.2 行过滤 66
5.5.3 列合并 67
5.5.4 多个CSV文件的合并 70
5.6 延伸阅读 73
第6章 管理数据工作流 75
6.1 概述 76
6.2 Drake简介 76
6.3 Drake的安装 76
6.4 获取古腾堡计划中下载最多的电子书 78
6.5 所有工作流都从单个步骤开始 79
6.6 具体情况具体对待 81
6.7 重新构建具体目标 82
6.8 讨论 83
6.9 延伸阅读 83
第7章 数据探索 85
7.1 概述 85
7.2 检查数据及其属性 86
7.2.1 确定有无数据头 86
7.2.2 检查所有数据 86
7.2.3 特征名称和数据类型 87
7.2.4 唯一标识、连续变量和因子 89
7.3 计算描述性统计信息 90
7.3.1 使用csvstat 90
7.3.2 在命令行中通过Rio使用R 92
7.4 生成可视化图形 95
7.4.1 介绍Gunplot和feedgnuplot 95
7.4.2 介绍ggplot2 97
7.4.3 直方图 99
7.4.4 条形图 101
7.4.5 密度图 102
7.4.6 箱线图 103
7.4.7 散点图 103
7.4.8 折线图 105
7.4.9 总结 106
7.5 延伸阅读 106
第8章 并行管道 107
8.1 概述 108
8.2 串行处理 108
8.2.1 对数字进行遍历 108
8.2.2 对行进行遍历 109
8.2.3 对文件进行遍历 110
8.3 并行处理 111
8.3.1 GNU Parallel介绍 112
8.3.2 指定输入 113
8.3.3 控制并发任务的个数 114
8.3.4 记录日志和输出 115
8.3.5 创建并行工具 116
8.4 分布式处理 117
8.4.1 获得运行中的AWS EC2实例列表 117
8.4.2 在远程机器上运行命令 118
8.4.3 在远程机器间分发本地数据 119
8.4.4 在远程机器上处理文件 120
8.5 讨论 123
8.6 延伸阅读 123
第9章 数据建模 125
9.1 概述 126
9.2 更多的酒,来吧! 126
9.3 用Tapkee降维 129
9.3.1 介绍Tapkee 130
9.3.2 安装Tapkee 130
9.3.3 线性和非线性映射 130
9.4 用Weka聚类 132
9.4.1 介绍Weka 132
9.4.2 在命令行里改进Weka 132
9.4.3 在CSV和ARFF格式之间转换 136
9.4.4 比较三种聚类算法 136
9.5 通过SciK it-Learn Laboratory进行回归 139
9.5.1 准备数据 139
9.5.2 运行实验 139
9.5.3 解析结果 140
9.6 用BigML分类 141
9.6.1 生成均衡的训练和测试数据集 141
9.6.2 调用API 143
9.6.3 检查结果 143
9.6.4 小结 144
9.7 延伸阅读 144
第10章 总结 145
10.1 让我们回顾一下 145
10.2 三条建议 146
10.2.1 有耐心 146
10.2.2 有所创新 146
10.2.3 肯于实践 147
10.3 接下来做什么 147
10.3.1 API 147
10.3.2 shell编程 147
10.3.3 Python、R和SQL 147
10.3.4 数据解释 148
10.4 联系方式 148
附录A命令行工具列表 149
附录B参考文献 167
作者介绍 169
封面介绍 169
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《慢性呼吸系统疾病物理治疗工作手册》(荷)瑞克·考斯林克(RikGosselink) 2020
- 《卡塞尔不欢迎逻辑》(西)恩里克·比拉-马塔斯著;施杰李,雪菲译 2019
- 《最后之战》(荷)达安·赫马·范·福斯(Daan Heerma Van Voss)著 2019
- 《代数簇 英文版》(荷)Eduard Lo 2019
- 《因为我是如此爱你》姜璐责任编辑;(荷)米勒贾·普拉格曼 2019
- 《英语单词情景大书》安荷早教编著 2019
- 《发光材料》陈昊鸿,李江译者;(荷)乔治·布拉塞,(德)芭芭拉·克丽斯塔·格雷伯梅耶 2019
- 《大唐狄公案 黄金案》张凌译;(荷)高罗佩 2019
- 《日本的世界观》徐建新责编;柳立言译;(美)马里乌斯·詹森 2020
- 《悦读联播英语表演剧 小学四年级》(英)爱丽斯著 2014
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《办好人民满意的教育 全国教育满意度调查报告》(中国)中国教育科学研究院 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《人民院士》吴娜著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《中国人民的心》杨朔著;夕琳编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中华人民共和国成立70周年优秀文学作品精选 短篇小说卷 上 全2册》贺邵俊主编 2019
- 《指向核心素养 北京十一学校名师教学设计 数学 九年级 上 配人教版》周志英总主编 2019
- 《中华人民共和国成立70周年优秀文学作品精选 中篇小说卷 下 全3册》洪治纲主编 2019