《数据整理实战指南》PDF下载

购买积分：10 如何计算积分？
作　　者：（美）Q.ETHAN MCCALLUM著；魏秀丽，李妹芳译
出版社：北京：人民邮电出版社
出版年份：2016
ISBN：7115411026
页数：210 页

图书介绍：本书提供了如何处理不良数据，进行数据清理的案例。而这些工作，正是数据科学工作中最重要、核心的方面。本书适合数据科学家、数据处理和整理相关开发人员阅读。读者将在本书中所涵盖的多个主题中学会如何测试数据、如何分析数据以及其他处理工具及方法。

点击购买此书全本PDF电子书

第1章从头说起：什么是噪音数据 1

第2章是我的问题还是数据的问题 4

2.1 理解数据结构 5

2.2 校验 8

2.2.1 字段校验 8

2.2.2 值校验 9

2.2.3 简单统计的物理解释 10

2.3 可视化 11

2.3.1 关键词竞价排名示例 13

2.3.2 搜索来源示例 18

2.3.3 推荐分析 19

2.3.4 时间序列数据 22

2.4 小结 27

第3章数据是给人看的不是给机器看的 28

3.1 数据 28

3.1.1 问题：数据是给人看的 29

3.1.2 对数据的安排 29

3.1.3 数据分散在多个文件中 32

3.2 解决方案：编写代码 34

3.2.1 从糟糕的数据格式中读取数据 34

3.2.2 从多个文件中读取数据 36

3.3 附言 42

3.4 其他格式 43

3.5 小结 45

第4章纯文本中潜在的噪音数据 46

4.1 使用哪种纯文本编码 46

4.2 猜测文本编码格式 50

4.3 对文本规范化处理 53

4.4 问题：在纯文本中掺入了特定应用字符 55

4.5 通过Python处理文本 59

4.6 实践练习题 60

第5章重组Web数据 62

5.1 你能获得数据吗 63

5.1.1 一般工作流程示例 64

5.1.2 Robots协议 65

5.1.3 识别数据组织模式 66

5.1.4 存储离线版本 68

5.1.5 网页抓取信息 69

5.2 真正的困难 73

5.2.1 下载原始内容 73

5.2.2 表单、对话框和新建窗口 73

5.2.3 Flash 74

5.3 不利情况的解决办法 75

5.4 小结 75

第6章检测撒谎者以及相互矛盾网上评论的困惑 76

6.1 Weotta公司 76

6.2 获得评论 77

6.3 情感分类 77

6.4 极化语言 78

6.5 创建语料库 80

6.6 训练分类器 81

6.7 分类器验证 82

6.8 用数据设计 84

6.9 经验教训 84

6.10 小结 85

6.11 信息资源 86

第7章请噪音数据站出来 87

7.1 实例1：在制造业中减少缺陷 87

7.2 实例2：谁打来的电话 90

7.3 实例3：当“典型”不等于“平均” 92

7.4 经验总结 95

7.5 到工厂参观能成为试验的一部分吗 96

第8章血、汗和尿 97

8.1 书呆子戏剧性工作交换 97

8.2 化学家如何整理数字 98

8.3 数据库都是我们的 99

8.4 仔细检查 102

8.5 生命短暂的漂亮代码库 103

8.6 改变化学家（和其他电子表单滥用者） 104

8.7 传递线（t1）和数据记录器（dr） 105

第9章当数据与现实不匹配 107

9.1 到底是谁的报价机 108

9.2 股票分割、股利和调整 110

9.3 糟糕的现实 112

9.4 小结 114

第10章偏差和误差的来源 115

10.1 估算上的偏差：一般性的问题 117

10.2 报告上的误差：一般性的问题 118

10.3 其他偏差来源 121

10.3.1 顶层编码／底部编码 121

10.3.2 Seam偏差 122

10.3.3 代理报告 123

10.3.4 样本选择 123

10.4 小结 124

参考文献 124

第11章不要把完美和正确对立起来：噪音数据真是噪音吗 128

11.1 回忆学校生活 128

11.2 向着专业领域前进 129

11.2.1 政府工作 130

11.2.2 政府数据非常真实 131

11.3 应用实例——服务电话 132

11.4 继续前进 133

11.5 经验与未来展望 134

第12章数据库攻击：什么时候使用文件 135

12.1 历史 135

12.2 建立我的工具箱 136

12.3 数据存储——我的路障 136

12.4 将文件作为数据存储器 137

12.4.1 文件简单 138

12.4.2 文件处理一切 138

12.4.3 文件可包含任何数据形式 138

12.4.4 局部数据破坏 139

12.4.5 文件拥有很棒的工具 139

12.4.6 没有安装税 139

12.5 文件的概念 140

12.5.1 编码 140

12.5.2 文本文件 140

12.5.3 二进制数据 140

12.5.4 内存映射文件 140

12.5.5 文件格式 140

12.5.6 分隔符 142

12.6 文件支持的网络框架 143

12.6.1 动机 143

12.6.2 实现 145

12.7 反馈 145

第13章卧库表，隐网络 146

13.1 关系成本分配模型 147

13.2 组合展开微妙的作用 150

13.3 隐藏网络的浮现 151

13.4 存储图表 151

13.5 利用Gremlin遍历图表 152

13.6 在网络属性里寻找价值 154

13.7 从多重数据模型角度考虑并使用正确的工具 155

13.8 致谢 155

第14章云计算神话 156

14.1 关于“云”的介绍 156

14.2 何谓“云” 156

14.3 云和大数据 157

14.4 Fred的故事 157

14.4.1 起初一切都好 157

14.4.2 基础结构全部放在云端 158

14.4.3 随着规模增长，最初的扩展很轻松 158

14.4.4 麻烦出现了 158

14.4.5 需要提高性能 158

14.4.6 关键要提高RAID 10性能 158

14.4.7 重要的局部运行中断引发长期停机 159

14.4.8 有代价的RAID 10 159

14.4.9 数据规模增大 160

14.4.10 地理冗余成为首选 160

14.4.11 水平扩展并不像想像得那么简单 160

14.4.12 成本显著增长 160

14.5 Fred的荒唐事 161

14.5.1 神话1：云是所有基础设施组件的解决方案 161

14.5.2 神话2：云可以节约成本 161

14.5.3 神话3：通过RAID可以将cloud 10的性能提高至可接受的水平 163

14.5.4 神话4：云计算使水平扩展轻松 163

14.6 结论和推荐 164

第15章数据科学的阴暗面 165

15.1 避开这些陷阱 165

15.1.1 对数据一无所知 166

15.1.2 应该只为数据科学家提供一种工具来解决所有问题 167

15.1.3 应该为了分析而分析 169

15.1.4 应该学会分享 169

15.1.5 应该期望数据科学家无所不能 170

15.2 数据学家在机构中的位置 170

15.3 最后的想法 171

第16章如何雇佣机器学习专家 172

16.1 确定问题 172

16.2 模型测试 173

16.3 创建训练集 174

16.4 选择特征 175

16.5 数据编码 176

16.6 训练集、测试集和解决方案集 176

16.7 问题描述 177

16.8 回答问题 178

16.9 整合解决方案 178

16.10 小结 179

第17章数据的可追踪性 180

17.1 原因 180

17.2 个人经验 181

17.2.1 快照 181

17.2.2 保存数据源 181

17.2.3 衡量数据源 182

17.2.4 逆向恢复数据 182

17.2.5 分阶段处理数据并保持各阶段的独立性 182

17.2.6 识别根源 183

17.2.7 寻找要完善的区域 183

17.3 不变性：从函数程序设计借来的理念 183

17.4 案例 184

17.4.1 网络爬虫 184

17.4.2 改变 185

17.4.3 聚类 185

17.4.4 普及度 185

17.5 小结 186

第18章社交媒体：是可抹去的印记吗 187

18.1 社交媒体：到底是谁的数据 188

18.2 管控 188

18.3 商业重组 190

18.4 对沟通和表达的期望 190

18.5 新的最终用户期望的技术含义 192

18.6 这个行业是做什么的 194

18.6.1 验证API 195

18.6.2 更新通知API 195

18.7 最终用户怎么做 195

18.8 我们怎样一起工作 196

第19章揭秘数据质量分析：了解什么时候数据足够优质 197

19.1 框架介绍：数据质量分析的4个C 198

19.1.1 完整性 199

19.1.2 一致性 201

19.1.3 准确性 203

19.1.4 可解释性 205

19.2 结论 208