《数据之魅 基于开源工具的数据分析》PDF下载

  • 购买积分:16 如何计算积分?
  • 作  者:(美)雅纳特著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2012
  • ISBN:9787302290988
  • 页数:511 页
图书介绍:本书是特别献给程序员和数据分析师的实践指南。我们都知道,海量数据只是原始信息,其价值只有在组织、筛选和分析之后,才能体现出来。本书中,作者Philipp Janert教我们从什么角度考虑数据,如何高效解决数据分析问题,如何从数据中抽取出所有可用的信息。他全面介绍了单变量数据、多维数据、时间序列数据、绘图技术、数据挖掘和机器学习等其他主题,揭示了如何从一开始就找到正确的方法,如何判断分析结果的价值。

第1章 导论 1

数据分析 1

本书内容 2

关于工作坊 3

关于数学 4

需要具备的知识 6

本书不涉及的内容 6

第Ⅰ部分 图表:观察数据 11

第2章 单一变量:形状和分布 11

数据点和抖动图 12

直方图和核密度估计 14

直方图 15

核密度估计 19

选学:如何选择最优带宽 22

累积分布函数 23

选学:概率图分布和QQ图分布的对比 25

秩序图和上升图 30

仅用于适当时机:汇总统计量和箱形图 33

汇总统计量 33

Box-and-Whisker图 36

工作坊:NumPy模块 38

NumPy实践 38

NumPy详解 41

扩展阅读 45

第3章 两个变量:建立关系 47

散点图 47

克服噪声:平滑 48

样条 50

LOESS 51

示例 52

残差 54

其他观点及提醒 55

对数图 57

倾斜 61

线性回归以及诸如此类的方法 62

描述重要信息 66

图形分析与图形演示 68

工作坊:matplotlib 69

交互式使用matplotlib 70

案例学习:matplotlib与LOESS 73

控制属性 74

matplotlib对象模型及结构 76

零碎知识 77

扩展阅读 78

第4章 以时间为变量:时序分析 79

示例 79

任务 83

需求和现实 84

平滑处理 84

移动平均法 85

指数平滑法 86

不要忽视显而易见的东西! 90

相关函数 91

示例 92

实现上的问题 93

选学:过滤器和卷积 95

工作坊:scipy.signal包 96

扩展阅读 98

第5章 多变量:图形的多变量分析 99

假色图 100

概览:多值图 105

散点图矩阵 105

协作图 107

变种 108

组成问题 110

组成的改变 110

多维组成:树形图和马赛克图 112

新颖的曲线类型 116

标识符 116

平行坐标图 117

交互式探索 120

查询和缩放 121

连接和涂层 121

大游览与投影寻踪 121

工具 122

工作坊:多变量图形工具 123

R 123

实验工具 124

Python的Chaco库 124

扩展阅读 125

第6章 插曲:数据分析会话 127

数据分析会话 127

工作坊:gnuplot软件 136

扩展阅读 138

第Ⅱ部分 分析:数据建模 141

第7章 推算和粗略计算 141

推算的原理 142

估计大小 143

建立关联 145

使用数字 146

10的幂 146

小扰动 147

对数 148

更多示例 149

我所知道的一些常见事(物)的相关数字 151

这些数字是否足够好? 151

准备工作:可行性和成本 153

完成之后:引用和呈现数字 154

选学:进一步探索摄动理论和误差传播 155

误差传播 156

工作坊:Gnu科学库(GSL) 158

扩展阅读 161

第8章 缩放参数模型 163

模型 163

建模 164

模型的运用和误用 164

参数的缩放 165

缩放参数 165

示例:维度参数 167

示例:优化问题 169

示例:成本模型 170

选学:缩放参数与量纲分析 172

其他理论 174

平均场近似 175

背景知识和其他示例 176

常见的时间演变方案 178

无限增长和衰减现象 178

约束增长:逻辑斯谛方程 180

振荡 181

案例学习:多少台服务器才是最好的? 182

为什么要建模? 184

工作坊:Sage 184

扩展阅读 188

第9章 关于概率模型的讨论 191

二项分布和伯努利试验 191

精确的结果 192

利用伯努利试验建立平均场模型 194

高斯分布和中心极限定理 195

中心极限定理 195

中心项与尾项 197

为什么高斯分布如此实用? 198

选学:高斯积分 199

幂律分布和非常规统计学 201

幂律分布的用法 203

选学:期望值为无限时的分布 204

接下来的研究 206

其他分布 206

几何分布 207

泊松分布 207

对数正态分布 209

特殊用途的分布 211

选学:案例学习——随时间变化的单一访问者数量 211

工作坊:幂律分布 215

扩展阅读 219

第10章 你真正需要了解的经典统计学知识 221

起源 221

统计学的定义 223

从统计学角度解释 226

示例:公式测验VS图解法 229

控制实验VS观察研究 230

实验设计 232

前景 234

选学:贝叶斯统计——另一种观点 235

用频率论来解释概率 235

用贝叶斯方法来理解概率 236

贝叶斯数据分析:一个实际有效的例子 238

贝叶斯推理:总结与讨论 241

工作坊:关于R 243

扩展阅读 249

第11章 插曲:数学大搜捕——大脚怪和最小二乘等 253

如何平均均值 253

辛普森悖论 254

标准差 256

如何计算 258

选学:如何选择? 259

选学:标准误差 259

最小二乘 260

统计参数估计 261

函数逼近 263

扩展阅读 264

第Ⅲ部分 计算:数据挖掘 265

第12章 模拟 267

热身问题 267

蒙特卡洛模拟 270

组合问题 270

获得结果分布 272

优点和缺点 275

重新采样方法 276

拔靴法 277

拔靴法适用于哪些情况? 278

拔靴变量 280

工作坊:SimPy离散事件模拟 280

SimPy简介 281

最简单的排队过程 282

选学:排队理论 285

运行SimPy模拟 288

小结 290

扩展阅读 291

第13章 找出簇 293

簇由什么组成? 293

一种不同的观点 296

距离计算和相似度计算 298

常见的距离和相似度计算方法 300

聚类方法 304

中心探索法 305

树形构造器 307

邻居生长器 309

前期处理和后期处理 311

规模的规范化 311

类的属性和评估 311

其他想法 314

具体案例:超市购物篮的分析 316

提醒 319

工作坊:Pycluster和C聚类库 320

扩展阅读 324

第14章 一木见林:找出重要属性 327

主成分分析法 328

动机 328

选学:理论 330

解释 333

计算 334

实用观点 335

双标图 336

可视化技术 337

多元尺度法 338

网络图 339

柯霍南图 339

工作坊:用R进行PCA 342

扩展阅读 348

线性代数 349

第15章 插曲:当数据的增长不成比例时 351

一个真实的故事 353

一些建议 354

Map/Reduce如何? 356

工作坊:生成排列 357

扩展阅读 358

第Ⅳ部分 应用:使用数据 361

第16章 报表、商务智能和仪表板 361

商务智能 362

报表 364

企业指标和仪表板 369

关于指标计划的建议 370

数据的质量问题 373

数据的可用性 373

数据的一致性 375

工作坊:Berkeley DB和SQLite 376

Berkeley DB 377

SQLite 379

扩展阅读 381

第17章 金融计算与建模 383

货币的时间价值 384

一次性支付:未来值和现值 384

多笔付款:复利 386

复利的计算技巧 387

概览:现金流分析和净现值 389

计划成本和机会成本中的不确定性 391

用账户的期望值来考虑不确定性 391

机会成本 393

成本概念及贬值 394

直接成本和间接成本 394

固定成本和可变成本 396

资本开支与运营成本 397

是否应该加以关注? 398

这些就是全部吗? 399

工作坊:报纸经销商问题 400

选学:精确解 402

扩展阅读 403

报纸经销商问题 404

第18章 预测分析 405

预测分析的主题 406

一些分类术语 407

分类算法 408

基于实例的分类和最近邻分类算法 409

贝叶斯分类器 409

回归 413

支持向量机 414

决策树和基于规则的分类器 416

其他分类算法 418

流程 419

集成方法:Bagging和Boosting 419

估计预测误差 420

类不平衡问题 421

私家秘诀 423

统计学习的本质 424

工作坊:自己编写的两个分类器 426

扩展阅读 431

第19章 结语:事实并非现实 433

附录A 科学计算与数据分析的编程环境 435

附录B 应用:微积分 447

附录C 使用数据 485

索引 499