第1章 导论 1
数据分析 1
本书内容 2
关于工作坊 3
关于数学 4
需要具备的知识 6
本书不涉及的内容 6
第Ⅰ部分 图表:观察数据 11
第2章 单一变量:形状和分布 11
数据点和抖动图 12
直方图和核密度估计 14
直方图 15
核密度估计 19
选学:如何选择最优带宽 22
累积分布函数 23
选学:概率图分布和QQ图分布的对比 25
秩序图和上升图 30
仅用于适当时机:汇总统计量和箱形图 33
汇总统计量 33
Box-and-Whisker图 36
工作坊:NumPy模块 38
NumPy实践 38
NumPy详解 41
扩展阅读 45
第3章 两个变量:建立关系 47
散点图 47
克服噪声:平滑 48
样条 50
LOESS 51
示例 52
残差 54
其他观点及提醒 55
对数图 57
倾斜 61
线性回归以及诸如此类的方法 62
描述重要信息 66
图形分析与图形演示 68
工作坊:matplotlib 69
交互式使用matplotlib 70
案例学习:matplotlib与LOESS 73
控制属性 74
matplotlib对象模型及结构 76
零碎知识 77
扩展阅读 78
第4章 以时间为变量:时序分析 79
示例 79
任务 83
需求和现实 84
平滑处理 84
移动平均法 85
指数平滑法 86
不要忽视显而易见的东西! 90
相关函数 91
示例 92
实现上的问题 93
选学:过滤器和卷积 95
工作坊:scipy.signal包 96
扩展阅读 98
第5章 多变量:图形的多变量分析 99
假色图 100
概览:多值图 105
散点图矩阵 105
协作图 107
变种 108
组成问题 110
组成的改变 110
多维组成:树形图和马赛克图 112
新颖的曲线类型 116
标识符 116
平行坐标图 117
交互式探索 120
查询和缩放 121
连接和涂层 121
大游览与投影寻踪 121
工具 122
工作坊:多变量图形工具 123
R 123
实验工具 124
Python的Chaco库 124
扩展阅读 125
第6章 插曲:数据分析会话 127
数据分析会话 127
工作坊:gnuplot软件 136
扩展阅读 138
第Ⅱ部分 分析:数据建模 141
第7章 推算和粗略计算 141
推算的原理 142
估计大小 143
建立关联 145
使用数字 146
10的幂 146
小扰动 147
对数 148
更多示例 149
我所知道的一些常见事(物)的相关数字 151
这些数字是否足够好? 151
准备工作:可行性和成本 153
完成之后:引用和呈现数字 154
选学:进一步探索摄动理论和误差传播 155
误差传播 156
工作坊:Gnu科学库(GSL) 158
扩展阅读 161
第8章 缩放参数模型 163
模型 163
建模 164
模型的运用和误用 164
参数的缩放 165
缩放参数 165
示例:维度参数 167
示例:优化问题 169
示例:成本模型 170
选学:缩放参数与量纲分析 172
其他理论 174
平均场近似 175
背景知识和其他示例 176
常见的时间演变方案 178
无限增长和衰减现象 178
约束增长:逻辑斯谛方程 180
振荡 181
案例学习:多少台服务器才是最好的? 182
为什么要建模? 184
工作坊:Sage 184
扩展阅读 188
第9章 关于概率模型的讨论 191
二项分布和伯努利试验 191
精确的结果 192
利用伯努利试验建立平均场模型 194
高斯分布和中心极限定理 195
中心极限定理 195
中心项与尾项 197
为什么高斯分布如此实用? 198
选学:高斯积分 199
幂律分布和非常规统计学 201
幂律分布的用法 203
选学:期望值为无限时的分布 204
接下来的研究 206
其他分布 206
几何分布 207
泊松分布 207
对数正态分布 209
特殊用途的分布 211
选学:案例学习——随时间变化的单一访问者数量 211
工作坊:幂律分布 215
扩展阅读 219
第10章 你真正需要了解的经典统计学知识 221
起源 221
统计学的定义 223
从统计学角度解释 226
示例:公式测验VS图解法 229
控制实验VS观察研究 230
实验设计 232
前景 234
选学:贝叶斯统计——另一种观点 235
用频率论来解释概率 235
用贝叶斯方法来理解概率 236
贝叶斯数据分析:一个实际有效的例子 238
贝叶斯推理:总结与讨论 241
工作坊:关于R 243
扩展阅读 249
第11章 插曲:数学大搜捕——大脚怪和最小二乘等 253
如何平均均值 253
辛普森悖论 254
标准差 256
如何计算 258
选学:如何选择? 259
选学:标准误差 259
最小二乘 260
统计参数估计 261
函数逼近 263
扩展阅读 264
第Ⅲ部分 计算:数据挖掘 265
第12章 模拟 267
热身问题 267
蒙特卡洛模拟 270
组合问题 270
获得结果分布 272
优点和缺点 275
重新采样方法 276
拔靴法 277
拔靴法适用于哪些情况? 278
拔靴变量 280
工作坊:SimPy离散事件模拟 280
SimPy简介 281
最简单的排队过程 282
选学:排队理论 285
运行SimPy模拟 288
小结 290
扩展阅读 291
第13章 找出簇 293
簇由什么组成? 293
一种不同的观点 296
距离计算和相似度计算 298
常见的距离和相似度计算方法 300
聚类方法 304
中心探索法 305
树形构造器 307
邻居生长器 309
前期处理和后期处理 311
规模的规范化 311
类的属性和评估 311
其他想法 314
具体案例:超市购物篮的分析 316
提醒 319
工作坊:Pycluster和C聚类库 320
扩展阅读 324
第14章 一木见林:找出重要属性 327
主成分分析法 328
动机 328
选学:理论 330
解释 333
计算 334
实用观点 335
双标图 336
可视化技术 337
多元尺度法 338
网络图 339
柯霍南图 339
工作坊:用R进行PCA 342
扩展阅读 348
线性代数 349
第15章 插曲:当数据的增长不成比例时 351
一个真实的故事 353
一些建议 354
Map/Reduce如何? 356
工作坊:生成排列 357
扩展阅读 358
第Ⅳ部分 应用:使用数据 361
第16章 报表、商务智能和仪表板 361
商务智能 362
报表 364
企业指标和仪表板 369
关于指标计划的建议 370
数据的质量问题 373
数据的可用性 373
数据的一致性 375
工作坊:Berkeley DB和SQLite 376
Berkeley DB 377
SQLite 379
扩展阅读 381
第17章 金融计算与建模 383
货币的时间价值 384
一次性支付:未来值和现值 384
多笔付款:复利 386
复利的计算技巧 387
概览:现金流分析和净现值 389
计划成本和机会成本中的不确定性 391
用账户的期望值来考虑不确定性 391
机会成本 393
成本概念及贬值 394
直接成本和间接成本 394
固定成本和可变成本 396
资本开支与运营成本 397
是否应该加以关注? 398
这些就是全部吗? 399
工作坊:报纸经销商问题 400
选学:精确解 402
扩展阅读 403
报纸经销商问题 404
第18章 预测分析 405
预测分析的主题 406
一些分类术语 407
分类算法 408
基于实例的分类和最近邻分类算法 409
贝叶斯分类器 409
回归 413
支持向量机 414
决策树和基于规则的分类器 416
其他分类算法 418
流程 419
集成方法:Bagging和Boosting 419
估计预测误差 420
类不平衡问题 421
私家秘诀 423
统计学习的本质 424
工作坊:自己编写的两个分类器 426
扩展阅读 431
第19章 结语:事实并非现实 433
附录A 科学计算与数据分析的编程环境 435
附录B 应用:微积分 447
附录C 使用数据 485
索引 499