利用Python进行数据分析 原书第2版PDF电子书下载
- 电子书积分:15 积分如何计算积分?
- 作 者:(美)韦斯·麦金尼(Wes McKinney)
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111603702
- 页数:480 页
前言 1
第1章 准备工作 7
1.1 本书内容 7
1.1.1 什么类型的数据 7
1.2 为何利用Python进行数据分析 8
1.2.1 Python作为胶水 8
1.2.2 解决“双语言”难题 8
1.2.3 为何不使用Python 9
1.3 重要的Python库 9
1.3.1 NumPy 9
1.3.2 pandas 10
1.3.3 matplotlib 11
1.3.4 IPython与Jupyter 11
1.3.5 SciPy 12
1.3.6 scikit-learn 12
1.3.7 statsmodels 13
1.4 安装与设置 13
1.4.1 Windows 14
1.4.2 Apple(OS X和macOS) 14
1.4.3 GNU/Linux 14
1.4.4 安装及更新Python包 15
1.4.5 Python 2和Python 3 16
1.4.6 集成开发环境和文本编辑器 16
1.5 社区和会议 17
1.6 快速浏览本书 17
1.6.1 代码示例 18
1.6.2 示例数据 18
1.6.3 导入约定 18
1.6.4 术语 19
第2章 Python语言基础、l Python及Jupyter notebook 20
2.1 Python解释器 21
2.2 IPython基础 22
2.2.1 运行IPython命令行 22
2.2.2 运行Jupyter notebook 23
2.2.3 Tab补全 25
2.2.4 内省 27
2.2.5 %run命令 28
2.2.6 执行剪贴板中的程序 30
2.2.7 终端快捷键 30
2.2.8 关于魔术命令 31
2.2.9 matplotlib集成 33
2.3 Python语言基础 34
2.3.1 语言语义 34
2.3.2 标量类型 42
2.3.3 控制流 49
第3章 内建数据结构、函数及文件 54
3.1 数据结构和序列 54
3.1.1 元组 54
3.1.2 列表 57
3.1.3 内建序列函数 61
3.1.4 字典 64
3.1.5 集合 67
3.1.6 列表、集合和字典的推导式 69
3.2 函数 72
3.2.1 命名空间、作用域和本地函数 72
3.2.2 返回多个值 73
3.2.3 函数是对象 74
3.2.4 匿名(Lambda)函数 75
3.2.5 柯里化:部分参数应用 76
3.2.6 生成器 77
3.2.7 错误和异常处理 79
3.3 文件与操作系统 82
3.3.1 字节 与Unicode文件 85
3.4 本章小结 86
第4章 NumPy基础:数组与向量化计算 87
4.1 NumPy ndarray:多维数组对象 89
4.1.1 生成ndarray 90
4.1.2 ndarray的数据类型 92
4.1.3 NumPy数组算术 94
4.1.4 基础索引与切片 95
4.1.5 布尔索引 100
4.1.6 神奇索引 103
4.1.7 数组转置和换轴 104
4.2 通用函数:快速的逐元素数组函数 106
4.3 使用数组进行面向数组编程 109
4.3.1 将条件逻辑作为数组操作 110
4.3.2 数学和统计方法 111
4.3.3 布尔值数组的方法 113
4.3.4 排序 114
4.3.5 唯一值与其他集合逻辑 115
4.4 使用数组进行文件输入和输出 115
4.5 线性代数 116
4.6 伪随机数生成 118
4.7 示例:随机漫步 120
4.7.1 一次性模拟多次随机漫步 121
4.8 本章小结 122
第5章 pandas入门 123
5.1 pandas数据结构介绍 123
5.1.1 Series 123
5.1.2 DataFrame 128
5.1.3 索引对象 134
5.2 基本功能 135
5.2.1 重建索引 136
5.2.2 轴向上删除条目 138
5.2.3 索引、选择与过滤 140
5.2.4 整数索引 144
5.2.5 算术和数据对齐 145
5.2.6 函数应用和映射 150
5.2.7 排序和排名 152
5.2.8 含有重复标签的轴索引 155
5.3 描述性统计的概述与计算 157
5.3.1 相关性和协方差 159
5.3.2 唯一值、计数和成员属性 161
5.4 本章小结 164
第6章 数据载入、存储及文件格式 165
6.1 文本格式数据的读写 165
6.1.1 分块读入文本文件 171
6.1.2 将数据写入文本格式 172
6.1.3 使用分隔格式 174
6.1.4 JSON数据 176
6.1.5 XML和HTML:网络抓取 177
6.2 二进制格式 180
6.2.1 使用HDF5格式 181
6.2.2 读取Microsoft Excel文件 183
6.3 与Web API交互 184
6.4 与数据库交互 186
6.5 本章小结 187
第7章 数据清洗与准备 188
7.1 处理缺失值 188
7.1.1 过滤缺失值 189
7.1.2 补全缺失值 191
7.2 数据转换 194
7.2.1 删除重复值 194
7.2.2 使用函数或映射进行数据转换 195
7.2.3 替代值 197
7.2.4 重命名轴索引 198
7.2.5 离散化和分箱 199
7.2.6 检测和过滤异常值 202
7.2.7 置换和随机抽样 203
7.2.8 计算指标/虚拟变量 204
7.3 字符串操作 207
7.3.1 字符串对象方法 208
7.3.2 正则表达式 210
7.3.3 pandas中的向量化字符串函数 213
7.4 本章小结 215
第8章 数据规整:连接、联合与重塑 216
8.1 分层索引 216
8.1.1 重排序和层级排序 219
8.1.2 按层级进行汇总统计 220
8.1.3 使用DataFrame的列进行索引 220
8.2 联合与合并数据集 221
8.2.1 数据库风格的DataFrame连接 222
8.2.2 根据索引合并 226
8.2.3 沿轴向连接 230
8.2.4 联合重叠数据 235
8.3 重塑和透视 236
8.3.1 使用多层索引进行重塑 236
8.3.2 将“长”透视为“宽” 240
8.3.3 将“宽”透视为“长” 242
8.4 本章小结 244
第9章 绘图与可视化 245
9.1 简明matplotlib API入门 245
9.1.1 图片与子图 246
9.1.2 颜色、标记和线类型 250
9.1.3 刻度、标签和图例 252
9.1.4 注释与子图加工 255
9.1.5 将图片保存到文件 258
9.1.6 matplotlib设置 258
9.2 使用pandas和seaborn绘图 259
9.2.1 折线图 259
9.2.2 柱状图 262
9.2.3 直方图和密度图 266
9.2.4 散点图或点图 269
9.2.5 分面网格和分类数据 270
9.3 其他Python可视化工具 271
9.4 本章小结 272
第10章 数据聚合与分组操作 274
10.1 GroupBy机制 274
10.1.1 遍历各分组 278
10.1.2 选择一列或所有列的子集 279
10.1.3 使用字典和Series分组 280
10.1.4 使用函数分组 281
10.1.5 根据索引层级分组 282
10.2 数据聚合 282
10.2.1 逐列及多函数应用 284
10.2.2 返回不含行索引的聚合数据 287
10.3 应用:通用拆分-应用-联合 288
10.3.1 压缩分组键 290
10.3.2 分位数与桶分析 291
10.3.3 示例:使用指定分组值填充缺失值 292
10.3.4 示例:随机采样与排列 294
10.3.5 示例:分组加权平均和相关性 296
10.3.6 示例:逐组线性回归 298
10.4 数据透视表与交叉表 298
10.4.1 交叉表:crosstab 301
10.5 本章小结 302
第11章 时间序列 303
11.1 日期和时间数据的类型及工具 303
11.1.1 字符串与datetime互相转换 305
11.2 时间序列基础 307
11.2.1 索引、选择、子集 308
11.2.2 含有重复索引的时间序列 311
11.3 日期范围、频率和移位 312
11.3.1 生成日期范围 313
11.3.2 频率和日期偏置 316
11.3.3 移位(前向和后向)日期 317
11.4 时区处理 320
11.4.1 时区的本地化和转换 320
11.4.2 时区感知时间戳对象的操作 323
11.4.3 不同时区间的操作 324
11.5 时间区间和区间算术 324
11.5.1 区间频率转换 326
11.5.2 季度区间频率 327
11.5.3 将时间戳转换为区间(以及逆转换) 329
11.5.4 从数组生成Periodlndex 330
11.6 重新采样与频率转换 332
11.6.1 向下采样 334
11.6.2 向上采样与插值 336
11.6.3 使用区间进行重新采样 337
11.7 移动窗口函数 339
11.7.1 指数加权函数 342
11.7.2 二元移动窗口函数 343
11.7.3 用户自定义的移动窗口函数 344
11.8 本章小结 344
第12章 高阶pandas 346
12.1 分类数据 346
12.1.1 背景和目标 346
12.1.2 pandas中的Categorical类型 348
12.1.3 使用Categorical对象进行计算 350
12.1.4 分类方法 352
12.2 高阶GroupBy应用 355
12.2.1 分组转换和“展开”GroupBy 355
12.2.2 分组的时间重新采样 359
12.3 方法链技术 361
12.3.1 pipe方法 362
12.4 本章小结 363
第13章 Python建模库介绍 364
13.1 pandas与建模代码的结合 364
13.2 使用Patsy创建模型描述 367
13.2.1 Patsy公式中的数据转换 369
13.2.2 分类数据与Patsy 371
13.3 statsmodels介绍 373
13.3.1 评估线性模型 374
13.3.2 评估时间序列处理 377
13.4 scikit-learn介绍 377
13.5 继续你的教育 381
第14章 数据分析示例 382
14.1 从Bitly获取1.USA.gov数据 382
14.1.1 纯Python时区计数 383
14.1.2 使用pandas进行时区计数 385
14.2 MovieLens 1M数据集 392
14.2.1 测量评价分歧 396
14.3 美国1880~2010年的婴儿名字 397
14.3.1 分析名字趋势 402
14.4 美国农业部食品数据库 410
14.5 2012年联邦选举委员会数据库 416
14.5.1 按职业和雇主的捐献统计 419
14.5.2 捐赠金额分桶 421
14.5.3 按州进行捐赠统计 423
14.6 本章小结 424
附录A高阶NumPy 425
附录B更多IPython系统相关内容 457
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《分析化学》陈怀侠主编 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《影响葡萄和葡萄酒中酚类特征的因素分析》朱磊 2019
- 《仪器分析技术 第2版》曹国庆 2018
- 《全国普通高等中医药院校药学类专业十三五规划教材 第二轮规划教材 分析化学实验 第2版》池玉梅 2018
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《剑桥国际英语写作教程 段落写作》(美)吉尔·辛格尔顿(Jill Shingleton)编著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019