基于Python的大数据分析基础及实战PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:余本国著
- 出 版 社:北京:中国水利水电出版社
- 出版年份:2018
- ISBN:9787517064992
- 页数:370 页
第1部分 基础篇 2
第1章 Python语言基础 2
1.0引子 2
1.1 工欲善其事,必先利其器(安装Python) 3
1.2 学跑得先学走(语法基础) 9
1.3 程序结构 11
1.3.1 Hello World! 11
1.3.2 运算符介绍 12
1.3.3 顺序结构 14
1.3.4 判断结构 17
1.3.5 循环结构 18
1.3.6 异常 20
1.4 函数 24
1.4.1 基本函数结构 24
1.4.2 参数结构 25
1.4.3 回调函数 28
1.4.4 函数的递归与嵌套 28
1.4.5 闭包 31
1.4.6 匿名函数lambda 32
1.4.7 关键字yield 32
1.5 数据结构 35
1.5.1 列表(list) 35
1.5.2 元组(tuple) 38
1.5.3 集合(set) 39
1.5.4 字典(dict) 40
1.5.5 集合的操作 41
1.5.6 学以致用 45
1.6 3个函数(map、filter、reduce) 47
1.6.1 遍历函数(map) 47
1.6.2 筛选函数(filter) 48
1.6.3 累计函数(reduce) 48
1.7 面向对象编程基础 50
1.7.1 类 50
1.7.2 类和实例 51
1.7.3 数据封装 52
1.7.4 私有变量与私有方法 53
本章小结 54
第2章 数据处理 60
2.1 Anaconda简介 60
2.2 Numpy简介 66
2.3 关于Pandas 68
2.3.1 什么是Pandas 68
2.3.2 Pandas中的数据结构 68
2.4 数据准备 68
2.4.1 数据类型 68
2.4.2 数据结构 69
2.4.3 数据导入 79
2.4.4 数据导出 86
2.5 数据处理 88
2.5.1 数据清洗 89
2.5.2 数据抽取 97
2.5.3 插入记录 114
2.5.4 修改记录 117
2.5.5 交换行或列 120
2.5.6 排名索引 122
2.5.7 数据合并 131
2.5.8 数据计算 137
2.5.9 数据分组 141
2.5.10 日期处理 143
带你飞(数据处理案例) 148
本章小结 160
第3章 数据分析 165
3.1 基本统计分析 165
3.2 分组分析 169
3.3 分布分析 171
3.4 交叉分析 173
3.5 结构分析 174
3.6 相关分析 176
小试牛刀(相关分析案例:电商数据分析) 178
本章小结 180
第4章 数据可视化 181
4.1 使用Python对数据进行可视化处理 181
4.1.1 准备工作 181
4.1.2 Matplotlib绘图示例 186
4.1.3 Seabon中的图例 198
4.1.4 pandas的一些可视化功能 212
4.1.5 文本数据可视化 217
4.1.6 networkx网络图 218
4.1.7 folium绘制地图 220
4.2 Python图像处理基础 221
4.2.1 PIL图库 221
4.2.2 OpenCV图库 224
本章小结 226
第5章 字符串处理与网络爬虫 228
5.1 字符串处理 228
5.1.1 字符串处理函数 228
5.1.2 正则表达式 230
5.1.3 编码处理 237
5.2 网络爬虫 240
5.2.1 获取网页源码 240
5.2.2 从源码中提取信息 241
5.2.3 数据存储 246
5.2.4 网络爬虫从这里开始 248
本章小结 260
第2部分 实战案例篇 262
第6章 词云 262
6.1 安装文件包 263
6.2 jieba功能用法 264
6.2.1 cut用法 264
6.2.2 词频与分词字典 265
6.3 文本词云图 269
6.4 背景轮廓词云图的制作 271
6.4.1 数据准备 271
6.4.2 分词 272
6.4.3 构建词云 273
本章小结 278
第7章 航空客户分类 279
7.1 问题的提出 279
7.2 聚类分析相关概念 280
7.3 模型的建立 281
7.4 Python实现代码 281
7.5 分类结果展示与分析 284
本章小结 287
第8章 《红楼梦》文本分析 288
8.1 准备工作 289
8.2 分词 291
8.2.1 读取数据 291
8.2.2 数据预处理 293
8.2.3 对红楼梦进行分词 301
8.2.4 制作词云 303
8.3 文本聚类分析 312
8.3.1 构建分词TF-IDF矩阵 312
8.3.2 使用TF-IDF矩阵对章节进行聚类 314
8.4 LDA主题模型 322
8.5 人物社交网络分析 328
本章小结 334
第3部分 拓展与延伸 336
第9章 Python字符串格式化 336
9.1 使用%符号进行格式化 336
9.2 使用format()方法进行格式化 339
9.3 使用f方法进行格式化 341
本章小结 342
第10章 在Python中操作MySQL数据库 343
10.1 对MySQL的连接与访问 344
10.2 对MySQL的增、删、改、查操作 345
10.2.1 查询操作 345
10.2.2 插入操作 346
10.2.3 更新操作 347
10.2.4 删除操作 347
10.3 创建数据库表 348
本章小结 349
第11章 fractal(分形)库的发布 350
11.1 用Python绘制分形 351
11.1.1 分形简介 351
11.1.2 先睹为快 351
11.1.3 绘制方法简介 352
11.2 第三方库发布到PyPi 364
本章小结 369
参考文献 370
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《市政工程基础》杨岚编著 2009
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《零基础学会素描》王金著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《分析化学》陈怀侠主编 2019
- 《花时间 我的第一堂花艺课 插花基础技法篇》(日)花时间编辑部编;陈洁责编;冯莹莹译 2020
- 《Photoshop CC 2018基础教程》温培利,付华编著 2019
- 《Maya 2018完全实战技术手册》来阳编著 2019
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《水面舰艇编队作战运筹分析》谭安胜著 2009
- 《王蒙文集 新版 35 评点《红楼梦》 上》王蒙著 2020
- 《TED说话的力量 世界优秀演讲者的口才秘诀》(坦桑)阿卡什·P.卡里亚著 2019
- 《燕堂夜话》蒋忠和著 2019
- 《经久》静水边著 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《微表情密码》(波)卡西亚·韦佐夫斯基,(波)帕特里克·韦佐夫斯基著 2019
- 《看书琐记与作文秘诀》鲁迅著 2019
- 《酒国》莫言著 2019
- 《中国当代乡土小说文库 本乡本土》(中国)刘玉堂 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《莼江曲谱 2 中国昆曲博物馆藏稀见昆剧手抄曲谱汇编之一》郭腊梅主编;孙伊婷副主编;孙文明,孙伊婷编委;中国昆曲博物馆编 2018
- 《中国制造业绿色供应链发展研究报告》中国电子信息产业发展研究院 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《中国陈设艺术史》赵囡囡著 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《清至民国中国西北戏剧经典唱段汇辑 第8卷》孔令纪 2018