《Python 3爬虫、数据清洗与可视化实战》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:零一,韩要宾,黄园园著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2018
  • ISBN:9787121333590
  • 页数:204 页
图书介绍:本书内容来自笔者在浙江某高校授课内容,主要介绍运用Python工具获取电商平台的页面数据,并对数据做清洗和存储。本书简化了Python基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容,对于Python基础,建议新手可以选购对应的基础书籍配合本书一起学习。

第1章Python基础 1

1.1安装Python环境 1

1.1.1 Python 3.6.2安装与配置 1

1.1.2使用IDE工具——PyCharm 4

1.1.3使用IDE工具——Anaconda 4

1.2 Python操作入门 6

1.2.1编写第一个Python代码 6

1.2.2 Python基本操作 9

1.2.3变量 10

1.3 Python数据类型 10

1.3.1数字 10

1.3.2字符串 11

1.3.3列表 13

1.3.4元组 14

1.3.5集合 15

1.3.6字典 15

1.4 Python语句与函数 16

1.4.1条件语句 16

1.4.2循环语句 16

1.4.3函数 17

第2章 写一个简单的爬虫 18

2.1关于爬虫的合法性 18

2.2了解网页 20

2.2.1认识网页结构 21

2.2.2写一个简单的HTML 21

2.3使用requests库请求网站 23

2.3.1安装requests库 23

2.3.2爬虫的基本原理 25

2.3.3使用GET方式抓取数据 26

2.3.4使用POST方式抓取数据 27

2.4使用Beautiful Soup解析网页 30

2.5清洗和组织数据 34

2.6爬虫攻防战 35

第3章用API爬取天气预报数据 38

3.1注册免费API和阅读技术文档 38

3.2获取API数据 40

3.3存储数据到MongoDB 45

3.3.1下载并安装MongoDB 45

3.3.2在PyCharm中安装Mongo Plugin 46

3.3.3将数据存入MongoDB 49

3.4 MongoDB数据库查询 52

第4章 大型爬虫案例:抓取某电商网站的商品数据 55

4.1观察页面特征和解析数据 55

4.2工作流程分析 64

4.3构建类目树 65

4.4获取产品列表 68

4.5代码优化 70

4.6爬虫效率优化 74

4.7容错处理 77

第5章Scrapy爬虫 78

5.1 Scrapy简介 78

5.2 Scrapy安装 79

5.3案例:用Scrapy抓取股票行情 80

第6章Selenium爬虫 88

6.1 Selenium简介 88

6.2案例:用Selenium抓取电商网站数据 90

第7章 数据库连接和查询 100

7.1使用PyMySQL 100

7.1.1连接数据库 100

7.1.2案例:某电商网站女装行业TOP 100销量数据 102

7.2使用SQLAlchemy 104

7.2.1 SQLAlchemy基本介绍 104

7.2.2 SQLAlchemy基本语法 105

7.3 MongoDB 107

7.3.1 MongoDB基本语法 107

7.3.2案例:在某电商网站搜索“连衣裙”的商品数据 107

第8章NumPy 109

8.1 NumPy简介 109

8.2一维数组 110

8.2.1数组与列表的异同 110

8.2.2数组的创建 111

8.3多维数组 111

8.3.1多维数组的高效性能 112

8.3.2多维数组的索引与切片 113

8.3.3多维数组的属性 113

8.4数组的运算 115

第9章pandas数据清洗 117

9.1数据读写、选择、整理和描述 117

9.1.1从CSV中读取数据 119

9.1.2向CSV写入数据 120

9.1.3数据选择 120

9.1.4数据整理 122

9.1.5数据描述 123

9.2数据分组、分割、合并和变形 124

9.2.1数据分组 124

9.2.2数据分割 127

9.2.3数据合并 128

9.2.4数据变形 134

9.2.5案例:旅游数据的分析与变形 136

9.3缺失值、异常值和重复值处理 140

9.3.1缺失值处理 140

9.3.2检测和过滤异常值 144

9.3.3移除重复数据 147

9.3.4案例:旅游数据的值检查与处理 149

9.4时序数据处理 152

9.4.1日期/时间数据转换 152

9.4.2时序数据基础操作 153

9.4.3案例:天气数据分析与处理 155

9.5数据类型转换 158

9.6正则表达式 160

9.6.1元字符与限定符 161

9.6.2案例:用正则表达式提取网页文本信息 162

第10章 综合应用实例 164

10.1按性价比给用户推荐旅游产品 164

10.1.1数据采集 165

10.1.2数据清洗、建模 169

10.2通过热力图分析为用户提供出行建议 172

10.2.1某旅游网站热门景点爬虫代码(qunaer_sights.py) 175

10.2.2提取CSV文件中经纬度和销量信息 178

10.2.3创建景点门票销量热力地图HTML文件 179

第11章 数据可视化 182

11.1 matplotlib 183

11.1.1画出各省份平均价格、各省份平均成交量柱状图 183

11.1.2画出各省份平均成交量折线图、柱状图、箱形图和饼图 184

11.1.3画出价格与成交量的散点图 185

11.2 pyecharts 186

11.2.1 Echarts简介 186

11.2.2 pyecharts简介 187

11.2.3初识pyecharts,玫瑰相送 187

11.2.4 pyecharts基本语法 188

11.2.5基于商业分析的pyecharts图表绘制 190

11.2.6使用pyecharts绘制其他图表 199

11.2.7 pyecharts和Jupyter 203