精通Scrapy网络爬虫PDF电子书下载
- 电子书积分:10 积分如何计算积分?
- 作 者:刘硕编著
- 出 版 社:北京:清华大学出版社
- 出版年份:2017
- ISBN:9787302484936
- 页数:224 页
第1章 初识Scrapy 1
1.1 网络爬虫是什么 1
1.2 Scrapy简介及安装 2
1.3 编写第一个Scrapy爬虫 3
1.3.1 项目需求 4
1.3.2 创建项目 4
1.3.3 分析页面 5
1.3.4 实现Spider 6
1.3.5 运行爬虫 8
1.4 本章小结 11
第2章 编写Spider 12
2.1 Scrapy框架结构及工作原理 12
2.2 Request和Response对象 14
2.2.1 Request对象 15
2.2.2 Response对象 16
2.3 Spider开发流程 18
2.3.1 继承scrapy.Spider 19
2.3.2 为Spider命名 20
2.3.3 设定起始爬取点 20
2.3.4 实现页面解析函数 22
2.4 本章小结 22
第3章 使用Selector提取数据 23
3.1 Selector对象 23
3.1.1 创建对象 24
3.1.2 选中数据 25
3.1.3 提取数据 26
3.2 Response内置Selector 28
3.3 XPath 29
3.3.1 基础语法 30
3.3.2 常用函数 35
3.4 CSS选择器 36
3.5 本章小结 40
第4章 使用Item封装数据 41
4.1 Item和Field 42
4.2 拓展Item子类 44
4.3 Field元数据 44
4.4 本章小结 47
第5章 使用Item Pipeline处理数据 48
5.1 Item Pipeline 48
5.1.1 实现Item Pipeline 49
5.1.2 启用Item Pipeline 50
5.2 更多例子 51
5.2.1 过滤重复数据 51
5.2.2 将数据存入MongoDB 54
5.3 本章小结 57
第6章 使用LinkExtractor提取链接 58
6.1 使用LinkExtractor 59
6.2 描述提取规则 60
6.3 本章小结 65
第7章 使用Exporter导出数据 66
7.1 指定如何导出数据 67
7.1.1 命令行参数 67
7.1.2 配置文件 69
7.2 添加导出数据格式 70
7.2.1 源码参考 70
7.2.2 实现Exporter 72
7.3 本章小结 74
第8章 项目练习 75
8.1 项目需求 77
8.2 页面分析 77
8.3 编码实现 83
8.4 本章小结 88
第9章 下载文件和图片 89
9.1 FilesPipeline和ImagesPipeline 89
9.1.1 FilesPipeline使用说明 90
9.1.2 ImagesPipeline使用说明 91
9.2 项目实战:爬取matplotlib例子源码文件 92
9.2.1 项目需求 92
9.2.2 页面分析 94
9.2.3 编码实现 96
9.3 项目实战:下载360图片 103
9.3.1 项目需求 104
9.3.2 页面分析 104
9.3.3 编码实现 107
9.4 本章小结 109
第10章 模拟登录 110
10.1 登录实质 110
10.2 Scrapy模拟登录 114
10.2.1 使用FormRequest 114
10.2.2 实现登录Spider 117
10.3 识别验证码 119
10.3.1 OCR识别 119
10.3.2 网络平台识别 123
10.3.3 人工识别 127
10.4 Cookie登录 128
10.4.1 获取浏览器Cookie 128
10.4.2 CookiesMiddleware源码分析 129
10.4.3 实现BrowserCookies-Middleware 132
10.4.4 爬取知乎个人信息 133
10.5 本章小结 135
第11章 爬取动态页面 136
11.1 Splash渲染引擎 140
11.1.1 render.html端点 141
11.1.2 execute端点 142
11.2 在Scrapy中使用Splash 145
11.3 项目实战:爬取toscrape中的名人名言 146
11.3.1 项目需求 146
11.3.2 页面分析 146
11.3.3 编码实现 147
11.4 项目实战:爬取京东商城中的书籍信息 149
11.4.1 项目需求 149
11.4.2 页面分析 149
11.4.3 编码实现 152
11.5 本章小结 154
第12章 存入数据库 155
12.1 SQLite 156
12.2 MySQL 159
12.3 MongoDB 165
12.4 Redis 169
12.5 本章小结 173
第13章 使用HTTP代理 174
13.1 HttpProxyMiddleware 175
13.1.1 使用简介 175
13.1.2 源码分析 177
13.2 使用多个代理 179
13.3 获取免费代理 180
13.4 实现随机代理 184
13.5 项目实战:爬取豆瓣电影信息 187
13.5.1 项目需求 188
13.5.2 页面分析 189
13.5.3 编码实现 194
13.6 本章小结 198
第14章 分布式爬取 199
14.1 Redis的使用 200
14.1.1 安装Redis 200
14.1.2 Redis基本命令 201
14.2 scrapy-redis源码分析 206
14.2.1 分配爬取任务部分 207
14.2.2 汇总爬取数据部分 214
14.3 使用scrapy-redis进行分布式爬取 217
14.3.1 搭建环境 217
14.3.2 项目实战 218
14.4 本章小结 224
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《HTML5从入门到精通 第3版》(中国)明日科技 2019
- 《中国铁路人 第三届现实主义网络文学征文大赛一等奖》恒传录著 2019
- 《光明社科文库 社会网络与贫富差距 经验事实与实证分析》何金财 2019
- 《CCNA网络安全运营SECFND 210-250认证考试指南》(美)奥马尔·桑托斯(OmarSantos),约瑟夫·穆尼斯(JosephMuniz),(意) 2019
- 《网络互联技术项目化教程》梁诚主编 2020
- 《网络利他行为研究》蒋怀滨著 2019
- 《网络成瘾心理学》胡耿丹,许全成著 2019
- 《新手养花从入门到精通》徐帮学编 2019
- 《面向工程教育的本科计算机类专业系列教材 普通高等教育“十一五”国家级规划教材 计算机网络 第3版》胡亮,徐高潮,魏晓辉,车喜龙编 2018
- 《市政工程基础》杨岚编著 2009
- 《家畜百宝 猪、牛、羊、鸡的综合利用》山西省商业厅组织技术处编著 1959
- 《《道德经》200句》崇贤书院编著 2018
- 《高级英语阅读与听说教程》刘秀梅编著 2019
- 《计算机网络与通信基础》谢雨飞,田启川编著 2019
- 《看图自学吉他弹唱教程》陈飞编著 2019
- 《法语词汇认知联想记忆法》刘莲编著 2020
- 《培智学校义务教育实验教科书教师教学用书 生活适应 二年级 上》人民教育出版社,课程教材研究所,特殊教育课程教材研究中心编著 2019
- 《国家社科基金项目申报规范 技巧与案例 第3版 2020》文传浩,夏宇编著 2019
- 《流体力学》张扬军,彭杰,诸葛伟林编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019