《爬虫实战从数据到产品》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:贺思聪编著
  • 出 版 社:北京:电子工业出版社
  • 出版年份:2019
  • ISBN:9787121355080
  • 页数:238 页
图书介绍:本书从作者的多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,让读者看到从一个想法出发,如何进行数据源选择、采集数据、存储、分析数据,覆盖端到端的所有步骤。其中爱飞狗旅行的例子,将让读者看到采集长达两年之久、大约20TB的数据,最终形成一个大数据产品的点点滴滴。案例包括:共享单车、共享汽车、自由职业信息、天眼查工商信息、快递员信息、公交数据、航空数据。这些案例难度由简入深,以自己写代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的一些思维模式,实现以低成本的方式得到想要的数据。

第1章 基础知识 1

1.1什么是爬虫 1

1.2数据获取渠道 2

1.3抓包分析工具 4

1.4爬虫和反爬虫的斗争 5

1.5数据处理、分析和可视化 20

1.6延深阅读 21

第2章 基于位置信息的爬虫Ⅰ 23

2.1背景及目标 23

2.2爬虫原理 24

2.3数据来源分析 26

2.4简单的矩形区域抓取方式 38

2.5高级区域抓取方式 46

2.6坐标转换 49

2.7存储数据的方式 49

2.8数据导入 51

2.9基本数据分析 52

2.10地图可视化 56

2.11轨迹可视化 58

2.12总结 60

第3章 基于位置信息的爬虫Ⅱ 62

3.1背景及目标 62

3.2爬虫原理 62

3.3优化方案一 71

3.4优化方案二 75

3.5优化方案三 82

3.6导入数据到数据库 97

3.7基本数据分析及可视化 100

3.8总结 117

第4章 网站信息抓取及可视化 118

4.1背景及目标 118

4.2网站API分析 118

4.3数据抓取 122

4.4数据导入 129

4.5数据分析及可视化 133

4.6 总结 173

第5章 基于逆向分析小程序的爬虫 174

5.1背景及目标 174

5.2数据来源分析 176

5.3数据抓取方案 177

5.4转换数据格式 195

5.5总结 196

第6章 从数据到产品 197

6.1从一张机票说起 197

6.2从价值探索到交付落地 201

6.3数据抓取 203

6.4爬虫架构设计 203

6.5发现数据的价值 211

6.6创新的不确定性 223

6.7产品设计 226

6.8产品交付 235

6.9总结 236