网络爬虫全解析 技术、原理与实践PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:罗刚著
- 出 版 社:北京:电子工业出版社
- 出版年份:2017
- ISBN:9787121310713
- 页数:430 页
第1章 技术基础 1
1.1 第一个程序 1
1.2 准备开发环境 2
1.2.1 JDK 2
1.2.2 Eclipse 3
1.3 类和对象 4
1.4 常量 5
1.5 命名规范 6
1.6 基本语法 6
1.7 条件判断 7
1.8 循环 8
1.9 数组 9
1.1 0 位运算 11
1.1 1 枚举类型 13
1.1 2 比较器 14
1.1 3 方法 14
1.1 4 集合类 15
1.1 4.1 动态数组 15
1.1 4.2 散列表 15
1.1 5 文件 19
1.1 5.1 文本文件 19
1.1 5.2 二进制文件 23
1.1 6 多线程 27
1.1 6.1 基本的多线程 28
1.1 6.2 线程池 30
1.1 7 折半查找 31
1.1 8 处理图片 34
1.1 9 本章小结 35
第2章 网络爬虫入门 36
2.1 获取信息 36
2.1.1 提取链接 37
2.1.2 采集新闻 37
2.2 各种网络爬虫 38
2.2.1 信息采集器 40
2.2.2 广度优先遍历 41
2.2.3 分布式爬虫 42
2.3 爬虫相关协议 43
2.3.1 网站地图 44
2.3.2 Robots协议 45
2.4 爬虫架构 48
2.4.1 基本架构 48
2.4.2 分布式爬虫架构 51
2.4.3 垂直爬虫架构 54
2.5 自己写网络爬虫 55
2.6 URL地址查新 57
2.6.1 嵌入式数据库 58
2.6.2 布隆过滤器 60
2.6.3 实现布隆过滤器 61
2.7 部署爬虫 63
2.7.1 部署到Windows 64
2.7.2 部署到Linux 64
2.8 本章小结 65
第3章 定向采集 69
3.1 下载网页的基本方法 69
3.1.1 网卡 70
3.1.2 下载网页 70
3.2 HTTP基础 75
3.2.1 协议 75
3.2.2 URI 77
3.2.3 DNS 84
3 3 使用HttpClient下载网页 84
3.3.1 HttpCore 94
3.3.2 状态码 98
3.3.3 创建 99
3.3.4 模拟浏览器 99
3.3.5 重试 100
3.3.6 抓取压缩的网页 102
3.3.7 HttpContext 104
3.3.8 下载中文网站 105
3.3.9 抓取需要登录的网页 106
3.3.10 代理 111
3.3.11 DNS缓存 112
3.3.12 并行下载 113
3.4 下载网络资源 115
3.4.1 重定向 115
3.4.2 解决套接字连接限制 118
3.4.3 下载图片 119
3.4.4 抓取视频 122
3.4.5 抓取FTP 122
3.4.6 网页更新 122
3.4.7 抓取限制应对方法 126
3.4.8 URL地址提取 131
3.4.9 解析URL地址 134
3.4.10 归一化 135
3.4.11 增量采集 135
3.4.12 iframe 136
3.4.13 抓取JavaScript动态页面 137
3.4.14 抓取即时信息 141
3.4.15 抓取暗网 141
3.5 PhantomJS 144
3.6 Selenium 145
3.7 信息过滤 146
3.7.1 匹配算法 147
3.7.2 分布式过滤 153
3.8 采集新闻 153
3.8.1 网页过滤器 154
3.8.2 列表页 159
3.8.3 用机器学习的方法抓取新闻 160
3.8.4 自动查找目录页 161
3.8.5 详细页 162
3.8.6 增量采集 164
3.8.7 处理图片 164
3.9 遍历信息 164
3.10 并行抓取 165
3.10.1 多线程爬虫 165
3.10.2 垂直搜索的多线程爬虫 168
3.10.3 异步IO 172
3.11 分布式爬虫 176
3.11.1 JGroups 176
3.11.2 监控 179
3.12 增量抓取 180
3.13 管理界面 180
3.14 本章小结 181
第4章 数据存储 182
4.1 存储提取内容 182
4.1.1 SQLite 183
4.1.2 Access数据库 185
4.1.3 MySQL 186
4.1.4 写入维基 187
4.2 HBase 187
4.3 Web图 189
4.4 本章小结 193
第5章 信息提取 194
5.1 从文本提取信息 194
5.2 从HTML文件中提取文本 195
5.2.1 字符集编码 195
5.2.2 识别网页的编码 198
5.2.3 网页编码转换为字符串编码 201
5.2.4 使用正则表达式提取数据 202
5.2.5 结构化信息提取 206
5.2.6 表格 209
5.2.7 网页的DOM结构 210
5.2.8 使用Jsoup提取信息 211
5.2.9 使用XPath提取信息 217
5.2.10 HTMLUnit提取数据 219
5.2.11 网页结构相似度计算 220
5.2.12 提取标题 222
5.2.13 提取日期 224
5.2.14 提取模板 225
5.2.15 提取RDF信息 227
5.2.16 网页解析器原理 227
5.3 RSS 229
5.3.1 Jsoup解析RSS 230
5.3.2 ROME 231
5.3.3 抓取流程 231
5.4 网页去噪 233
5.4.1 NekoHTML 234
5.4.2 Jsoup 238
5.4.3 提取正文 240
5.5 从非HTML文件中提取文本 241
5.5.1 PDF文件 242
5.5.2 Word文件 245
5.5.3 Rtf文件 247
5.5.4 Excel文件 253
5.5.5 PowerPoint文件 254
5.6 提取标题 254
5.6.1 提取标题的一般方法 255
5.6.2 从PDF文件中提取标题 259
5.6.3 从Word文件中提取标题 261
5.6.4 从Rtf文件中提取标题 261
5.6.5 从Excel文件中提取标题 267
5.6.6 从PowerPoint文件中提取标题 270
5.7 图像的OCR识别 270
5.7.1 读入图像 271
5.7.2 准备训练集 272
5.7.3 图像二值化 274
5.7.4 切分图像 279
5.7.5 SVM分类 283
5.7.6 识别汉字 287
5.7.7 训练OCR 289
5.7.8 检测行 290
5.7.9 识别验证码 291
5.7.10 JavaOCR 292
5.8 提取地域信息 292
5.8.1 IP地址 293
5.8.2 手机 315
5.9 提取新闻 316
5.10 流媒体内容提取 317
5.10.1 音频流内容提取 317
5.10.2 视频流内容提取 321
5.11 内容纠错 322
5.11.1 模糊匹配问题 325
5.11.2 英文拼写检查 331
5.11.3 中文拼写检查 333
5.12 术语 336
5.13 本章小结 336
第6章 Crawler4j 338
6.1 使用Crawler4j 338
6.1.1 大众点评 339
6.1.2 日志 342
6.2 crawler4j原理 342
6.2.1 代码分析 343
6.2.2 使用Berkeley DB 344
6.2.3 缩短URL地址 347
6.2.4 网页编码 349
6.2.5 并发 349
6.3 本章小结 352
第7章 网页排重 353
7.1 语义指纹 354
7.2 SimHash 357
7.3 分布式文档排重 367
7.4 本章小结 369
第8章 网页分类 370
8.1 关键词加权法 371
8.2 机器学习的分类方法 378
8.2.1 特征提取 380
8.2.2 朴素贝叶斯 384
8.2.3 支持向量机 393
8 2.4 多级分类 401
8.2.5 网页分类 403
8.3 本章小结 403
第9章 案例分析 404
9.1 金融爬虫 404
9.1.1 中国能源政策数据 404
9.1.2 世界原油现货交易和期货交易数据 405
9.1.3 股票数据 405
9.1.4 从PDF文件中提取表格 408
9.2 商品搜索 408
9.2.1 遍历商品 410
9.2.2 使用HttpClient 415
9.2.3 提取价格 416
9.2.4 水印 419
9.2.5 数据导入ECShop 420
9.2.6 采集淘宝 423
9.3 自动化行业采集 424
9.4 社会化信息采集 424
9.5 微博爬虫 424
9.6 微信爬虫 426
9.7 海关数据 426
9.8 医药数据 427
9.9 本章小结 429
后记 430
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《长安诗心》宋宁刚著 2019
- 《史学与红学》唐德刚著 2019
- 《Java程序设计基础》罗刚 2018
- 《朱生豪在上海》朱尚刚著 2019
- 《纸上的关怀》宋宁刚著 2019
- 《光学调频连续波干涉技术》(加)郑刚著;廖寅宵,刘柯,宋金城等译 2019
- 《三体》田加刚著 2019
- 《自然美的传递 本质真的发掘》王春刚著 2014
- 《水下磁性目标精密探测理论与方法》卞光浪,翟国君,欧阳永忠,于波,边刚著 2019
- 《高校图书馆阅读推广理论与实践》刘纪刚著 2019
- 《电子测量与仪器》人力资源和社会保障部教材办公室组织编写 2009
- 《少儿电子琴入门教程 双色图解版》灌木文化 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《通信电子电路原理及仿真设计》叶建芳 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《电子应用技术项目教程 第3版》王彰云 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017