基于R语言的自动数据收集 网络抓取和文本挖掘实用指南PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:(德)西蒙·蒙策尔特(Simon Munzert)著
- 出 版 社:北京:机械工业出版社
- 出版年份:2016
- ISBN:9787111527503
- 页数:366 页
第1章 概述 1
1.1 案例研究:濒危世界遗产地 1
1.2 有关网络数据质量的一些讨论 6
1.3 传播、提取和保存网络数据的技术 8
1.3.1 在网络上传播内容的技术 8
1.3.2 从Web文档中提取信息的技术 9
1.3.3 数据保存的技术 10
1.4 本书的结构 11
第一部分 网络和数据技术入门 14
第2章 HTML 14
2.1 浏览器显示及源代码 14
2.2 语法规则 16
2.2.1 标签、元素和属性 16
2.2.2 树形结构 17
2.2.3 注释 18
2.2.4 保留字符和特殊字符 18
2.2.5 文档类型定义 19
2.2.6 空格和换行 19
2.3 标签和属性 19
2.3.1 锚标签<a> 20
2.3.2 元数据标签<meta> 20
2.3.3 外部引用标签<link> 21
2.3.4 强调标签<b>、<i>和<strong> 21
2.3.5 段落标签<P> 22
2.3.6 标题标签<h1>、<h2>、<h3>等 22
2.3.7 通过<u1>、<o1>和<d1>列举内容 22
2.3.8 组织型标签<div>和<span> 22
2.3.9 <form>标签及其同伴 23
2.3.10 外部脚本标签<script> 25
2.3.11 表格标签<table>、<tr>、<td>和<th> 26
2.4 解析 26
2.4.1 解析简介 27
2.4.2 丢弃节点 28
2.4.3 在创建过程中提取信息 30
小结 31
延伸阅读 31
习题 32
第3章 XML和JSON 34
3.1 XML文档示例 34
3.2 XML语法规则 36
3.2.1 元素和属性 36
3.2.2 XML结构 38
3.2.3 命名及特殊字符 39
3.2.4 注释及字符数据 40
3.2.5 XML语法总结 41
3.3 结构良好或合法的XML文档的条件 41
3.4 XML扩展与技术 43
3.4.1 命名空间 43
3.4.2 XML的扩展 44
3.4.3 示例:RSS 45
3.4.4 示例:可缩放矢量图 48
3.5 XML和R的实践 49
3.5.1 解析XML 50
3.5.2 对XML文档的基本操作 51
3.5.3 从XML获取数据框或列表 53
3.5.4 事件驱动的解析 54
3.6 JSON文档示例 56
3.7 JSON语法规则 57
3.8 JSON和R的实践 59
小结 63
延伸阅读 63
习题 63
第4章 XPath 65
4.1 XPath:一种网页查询语言 65
4.2 用XPath确定节点集 66
4.2.1 XPath查询的基本结构 66
4.2.2 节点关系 69
4.2.3 XPath谓语 71
4.3 提取节点元素 76
4.3.1 扩展fun参数 77
4.3.2 XML命名空间 79
4.3.3 XPath的辅助性小工具 80
小结 81
延伸阅读 81
习题 81
第5章 HTTP 83
5.1 HTTP基础知识 84
5.1.1 和Web服务器的简短对话 84
5.1.2 URL的语法 86
5.1.3 HTTP消息 88
5.1.4 请求方法 89
5.1.5 状态码 89
5.1.6 标头字段 90
5.2 HTTP的高级特性 95
5.2.1 身份识别 96
5.2.2 身份验证 99
5.2.3 代理 101
5.3 HTTP之外的协议 102
5.3.1 HTTP安全协议 102
5.3.2 FTP 104
5.4 HTTP实战 104
5.4.1 libcurl库 105
5.4.2 基本请求方法 105
5.4.3 RCurl的底层函数 108
5.4.4 在多个请求里保持连接 109
5.4.5 选项 110
5.4.6 调试 114
5.4.7 错误处理 117
5.4.8 用RCurl还是httr呢 118
小结 118
延伸阅读 119
习题 120
第6章 AJAX 122
6.1 JavaScript 123
6.1.1 JavaScript的使用方式 123
6.1.2 DOM操作 123
6.2 XHR 126
6.2.1 加载外部HTML/XML文档 127
6.2.2 加载JSON 128
6.3 利用Web开发者工具探索AJAX 130
6.3.1 初试Chrome的Web开发者工具 130
6.3.2 元素面板 130
6.3.3 网络面板 131
小结 132
延伸阅读 133
习题 133
第7章 SQL和关系型数据库 134
7.1 概况及术语 135
7.2 关系型数据库 137
7.2.1 在表中保存数据 137
7.2.2 规范化 139
7.2.3 关系型数据库和DBMS的高级特性 142
7.3 SQL:一种与数据库通信的语言 143
7.3.1 SQL概述 143
7.3.2 数据控制语言——DCL 145
7.3.3 数据定义语言——DDL 145
7.3.4 数据操作语言——DML 147
7.3.5 子句 151
7.3.6 事务控制语言——TCL 153
7.4 数据库实战 154
7.4.1 管理数据库的R组件 154
7.4.2 通过基于DBI的组件在R里执行SQL 154
7.4.3 通过RODBC在R里执行SQL 156
小结 157
延伸阅读 158
习题 158
第8章 正则表达式和基本字符串函数 160
8.1 正则表达式 161
8.1.1 严格的字符匹配 161
8.1.2 正则表达式的广义化 163
8.1.3 重新分析入门例子 168
8.2 字符串处理 169
8.2.1 stringr组件 169
8.2.2 其他实用函数 173
8.3 字符编码简介 175
小结 177
延伸阅读 177
习题 178
第二部分 网络抓取和文本挖掘实用工具箱 180
第9章 网络抓取 180
9.1 数据检索的场景 181
9.1.1 下载现成的文件 181
9.1.2 从FTP索引下载多个文件 184
9.1.3 操作URL访问多个页面 186
9.1.4 从HTML网页采集链接、列表和表格的便利函数 189
9.1.5 处理HTML表单 191
9.1.6 HTTP身份验证 200
9.1.7 通过HTTPS进行的连接 201
9.1.8 使用cookie 202
9.1.9 利用Selenium/Rwebdriver从AJAX增强的网页抓取数据 205
9.1.10 从API检索数据 211
9.1.11 用OAuth进行身份验证 218
9.2 数据提取策略 221
9.2.1 正则表达式 221
9.2.2 XPath 224
9.2.3 应用编程接口 225
9.3 网络抓取:良好实践 227
9.3.1 网络抓取是否合法 227
9.3.2 robots.txt简介 229
9.3.3 做个友好的(机器)人 232
9.4 有价值的灵感来源 238
小结 239
延伸阅读 240
习题 240
第10章 统计性文本处理 242
10.1 实例:对英国政府的新闻公告进行分类 243
10.2 处理文本数据 244
10.2.1 大规模文本操作:tm组件 244
10.2.2 构建一个词条-文档矩阵 248
10.2.3 数据清理 250
10.2.4 稀疏度和n元文法 251
10.3 有监督的学习技术 252
10.3.1 支持向量机 253
10.3.2 随机森林 254
10.3.3 最大熵 254
10.3.4 RTextTools组件 254
10.3.5 应用:政府新闻公告 254
10.4 无监督的学习技术 257
10.4.1 隐含狄式分布及相关主题模型 258
10.4.2 应用:政府新闻公告 258
小结 263
延伸阅读 263
第11章 管理数据项目 265
11.1 与文件系统交互 265
11.2 处理多个文档或链接 266
11.2.1 使用for循环 266
11.2.2 使用while循环和控制结构 268
11.2.3 使用plyr组件 269
11.3 组织抓取程序 270
11.3.1 进度反馈的实现:消息和进度条 272
11.3.2 错误和异常处理 274
11.4 定期执行R脚本 275
11.4.1 在Mac OS和Linux上安排定时任务 276
11.4.2 在Windows平台上安排定时任务 278
第三部分 一组案例分析 283
第12章 美国参议院里的合作网络 283
12.1 有关法案的信息 283
12.2 有关参议员的信息 289
12.3 分析网络结构 291
12.3.1 描述性统计 292
12.3.2 网络分析 294
12.4 结论 295
第13章 从半结构化文档解析信息 297
13.1 从FTP服务器下载数据 297
13.2 解析半结构化文本数据 299
13.3 把气象站和气温数据视觉化 304
第14章 利用Twitter预测2014年奥斯卡奖 307
14.1 Twitter API概述 307
14.1.1 REST API 307
14.1.2 数据流API 308
14.1.3 采集并预处理数据 309
14.2 基于Twitter的2014年奥斯卡奖预测 309
14.2.1 对数据进行视觉化 309
14.2.2 挖掘推文进行预测 311
14.3 结论 313
第15章 绘制姓氏地理分布图 314
15.1 制定一套数据采集策略 314
15.2 查看网站 315
15.3 数据检索和信息提取 317
15.4 映射姓氏 319
15.5 处理过程自动化 321
小结 326
第16章 采集关于手机的数据 328
16.1 页面探索 328
16.1.1 查找指定品牌的手机 328
16.1.2 提取产品信息 331
16.2 抓取程序 335
16.2.1 提取有关多个生产商的数据 335
16.2.2 数据清理 336
16.3 图形分析 336
16.4 数据存储 337
16.4.1 总体思路 337
16.4.2 用于存储的表的定义 338
16.4.3 考虑未来存储的数据表定义 340
16.4.4 方便数据访问的视图定义 340
16.4.5 保存数据的函数 342
16.4.6 数据存储和检查 343
第17章 分析产品评论里的情绪 345
17.1 介绍 345
17.2 采集数据 345
17.2.1 下载文件 346
17.2.2 信息提取 349
17.2.3 数据库存储 351
17.3 分析数据 353
17.3.1 数据预处理 353
17.3.2 基于字典的情绪分析 354
17.3.3 挖掘评论的内容 358
17.4 结论 359
参考文献 360
- 《程序逻辑及C语言编程》卢卫中,杨丽芳主编 2019
- 《幼儿园课程资源丛书 幼儿园语言教育资源》周兢编 2015
- 《高等学校“十三五”规划教材 C语言程序设计》翟玉峰责任编辑;(中国)李聪,曾志华,江伟 2019
- 《潜文本的阐释与翻译》刘早著 2019
- 《音乐语言的根基》张艺编著 2019
- 《认知语言学视野的抽象方位结构研究》曹爽著 2019
- 《激活语言思维》李蒨,王宏年,汤青编著 2017
- 《汉语言文学本科专业核心课程研究导引教材 古代汉语》马蓝婕责任编辑;(中国)魏宜辉 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《英语教师语言意识研究》秦莉,赵春贺著 2019
- 《书情书》(德)布克哈德·施皮南(Burkhard Spinnen)著;(德)琳娜·霍文 2019
- 《便便来了 你的肠子在说啥?》梅红责任编辑;周月译;(德国)阿德里安·舒尔特 2019
- 《本雅明档案》德国瓦尔特·本雅明档案馆编 2018
- 《美国的伤痕 独立战争与美国政治的暴力基因》(德)霍尔格·霍克(Holger Hoock)著 2019
- 《冯内古特 最后的访谈 5》李爽译;(美)库尔特·冯内古特 2019
- 《文明的衰落与复兴》张娜责编;陈维政总主编;孙林译者;(德)阿尔伯特·史怀哲 2019
- 《厄特克尔家族》(德)鲁迪格·杨布鲁特著 2018
- 《搏击俱乐部》千之贺译;(美国)查克·帕拉尼克,卡梅隆·斯图尔特 2019
- 《弗里德里希·李斯特传》朱希滨责编;贾根良,梅俊杰总主编;梅俊杰译者;(德)欧根·文得乐 2019
- 《弗利克家族》(德)托马斯·拉姆什著 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019