当前位置:首页 > 工业技术
基于R语言的自动数据收集  网络抓取和文本挖掘实用指南
基于R语言的自动数据收集  网络抓取和文本挖掘实用指南

基于R语言的自动数据收集 网络抓取和文本挖掘实用指南PDF电子书下载

工业技术

  • 电子书积分:13 积分如何计算积分?
  • 作 者:(德)西蒙·蒙策尔特(Simon Munzert)著
  • 出 版 社:北京:机械工业出版社
  • 出版年份:2016
  • ISBN:9787111527503
  • 页数:366 页
图书介绍:本书共17章。第1章是概述,阐述数据挖掘的意义与实际应用。第2~8章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如HTTP、HTML、XML、JSON、AJAX、SQL等),并讲解用于查询网络文档和数据集的基本技术(XPath和正则表达式)。第9~11章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第9章讲解多种网络抓取技术,涉及正则表达式的使用、XPath、各类API接口、其他数据类型以及开源社区相关的技术;第10章深入介绍用于统计性文本处理的技术;第11章给出关于用R管理数据的项目中常见问题的一些见解。第12~17章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用Twitter预测2014年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工作流程、真实环境数据中的陷阱以及规避它们的方法等问题提供一些实用的见解。
《基于R语言的自动数据收集 网络抓取和文本挖掘实用指南》目录

第1章 概述 1

1.1 案例研究:濒危世界遗产地 1

1.2 有关网络数据质量的一些讨论 6

1.3 传播、提取和保存网络数据的技术 8

1.3.1 在网络上传播内容的技术 8

1.3.2 从Web文档中提取信息的技术 9

1.3.3 数据保存的技术 10

1.4 本书的结构 11

第一部分 网络和数据技术入门 14

第2章 HTML 14

2.1 浏览器显示及源代码 14

2.2 语法规则 16

2.2.1 标签、元素和属性 16

2.2.2 树形结构 17

2.2.3 注释 18

2.2.4 保留字符和特殊字符 18

2.2.5 文档类型定义 19

2.2.6 空格和换行 19

2.3 标签和属性 19

2.3.1 锚标签<a> 20

2.3.2 元数据标签<meta> 20

2.3.3 外部引用标签<link> 21

2.3.4 强调标签<b>、<i>和<strong> 21

2.3.5 段落标签<P> 22

2.3.6 标题标签<h1>、<h2>、<h3>等 22

2.3.7 通过<u1>、<o1>和<d1>列举内容 22

2.3.8 组织型标签<div>和<span> 22

2.3.9 <form>标签及其同伴 23

2.3.10 外部脚本标签<script> 25

2.3.11 表格标签<table>、<tr>、<td>和<th> 26

2.4 解析 26

2.4.1 解析简介 27

2.4.2 丢弃节点 28

2.4.3 在创建过程中提取信息 30

小结 31

延伸阅读 31

习题 32

第3章 XML和JSON 34

3.1 XML文档示例 34

3.2 XML语法规则 36

3.2.1 元素和属性 36

3.2.2 XML结构 38

3.2.3 命名及特殊字符 39

3.2.4 注释及字符数据 40

3.2.5 XML语法总结 41

3.3 结构良好或合法的XML文档的条件 41

3.4 XML扩展与技术 43

3.4.1 命名空间 43

3.4.2 XML的扩展 44

3.4.3 示例:RSS 45

3.4.4 示例:可缩放矢量图 48

3.5 XML和R的实践 49

3.5.1 解析XML 50

3.5.2 对XML文档的基本操作 51

3.5.3 从XML获取数据框或列表 53

3.5.4 事件驱动的解析 54

3.6 JSON文档示例 56

3.7 JSON语法规则 57

3.8 JSON和R的实践 59

小结 63

延伸阅读 63

习题 63

第4章 XPath 65

4.1 XPath:一种网页查询语言 65

4.2 用XPath确定节点集 66

4.2.1 XPath查询的基本结构 66

4.2.2 节点关系 69

4.2.3 XPath谓语 71

4.3 提取节点元素 76

4.3.1 扩展fun参数 77

4.3.2 XML命名空间 79

4.3.3 XPath的辅助性小工具 80

小结 81

延伸阅读 81

习题 81

第5章 HTTP 83

5.1 HTTP基础知识 84

5.1.1 和Web服务器的简短对话 84

5.1.2 URL的语法 86

5.1.3 HTTP消息 88

5.1.4 请求方法 89

5.1.5 状态码 89

5.1.6 标头字段 90

5.2 HTTP的高级特性 95

5.2.1 身份识别 96

5.2.2 身份验证 99

5.2.3 代理 101

5.3 HTTP之外的协议 102

5.3.1 HTTP安全协议 102

5.3.2 FTP 104

5.4 HTTP实战 104

5.4.1 libcurl库 105

5.4.2 基本请求方法 105

5.4.3 RCurl的底层函数 108

5.4.4 在多个请求里保持连接 109

5.4.5 选项 110

5.4.6 调试 114

5.4.7 错误处理 117

5.4.8 用RCurl还是httr呢 118

小结 118

延伸阅读 119

习题 120

第6章 AJAX 122

6.1 JavaScript 123

6.1.1 JavaScript的使用方式 123

6.1.2 DOM操作 123

6.2 XHR 126

6.2.1 加载外部HTML/XML文档 127

6.2.2 加载JSON 128

6.3 利用Web开发者工具探索AJAX 130

6.3.1 初试Chrome的Web开发者工具 130

6.3.2 元素面板 130

6.3.3 网络面板 131

小结 132

延伸阅读 133

习题 133

第7章 SQL和关系型数据库 134

7.1 概况及术语 135

7.2 关系型数据库 137

7.2.1 在表中保存数据 137

7.2.2 规范化 139

7.2.3 关系型数据库和DBMS的高级特性 142

7.3 SQL:一种与数据库通信的语言 143

7.3.1 SQL概述 143

7.3.2 数据控制语言——DCL 145

7.3.3 数据定义语言——DDL 145

7.3.4 数据操作语言——DML 147

7.3.5 子句 151

7.3.6 事务控制语言——TCL 153

7.4 数据库实战 154

7.4.1 管理数据库的R组件 154

7.4.2 通过基于DBI的组件在R里执行SQL 154

7.4.3 通过RODBC在R里执行SQL 156

小结 157

延伸阅读 158

习题 158

第8章 正则表达式和基本字符串函数 160

8.1 正则表达式 161

8.1.1 严格的字符匹配 161

8.1.2 正则表达式的广义化 163

8.1.3 重新分析入门例子 168

8.2 字符串处理 169

8.2.1 stringr组件 169

8.2.2 其他实用函数 173

8.3 字符编码简介 175

小结 177

延伸阅读 177

习题 178

第二部分 网络抓取和文本挖掘实用工具箱 180

第9章 网络抓取 180

9.1 数据检索的场景 181

9.1.1 下载现成的文件 181

9.1.2 从FTP索引下载多个文件 184

9.1.3 操作URL访问多个页面 186

9.1.4 从HTML网页采集链接、列表和表格的便利函数 189

9.1.5 处理HTML表单 191

9.1.6 HTTP身份验证 200

9.1.7 通过HTTPS进行的连接 201

9.1.8 使用cookie 202

9.1.9 利用Selenium/Rwebdriver从AJAX增强的网页抓取数据 205

9.1.10 从API检索数据 211

9.1.11 用OAuth进行身份验证 218

9.2 数据提取策略 221

9.2.1 正则表达式 221

9.2.2 XPath 224

9.2.3 应用编程接口 225

9.3 网络抓取:良好实践 227

9.3.1 网络抓取是否合法 227

9.3.2 robots.txt简介 229

9.3.3 做个友好的(机器)人 232

9.4 有价值的灵感来源 238

小结 239

延伸阅读 240

习题 240

第10章 统计性文本处理 242

10.1 实例:对英国政府的新闻公告进行分类 243

10.2 处理文本数据 244

10.2.1 大规模文本操作:tm组件 244

10.2.2 构建一个词条-文档矩阵 248

10.2.3 数据清理 250

10.2.4 稀疏度和n元文法 251

10.3 有监督的学习技术 252

10.3.1 支持向量机 253

10.3.2 随机森林 254

10.3.3 最大熵 254

10.3.4 RTextTools组件 254

10.3.5 应用:政府新闻公告 254

10.4 无监督的学习技术 257

10.4.1 隐含狄式分布及相关主题模型 258

10.4.2 应用:政府新闻公告 258

小结 263

延伸阅读 263

第11章 管理数据项目 265

11.1 与文件系统交互 265

11.2 处理多个文档或链接 266

11.2.1 使用for循环 266

11.2.2 使用while循环和控制结构 268

11.2.3 使用plyr组件 269

11.3 组织抓取程序 270

11.3.1 进度反馈的实现:消息和进度条 272

11.3.2 错误和异常处理 274

11.4 定期执行R脚本 275

11.4.1 在Mac OS和Linux上安排定时任务 276

11.4.2 在Windows平台上安排定时任务 278

第三部分 一组案例分析 283

第12章 美国参议院里的合作网络 283

12.1 有关法案的信息 283

12.2 有关参议员的信息 289

12.3 分析网络结构 291

12.3.1 描述性统计 292

12.3.2 网络分析 294

12.4 结论 295

第13章 从半结构化文档解析信息 297

13.1 从FTP服务器下载数据 297

13.2 解析半结构化文本数据 299

13.3 把气象站和气温数据视觉化 304

第14章 利用Twitter预测2014年奥斯卡奖 307

14.1 Twitter API概述 307

14.1.1 REST API 307

14.1.2 数据流API 308

14.1.3 采集并预处理数据 309

14.2 基于Twitter的2014年奥斯卡奖预测 309

14.2.1 对数据进行视觉化 309

14.2.2 挖掘推文进行预测 311

14.3 结论 313

第15章 绘制姓氏地理分布图 314

15.1 制定一套数据采集策略 314

15.2 查看网站 315

15.3 数据检索和信息提取 317

15.4 映射姓氏 319

15.5 处理过程自动化 321

小结 326

第16章 采集关于手机的数据 328

16.1 页面探索 328

16.1.1 查找指定品牌的手机 328

16.1.2 提取产品信息 331

16.2 抓取程序 335

16.2.1 提取有关多个生产商的数据 335

16.2.2 数据清理 336

16.3 图形分析 336

16.4 数据存储 337

16.4.1 总体思路 337

16.4.2 用于存储的表的定义 338

16.4.3 考虑未来存储的数据表定义 340

16.4.4 方便数据访问的视图定义 340

16.4.5 保存数据的函数 342

16.4.6 数据存储和检查 343

第17章 分析产品评论里的情绪 345

17.1 介绍 345

17.2 采集数据 345

17.2.1 下载文件 346

17.2.2 信息提取 349

17.2.3 数据库存储 351

17.3 分析数据 353

17.3.1 数据预处理 353

17.3.2 基于字典的情绪分析 354

17.3.3 挖掘评论的内容 358

17.4 结论 359

参考文献 360

相关图书
作者其它书籍
返回顶部