第1章 网络舆情与舆情分析概述 1
1.1舆情与网络舆情的基本概念 1
1.1.1舆情的起源及定义 1
1.1.2网络舆情 2
1.2网络舆情的特征及表现形式 2
1.3网络舆情分析技术 3
1.3.1网络舆情分析的研究热点 3
1.3.2网络舆情分析的步骤 7
1.3.3网络舆情分析的常用技术 9
第2章 R语言基础 14
2.1 R语言简介 14
2.1.1 R语言的起源、特点及安装 14
2.1.2 R语言的基本操作 15
2.1.3 R语言的常用命令 17
2.1.4包的安装与加载 18
2.2数据操作 19
2.2.1基本数据类型 19
2.2.2数据结构 22
2.2.3数据读写 25
2.2.4数据的描述性统计 28
2.3 R语言语法 29
2.3.1分支结构 29
2.3.2循环结构 31
2.3.3 R语言函数 33
2.3.4 apply函数族 34
2.4 R语言绘图 37
2.4.1条形图 38
2.4.2饼图 40
2.4.3直方图 41
2.4.4散点图 42
第3章 网络舆情信息采集及R爬虫的实现 45
3.1网络舆情信息采集的基本原理 45
3.1.1网络爬虫及其主要类型 45
3.1.2爬虫的工作流程 48
3.2免费的网络舆情采集利器——八爪鱼数据采集器 48
3.2.1简介 49
3.2.2下载、安装、启动与注册账号 49
3.2.3八爪鱼采集器的使用 50
3.3基于R语言的信息采集爬虫的开发 53
3.3.1 HTTP 54
3.3.2 RCurl包 57
3.3.3 XML包 59
3.3.4基于RCurl包与XML包的爬虫示例 61
第4章 基于R语言的舆情信息预处理 65
4.1分词处理 65
4.1.1分词的基本原理 65
4.1.2使用Rwordseg包进行分词 68
4.1.3使用jiebaR包进行分词 74
4.2去停用词 80
4.2.1什么是停用词 80
4.2.2 R语言中去停用词的方法 80
4.3词频统计 83
4.3.1词频统计常用函数 83
4.3.2词云可视化 84
4.4文本向量化 86
4.4.1语料库与文本向量空间 86
4.4.2 R语言中语料库的构建 87
4.4.3 R语言中文本向量的构建——文档词条矩阵 88
第5章 基于R语言的网络舆情分类 89
5.1分类的定义及其基本原理 89
5.1.1分类的定义 89
5.1.2分类的基本原理 89
5.2经典的分类算法——决策树算法 90
5.2.1什么是决策树 90
5.2.2决策树算法的基本思想 91
5.3分类算法在舆情分析中的应用 98
5.3.1网络舆情分类的基本原理 98
5.3.2网络舆情分类的常用算法及其R语言实现 99
5.4基于R语言的网络舆情分类示例——微信公众号文章分类 104
5.4.1问题描述 104
5.4.2数据采集 104
5.4.3微信公众号文章分类的R语言实现 106
第6章 基于R语言的网络舆情热点话题聚类 108
6.1聚类的定义及其基本原理 108
6.1.1聚类的定义 108
6.1.2聚类的基本原理 109
6.2经典的聚类算法 111
6.2.1 K-Means聚类 111
6.2.2层次聚类 113
6.3聚类算法在舆情分析中的应用及其R语言实现 115
6.4基于R语言的网络舆情聚类分析示例——电商顾客评论热点话题聚类 116
6.4.1问题描述 116
6.4.2数据采集 117
6.4.3电商商品评论聚类分析的R语言实现 118
第7章 基于R语言的网络舆情关联规则挖掘 125
7.1关联规则挖掘的定义及其基本原理 125
7.1.1什么是关联规则挖掘 125
7.1.2关联规则挖掘的基本原理 126
7.2常用的关联规则挖掘算法 127
7.2.1 Apriori算法 127
7.2.2 Eclat算法 128
7.3关联规则挖掘在舆情分析中的应用及其R语言实现 130
7.4基于R语言的网络舆情关联分析示例——雾霾舆情热点词关联模式挖掘 134
7.4.1问题描述 134
7.4.2数据采集 135
7.4.3雾霾舆情热点词关联模式挖掘的R语言实现 135
第8章 基于R语言与BP神经网络的网络舆情分析 138
8.1 BP神经网络概述 138
8.1.1什么是人工神经网络 138
8.1.2什么是BP神经网络 139
8.2 BP神经网络的算法原理 140
8.2.1 BP神经网络的算法流程 140
8.2.2数据的归一化处理 142
8.3 BP神经网络在舆情分析中的应用及其R语言实现 143
8.4基于R语言与神经网络的舆情分析示例——微博转发数与评论数预测 144
8.4.1问题描述 144
8.4.2数据采集 145
8.4.3基于R语言与神经网络的微博转发数与评论数预测的实现 145
参考文献 150