绪论 1
第1章 信息分析方法概述 3
1.1 定性分析与定量分析 3
1.1.1 定性研究方法 3
1.1.2 定量研究方法 4
1.1.3 定性与定量相结合 5
1.2 常用信息分析方法 5
1.3 文本挖掘方法 10
1.3.1 文本挖掘的一般过程 11
1.3.2 人文社科研究中的应用 13
1.3.3 常用的文本挖掘工具 14
1.3.4 文本挖掘方法的局限性 17
1.4 大数据时代的信息分析 18
1.4.1 大数据及其特点 18
1.4.2 大数据信息分析 18
1.4.3 大数据分析技术 19
1.4.4 大数据分析应用 20
第2章 基于文本特征计算的信息分析框架 23
2.1 何谓文本特征 23
2.2 基于文本特征的信息分析 25
2.2.1 无特征词表的文本信息分析 25
2.2.2 主题词表作为特征词的文本信息分析 26
2.2.3 标签作为特征词的文本信息分析 30
2.3 文本特征计算与文本挖掘 31
2.4 基于文本特征计算的信息分析特点 32
2.5 基于文本特征计算的信息分析过程 33
第3章 确认问题及设计方案 35
3.1 问题的准确描述 35
3.2 明确文本信息分析需求 36
3.3 选取信息分析的文本对象 37
3.4 设计文本特征的分析框架 38
3.5 形成并确认信息分析方案 38
第4章 文本数据的获取 39
4.1 文本数据类型 39
4.2 基于互联网的数字化文本 39
4.2.1 网络信息资源 40
4.2.2 网络信息资源的分类 41
4.2.3 网络中的数字化文本 43
4.3 Web文本采集策略 44
4.3.1 确定采集范围 44
4.3.2 选择采集方式 45
4.3.3 常用采集技术 46
4.3.4 采集的防屏蔽策略 49
4.3.5 网页采集去重策略 50
4.4 Web采集架构及常用工具 51
4.5 互联网信息采集实例 55
第5章 文本特征的选取 58
5.1 网络文本预处理 58
5.1.1 网页正文抽取 58
5.1.2 中文分词 60
5.1.3 词性标注 64
5.1.4 停用词过滤 66
5.2 特征词提取 73
5.2.1 基于主题词表的特征词提取 74
5.2.2 基于德尔菲法的特征词提取 75
5.2.3 基于词频统计的特征词提取 76
5.2.4 基于文档频度DF的特征词提取 77
5.2.5 基于TF-IDF方法的特征词提取 78
5.2.6 基于信息增益IG的特征词提取 79
5.2.7 基于互信息MI的特征词提取 80
5.2.8 基于λ2统计量的特征词提取 81
5.2.9 其他自动提取方法及其比较 82
5.3 影响特征词权重的因素分析 84
5.4 计算特征的选择与词表构建 85
第6章 文本特征计算及分析 87
6.1 词频统计与分析 87
6.1.1 相关探讨 87
6.1.2 基于网络新闻的词频分析实例 89
6.1.3 基于微博文本的词频分析实例 92
6.1.4 基于多源文本的词频分析实例 94
6.2 时空间分布分析 96
6.2.1 相关探讨 96
6.2.2 基于时间分布的分析实例 97
6.2.3 基于空间分布的分析实例 98
6.3 共现分析 100
6.3.1 相关探讨 100
6.3.2 基于论文题录信息共现的分析实例 102
6.3.3 基于游记内容景区共现的分析实例 105
6.4 文本分类 111
6.4.1 相关探讨 111
6.4.2 常见的分类算法 113
6.4.3 上海世博会网络信息多维分类实例 116
6.5 文本聚类 119
6.5.1 相关探讨 119
6.5.2 常见的聚类算法 121
6.5.3 文本聚类用于舆情热点发现的实例 125
6.5.4 基于文本聚类的热点事件演变实例 128
6.6 特征关联分析 132
6.6.1 相关探讨 132
6.6.2 关联规则算法在文本分析中的改进 133
6.6.3 上海世博会场馆与赞助商的关联分析实例 135
6.6.4 基于两类Web文本的关联与交叉分析 140
6.7 社会网络分析 146
6.7.1 相关探讨 146
6.7.2 常用的软件工具 147
6.7.3 基于文献题录信息的社会网络分析 148
6.7.4 基于网页链接关系的社会网络分析 151
6.7.5 基于网页内容特征的社会网络分析 156
6.8 文本倾向性分析 158
6.8.1 情感分析相关研究 158
6.8.2 文本倾向性分析研究 162
6.8.3 一种文本倾向性分析方法 163
6.8.4 基于上述方法的实例分析 168
6.9 其他技术的应用概述 172
6.9.1 信息抽取及应用 172
6.9.2 可视化技术应用 174
6.9.3 本体技术的应用 176
第7章 基于WordScore的区域合作交流政策价值评价 178
7.1 政策价值与政策价值评价 178
7.1.1 政策价值 178
7.1.2 政策价值评价模型与方法 178
7.1.3 WordScore政策文本分析方法 179
7.2 国内外区域合作交流政策研究 180
7.3 区域合作交流政策价值评价模型构建 181
7.3.1 区域合作交流政策价值分类体系 181
7.3.2 区域合作交流政策价值模型构建 182
7.4 沪浙两地十二五期间区域合作交流政策的比较 184
7.5 篇章分析领域应用的探讨 185
7.5.1 政策倾向性权值设定问题 185
7.5.2 政策价值性的进一步解读 190
7.5.3 政治法律领域的文本分析 191
第8章 基于文本特征分析的古镇旅游形象感知研究 193
8.1 游客感知研究综述 193
8.2 研究对象与数据采集 196
8.3 朱家角的游客感知形象分析 197
8.3.1 高频词分析 197
8.3.2 不同类型的感知形象分析 198
8.3.3 感知形象的长尾现象分析 199
8.4 结论与讨论 201
第9章 基于网络搜索数据的金融危机传导实证分析 202
9.1 网络搜索的相关研究 202
9.2 一个事件分析的框架 203
9.3 金融危机事件静态词表的构建 204
9.3.1 事件信息表征的分类 204
9.3.2 初始样本数据的选取 205
9.3.3 采集策略与采集结果 205
9.3.4 样本数据的处理 206
9.3.5 分类词表的构建 209
9.4 基于搜索数据的动态演化分析 210
9.4.1 基于词表的搜索数据采集与整理 210
9.4.2 基于时间维度的事件动态演化分析 210
9.4.3 基于空间维度的事件动态演化分析 213
9.5 金融危机事件的传导实证分析 214
9.5.1 金融危机网络搜索的中美整体数据相关性分析 215
9.5.2 金融危机爆发前后的中美搜索数据相关性分析 216
9.5.3 表征金融危机三个类别搜索数据的相关性分析 216
9.6 基于网络搜索数据的金融危机传导应对策略 217
附录 218
参考文献 220
后记 236