《文本情感分析关键技术研究》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:朱俭著
  • 出 版 社:北京:中国社会科学出版社
  • 出版年份:2015
  • ISBN:9787516159965
  • 页数:289 页
图书介绍:在Web2.0时代里,互联网上存在着大量可作为情感语料数据原型的评论,如何高效精确的获取基于这些语料的情感信息,并依此进行相关研究成为当前信息科学与技术领域面临的重大挑战。情感分析,又称意见挖掘(opinion mining),是用于分析人对特定对象及其相关属性的观点、态度以及其他主观感情的技术。本书在深入研究文本情感问题及现状的基础上,充分结合计算语言学、统计学、机器学习等相关理论及其方法,利用语义块、句子、文本等不同语言粒度进行文本情感倾向性建模、分析与研究,从而提出高效、精确的文本情感分类技术与方法。本书阐述的技术可广泛应用于推荐系统、社会舆情分析、产品在线跟踪和质量评价、影视评价、Blogger声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、敌对信息检测、企业情报系统等方面。

第一章 绪论 1

第一节 研究背景和研究意义 1

一 自然语言处理 1

二 文本情感分析 3

第二节 文本情感分析整体研究现状 4

一 语料阶段 5

二 文本的预处理阶段 6

三 特征标注与特征选择阶段 7

四 情感分类阶段 9

五 中文文本情感分析亟待解决的问题 10

第三节 研究内容与结构 11

一 研究内容 11

二 研究结构 13

本章小结 13

第二章 情感语义块特征 14

第一节 研究现状 14

第二节 情感特征的定义 15

一 特征项的选择与权重 16

二 语义块特征无监督提取 21

三 情感语义块特征的生成 29

第三节 情感特征采集系统 34

一 情感特征的自动标注 37

二 情感特征的人工标注 39

本章小结 42

第三章 网络挖掘的数据获取 43

第一节 万维网介绍 44

一 万维网的发展 44

二 因特网的历史 45

第二节 网络挖掘 49

一 网络数据挖掘特点 49

二 网络挖掘步骤 50

三 网络数据挖掘的内容 52

本章小结 56

第四章 中文分词 57

第一节 自然语言处理 57

一 自然语言处理技术 57

二 无监督分词研究 64

第二节 中文分词的前沿性及创新性 68

一 国内外当前水平 68

二 分词的前沿性 71

三 分词的创新性 72

本章小结 73

第五章 算法准备 74

第一节 机器学习概述 75

第二节 文本特征选择方法 77

一 过滤器方法 78

二 包装器方法 81

三 文本学习方法 82

第三节 文本分类器核心算法 83

一 相关定义 84

二 最优基于概率网络的文本分类器 88

三 线性决策函数及决策超平面 102

四 均方错误估计 110

五 随机近似和LMS算法 112

六 错误平方和估计 114

七 最优分类器的输出——偏差和方差的困境 115

本章小结 119

第六章 基于遗传算法的情感特征选择 120

第一节 特征选择相关工作 121

一 特征选择 121

二 特征选择方法 124

第二节 情感特征选择的算法设计 127

一 情感特征编码 129

二 群体设置 130

三 个体适应度函数 131

四 遗传算子 131

第三节 改进的K-均值聚类及实验结果 133

一 改进K-均值聚类 133

二 特征选择的实验结果 135

三 公开语料上的实验对比 139

本章小结 142

第七章 基于局部高频字串的语句条件随机场模型 143

第一节 句法分析 143

一 句法分析研究 144

二 依存句法分析 145

三 依存关系与汉语依存语法 148

四 基于规则的依存信息抽取 150

五 句法研究代码实现与分析 153

第二节 采用CRF进行句法级别情感分析过程 181

一 语句中的局部高频字串 181

二 对语句信息进行CRF模型情感分析 182

三 HMM模型 187

第三节 实验结果及分析 189

一 实验研究资源 189

二 实验结果评价 189

三 CRF模型与HMM、MEMM、SVM模型的对比 190

四 实验结果与前人代表性的算法比较 193

五 局部高频字串对情感分类的影响 194

六 局部高频字串特征对不同评论数据的影响 195

本章小结 198

第八章 基于集成情感成员模型的文本情感分析方法 199

第一节 自动分类问题 199

一 贝叶斯算法 200

二 K-近邻 201

三 人工神经网络 201

四 决策树 202

第二节 集成学习 203

第三节 成员模型1:基于神经网络和进化论算法的个体模型 206

一 人类情感判断过程分析 208

二 文本情感分析过程的计算机模拟 208

三 个体模型的定义 210

四 个体模型的建模 212

五 构建针对文本情感分类的神经网络模型 215

六 判断结果汇总 225

七 个体模型的进化 227

第四节 其他成员模型 228

一 成员模型2:基于语义块获得情感特征集的个体模型 228

二 成员模型3:基于条件随机场模型 229

三 成员模型的集成 231

第五节 实验技术方案搭建 232

一 服务器LINUX平台 233

二 J2EE架构 236

三 服务器集群的配置 238

四 jfreechart实验结果可视化 242

五 服务器集群测试环境实现 244

第六节 实验结果及分析 247

一 英文影评语料实验研究 247

二 中文影评语料实验研究 252

三 中文同领域和跨领域情感语料对比实验研究 255

本章小结 257

第九章 结论与展望 259

第一节 工作研究现状 259

第二节 工作总结与未来工作展望 262

一 工作总结 262

二 无监督学习算法的研究意义 265

本章小结 272

参考文献 273

后记 288