第一章 绪论 1
第一节 研究背景和研究意义 1
一 自然语言处理 1
二 文本情感分析 3
第二节 文本情感分析整体研究现状 4
一 语料阶段 5
二 文本的预处理阶段 6
三 特征标注与特征选择阶段 7
四 情感分类阶段 9
五 中文文本情感分析亟待解决的问题 10
第三节 研究内容与结构 11
一 研究内容 11
二 研究结构 13
本章小结 13
第二章 情感语义块特征 14
第一节 研究现状 14
第二节 情感特征的定义 15
一 特征项的选择与权重 16
二 语义块特征无监督提取 21
三 情感语义块特征的生成 29
第三节 情感特征采集系统 34
一 情感特征的自动标注 37
二 情感特征的人工标注 39
本章小结 42
第三章 网络挖掘的数据获取 43
第一节 万维网介绍 44
一 万维网的发展 44
二 因特网的历史 45
第二节 网络挖掘 49
一 网络数据挖掘特点 49
二 网络挖掘步骤 50
三 网络数据挖掘的内容 52
本章小结 56
第四章 中文分词 57
第一节 自然语言处理 57
一 自然语言处理技术 57
二 无监督分词研究 64
第二节 中文分词的前沿性及创新性 68
一 国内外当前水平 68
二 分词的前沿性 71
三 分词的创新性 72
本章小结 73
第五章 算法准备 74
第一节 机器学习概述 75
第二节 文本特征选择方法 77
一 过滤器方法 78
二 包装器方法 81
三 文本学习方法 82
第三节 文本分类器核心算法 83
一 相关定义 84
二 最优基于概率网络的文本分类器 88
三 线性决策函数及决策超平面 102
四 均方错误估计 110
五 随机近似和LMS算法 112
六 错误平方和估计 114
七 最优分类器的输出——偏差和方差的困境 115
本章小结 119
第六章 基于遗传算法的情感特征选择 120
第一节 特征选择相关工作 121
一 特征选择 121
二 特征选择方法 124
第二节 情感特征选择的算法设计 127
一 情感特征编码 129
二 群体设置 130
三 个体适应度函数 131
四 遗传算子 131
第三节 改进的K-均值聚类及实验结果 133
一 改进K-均值聚类 133
二 特征选择的实验结果 135
三 公开语料上的实验对比 139
本章小结 142
第七章 基于局部高频字串的语句条件随机场模型 143
第一节 句法分析 143
一 句法分析研究 144
二 依存句法分析 145
三 依存关系与汉语依存语法 148
四 基于规则的依存信息抽取 150
五 句法研究代码实现与分析 153
第二节 采用CRF进行句法级别情感分析过程 181
一 语句中的局部高频字串 181
二 对语句信息进行CRF模型情感分析 182
三 HMM模型 187
第三节 实验结果及分析 189
一 实验研究资源 189
二 实验结果评价 189
三 CRF模型与HMM、MEMM、SVM模型的对比 190
四 实验结果与前人代表性的算法比较 193
五 局部高频字串对情感分类的影响 194
六 局部高频字串特征对不同评论数据的影响 195
本章小结 198
第八章 基于集成情感成员模型的文本情感分析方法 199
第一节 自动分类问题 199
一 贝叶斯算法 200
二 K-近邻 201
三 人工神经网络 201
四 决策树 202
第二节 集成学习 203
第三节 成员模型1:基于神经网络和进化论算法的个体模型 206
一 人类情感判断过程分析 208
二 文本情感分析过程的计算机模拟 208
三 个体模型的定义 210
四 个体模型的建模 212
五 构建针对文本情感分类的神经网络模型 215
六 判断结果汇总 225
七 个体模型的进化 227
第四节 其他成员模型 228
一 成员模型2:基于语义块获得情感特征集的个体模型 228
二 成员模型3:基于条件随机场模型 229
三 成员模型的集成 231
第五节 实验技术方案搭建 232
一 服务器LINUX平台 233
二 J2EE架构 236
三 服务器集群的配置 238
四 jfreechart实验结果可视化 242
五 服务器集群测试环境实现 244
第六节 实验结果及分析 247
一 英文影评语料实验研究 247
二 中文影评语料实验研究 252
三 中文同领域和跨领域情感语料对比实验研究 255
本章小结 257
第九章 结论与展望 259
第一节 工作研究现状 259
第二节 工作总结与未来工作展望 262
一 工作总结 262
二 无监督学习算法的研究意义 265
本章小结 272
参考文献 273
后记 288