第一章 导论 1
第一节 观点挖掘:研究的兴起 1
第二节 从小数据到大数据:观点挖掘所面临的挑战 4
第三节 大数据环境下的规模跨度问题 6
一 潜在语义索引方法 6
二 佩奇排名方法 7
三 映射/规约架构 8
四 SQL与Hadoop相结合的方法 9
第四节 大数据环境下的领域跨度问题 10
一 共同特征选择 10
二 目标领域文档选择 11
三 查询词扩充 11
四 迁移学习 12
第五节 大数据环境下的语言跨度问题 13
一 多语词典构建 14
二 语料库对齐 15
三 用户反馈和用户行为 16
四 领域知识库对齐 17
第六节 本章结语 18
第二章 大数据环境下的观点挖掘研究方法 19
第一节 观点挖掘的形式化定义与研究思路 19
第二节 多领域多语言网络评论的下载 22
第三节 评论的过滤与分类 23
第四节 产品名称和产品属性识别 25
一 关联规则法 25
二 点互信息法 26
三 概率潜在语义分析法 27
四 潜在狄利克雷分布法 27
五 相关主题模型法 28
六 最大熵原理法 29
第五节 观点极性判断 30
一 基于WordNet的方法 31
二 基于连接词的方法 32
三 基于点互信息的方法 32
四 松弛标记法 33
五 条件随机场法 34
第六节 领域跨度下的观点挖掘 35
第七节 语言跨度下的观点挖掘 37
第八节 规模跨度下的观点挖掘 38
第九节 观点摘要、主题分析与可视化展示 41
第十节 本章结语 42
第三章 虚假评论识别 44
第一节 虚假评论识别的意义 44
第二节 虚假评论识别的相关研究 47
第三节 虚假评论识别的行为指标体系 51
一 评论个人行为的指标体系 52
二 评论者群体行为的指标体系 54
三 商家行为的指标体系 55
第四节 虚假评论识别的主体关系建模 56
一 商户—个人(M-U)关系模型 57
二 个人—群体(U-G)关系模型 58
三 群体—商家(G-M)关系模型 58
四 虚假度迭代流程 59
第五节 虚假评论识别的实证研究 60
一 实验数据 60
二 参数确定及有效性评估 60
三 实验分析 64
四 与其他方法的对比分析 66
第六节 本章结语 66
第四章 产品名称识别 68
第一节 产品名称识别的问题描述 68
第二节 基于最大熵模型的产品名称识别 73
一 最大熵模型的理论基础 73
二 最大熵模型的参数估计算法 74
三 实验数据准备 75
四 最大熵模型的特征构建 76
五 最大熵模型的特征模板 77
六 特征生成 80
七 训练与测试 80
八 实验结果与分析 81
第三节 基于条件随机场模型的产品名称识别 84
一 利用条件随机场模型为产品名称识别问题建模 84
二 参数估计 85
三 模型求解 86
四 软件工具的选择 87
五 语料库构建 87
六 选取特征与特征模板 88
七 模型训练与测试 88
八 模板对产品名称识别效果的分析 90
九 语料库对产品名称识别效果的分析 94
十 与其他模型的识别效果比较 96
第四节 本章结语 97
第五章 产品属性识别 98
第一节 产品属性识别的问题描述 98
第二节 基于自组织映射的产品属性识别 100
一 自组织映射的原理 100
二 自定义的属性叠加矩阵及其原理 101
三 基于属性叠加矩阵的产品属性识别 102
四 网络数据收集 103
五 分词与词性标注 104
六 SOM输入矩阵的构造 104
七 SOM训练 105
八 SOM的输出分析 105
第三节 基于LDA模型的产品属性识别 109
一 LDA模型的原理 111
二 基于LDA模型的评论热点识别 112
三 数据预处理 113
四 输入向量的构造 113
五 模型求解 114
六 实验结果与分析 115
第四节 基于SVM模型的产品属性分类 119
一 支持向量机的原理 119
二 基于支持向量机的产品属性识别 121
三 网络数据收集 122
四 分词与词性标注 122
五 主观性标注与产品属性标注 123
六 输入矩阵的构建 124
七 模型的训练 125
八 实验结果及评价 128
第五节 本章结语 129
第六章 观点的情感分析 131
第一节 观点极性分析的问题描述 132
一 特征选择及特征权重的研究 132
二 基于统计与基于规则的情感分类方法 134
第二节 基于改进的TF-IDF权重算法的情感分类 136
一 特征选择方法 136
二 数据集 137
三 评价标准 137
四 数据预处理 138
五 使用支持向量机的情感分类结果 138
第三节 基于情感词典和规则的情感分类 143
一 情感类别 143
二 情感辞典的构建 143
三 分类规则 144
四 使用规则组合的情感分类实验 146
第四节 本章结语 152
第七章 观点挖掘的领域适配 154
第一节 相关研究 155
一 跨领域情感分析 156
二 循环神经网络 158
第二节 研究问题与方法 160
一 研究问题的形式化定义 160
二 CD-DRNN模型结构 160
三 对比方法 163
第三节 试验及分析 168
一 数据集 168
二 实验结果 169
三 讨论 176
第四节 本章结语 177
第八章 观点挖掘的语言适配 179
第一节 研究现状 181
一 基于机器翻译的方法 181
二 基于特征概率分布的方法 182
三 基于平行语料的方法 183
四 基于深度学习的方法 183
第二节 研究问题、模型与方法 185
一 研究问题及相关定义 185
二 先验特征的获取 186
三 模型结构 188
四 模型训练方式 190
第三节 实验及分析 193
一 数据集 193
二 比较方法 193
三 参数设置 195
四 实验结果 197
第四节 本章结语 200
第九章 观点挖掘的规模适配 201
第一节 规模适配问题的提出 201
第二节 规模适配平台 204
一 Hadoop平台 204
二 Spark平台 207
第三节 规模适配算法 209
一 并行决策树算法 209
二 并行逻辑回归算法 210
三 并行朴素叶斯算法 211
四 并行随机森林算法 212
五 并行支持向量机算法 214
第四节 实验及分析 215
一 数据集与实验环境设置 215
二 评价指标 216
三 实验结果 217
四 讨论 222
第五节 本章结语 223
第十章 观点摘要 225
第一节 信息抽取方法 226
一 图模型方法 226
二 篇章分析方法 227
三 结构模板方法 228
第二节 主题与语义分析方法 229
第三节 统计机器学习方法 231
第四节 深度学习用于观点摘要 233
一 序列到序列神经网络模型 234
二 注意力机制 236
三 先验知识 237
四 语义相关性 238
第五节 本章结语 239
第十一章 观点主题分析 240
第一节 研究问题 240
第二节 相关研究 241
一 微博主题分析 241
二 微博时序分析 242
三 微博可视化分析 244
第三节 主题演化模式和时序趋势的方法设计 246
第四节 实验过程与结果分析 248
一 数据描述和预处理 248
二 英文埃博拉微博的主题分析 248
三 中文埃博拉微博的主题分析 253
第五节 本章结语 259
第十二章 总结与展望 260
参考文献 263