《基于机器学习算法的分类知识发现及其在文本分析中的应用》PDF下载

  • 购买积分:9 如何计算积分?
  • 作  者:祁瑞华著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2015
  • ISBN:9787302415763
  • 页数:178 页
图书介绍:本书重点论述的是机器学习领域发展最快的部分,也是对传统机器学习算法提出最重大挑战的部分,即机器学习算法在文本分析这一数据挖掘实践中的新应用新发展。随着人类活动的不断发展,各个领域产生了不断增加的大量文本数据。由于许多数据的数据量很大,而且数据的结构日趋复杂,传统的数据挖掘方法无法满足分析这些数据的需要,这就产生了大量的机器学习新型算法。本书分别论述了这些算法各自的优势和适用的领域。

第1章 概述 1

1.1 分类知识发现 1

1.1.1 知识发现的概念和过程 1

1.1.2 数据挖掘中的知识表示模式 4

1.1.3 分类知识发现主要算法 7

1.1.4 不完整数据分类知识发现 15

1.2 文本挖掘 17

1.3 本书内容组织 21

第2章 不完整数据分类算法研究 23

2.1 不完整数据分类知识发现 24

2.1.1 不完整数据的类型 24

2.1.2 不完整数据的处理 25

2.1.3 不完整数据分类算法 29

2.1.4 健壮贝叶斯分类 30

2.1.5 朴素信念分类 32

2.2 对现有方法的思考 34

2.2.1 朴素信念分类算法的权重假设简单 34

2.2.2 缺乏属性数据和类标记同时缺失情况下分类知识发现的研究 35

2.2.3 半监督算法的效率问题 35

2.3 不完整数据加权朴素信念分类算法 36

2.3.1 相关分析及相关系数 37

2.3.2 加权保守推理规则 39

2.3.3 加权朴素信念算法分类过程 41

2.4 标准数据集UCI上的对比实验 44

2.4.1 实验数据集及实验设计 44

2.4.2 实验结果分析 45

2.5 本章小结 48

第3章 两阶段半监督加权朴素信念分类算法研究 49

3.1 半监督分类知识发现研究现状 49

3.2 问题分析 52

3.2.1 未标记样本在分类学习中的作用 52

3.2.2 现有半监督分类方法分析 54

3.3 两阶段分类方法相关思路 57

3.3.1 基于规则模型的两阶段分类 58

3.3.2 两阶段半监督文本分类 59

3.4 两阶段半监督加权朴素信念分类 59

3.4.1 TSS-WNC分类主要过程 60

3.4.2 时间复杂度分析 63

3.5 在标准数据集UCI上的实验 64

3.5.1 分类对比实验 64

3.5.2 实验结果及分析 64

3.5 本章小结 65

第4章 放松区间优势的朴素信念分类算法研究 66

4.1 问题分析 66

4.2 区间优势比较 66

4.3 基于放松区间优势推理规则的不完整数据分类 73

4.3.1 放松的区间优势 73

4.3.2 放松的区间优势推理规则 74

4.3.3 基于放松区间优势推理规则的分类过程 78

4.4 在标准数据集UCI上的实验 78

4.4.1 RCIR-NCC分类对比实验 78

4.4.2 实验结果分析 82

4.5 本章小结 84

第5章 典籍英译文体风格识别研究 85

5.1 文体风格特征 85

5.2 文体风格识别算法 87

5.3 典籍英译文体风格向量空间模型 89

5.3.1 典籍英译语料特点 89

5.3.2 典籍英译多层面文体风格模型 90

5.4 文体风格特征选择 95

5.4.1 信息增益 95

5.4.2 x2统计量 97

5.4.3 典籍英译文体风格识别特征选择 97

5.5 特征数据项缺失文体识别实验 99

5.5.1 加权朴素信念文体风格识别实验 102

5.5.2 两阶段半监督文体风格识别实验 106

5.5.3 放松区间优势朴素信念文体风格识别实验 114

5.5.4 类别不平衡文体识别实验 116

5.6 本章小结 123

第6章 基于特征缺失补偿最大熵模型的文本分类 124

6.1 最大熵模型 124

6.2 基于Gaussian先验平滑特征补偿的最大熵模型 125

6.3 混合特征选择算法 126

6.4 基于特征缺失补偿最大熵模型的文本分类 127

6.5 本章小结 130

第7章 基于文本分析的网络舆情研究 131

7.1 基于微博客的网络舆情指标体系 131

7.1.1 网络舆情指标体系 132

7.1.2 基于微博客的网络舆情指标体系 136

7.1.3 微博客舆情预警对策 140

7.2 基于关键字的微博客舆情传播规律 141

7.2.1 网络舆情传播规律 141

7.2.2 微博客网络舆情传播规律和对策 143

7.3 基于关键字的网络舆情个案研究 144

7.3.1 个案研究环境及实验数据 144

7.3.2 大连地区抢盐潮个案分析 145

7.4 微博客舆情的跨语言特征 148

7.4.1 跨语言微博客特征表示 150

7.4.2 跨语言微博客舆情预警研究框架 153

7.5 网络文本情感倾向 154

7.5.1 网络文本情感分析粒度 154

7.5.2 网络文本情感分析基本问题 158

7.5.3 网络文本情感分析前沿问题 161

7.5.4 网络文本情感分析研究框架 162

7.6 本章小结 164

参考文献 165