《大数据搜索与挖掘》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:张华平,黄河燕,赵燕平著
  • 出 版 社:北京:科学出版社
  • 出版年份:2014
  • ISBN:9787030403186
  • 页数:292 页
图书介绍:本书主要以作者十余年在工业控制网搜索与挖掘领域所作的研究与应用工作为内容,全面介绍我们在工业控制网信息预处理、挖掘(包括:工业控制网络分析、新特征抽取、分类等)、搜索等方面的研究成果,并介绍在工业网,包括中国邮政、中国证监会、四维图新等单位的实际应用案例。专著突出自己的研究成果为主,理论与实践并重,强调技术工程实现与实际应用。

第1章 绪论 1

1.1大数据 4

1.2云计算及Hadoop简介 5

1.3 Web搜索、全文索引与Lucene简介 6

1.3.1 Web搜索 7

1.3.2全文索引 9

1.3.3 Lucene简介 11

1.4大数据挖掘 13

1.5本书主要内容及其知识点 14

1.6本章小结 16

参考文献 17

第2章 大数据搜索挖掘综述 18

2.1常用的信息检索模型 18

2.1.1传统布尔检索与扩展布尔检索模型 18

2.1.2向量空间模型 19

2.1.3概率检索模型 23

2.1.4语言模型 24

2.2自然语言理解与处理概述 26

2.3中文词法分析中的分词处理 28

2.3.1基于词典和规则的汉字分词 30

2.3.2基于大规模语料库的统计学习的分词方法 30

2.3.3规则和统计方法相结合的汉字分词方法 32

2.4未登录词及其识别 32

2.4.1命名实体及其识别 33

2.4.2未登录词与新词识别 34

2.5有意义串及其识别 36

2.6词典组织与管理 37

2.6.1基于Trie索引树的词典管理 37

2.6.2基于哈希表的词典管理 38

2.7文本分类 39

2.8文本聚类 41

2.8.1文本表示 41

2.8.2相似度度量 42

2.8.3聚类算法体系 43

2.9话题识别与跟踪 46

2.10句子及其检索 48

2.10.1传统的文档检索方法 48

2.10.2信息过滤方法 48

2.10.3分类方法 49

2.10.4语义比较方法 49

2.10.5隐马尔可夫模型方法 50

2.10.6自动文摘方法 51

2.11句子级新信息检测 52

2.11.1词重叠度 52

2.11.2最大区间相关度 52

2.11.3余弦冗余度 52

2.11.4命名实体触发方法 53

2.11.5统计机器翻译模型 53

2.11.6 LexRank方法 54

2.12本章小结 55

参考文献 56

第3章 大数据检索与分词 62

3.1概述 62

3.2分词对中文信息检索的影响 63

3.3分词精度与检索性能的关系 66

3.4大数据应用环境下中文信息检索的分词算法及其特点 70

3.4.1分词算法的时间性能要求高 70

3.4.2分词正确率的提高并不一定带来检索性能的提高 70

3.4.3分词切分粒度需在查询扩展层面进行相关处理 70

3.4.4未登录词识别的准确率要比召回率更重要 71

3.5基于双数组Trie树优化算法的词典 72

3.5.1双数组Trie树算法介绍及其优化 72

3.5.2利用优化的双数组Trie树算法组织词典 74

3.5.3实验结果与分析 76

3.6本章小结 77

参考文献 78

第4章 基于层次隐马尔可夫模型的浅层词法分析 80

4.1概述 80

4.2英文浅层分析的实现 81

4.2.1英文断句与词汇切分 81

4.2.2词性标注 82

4.2.3词干抽取与词形还原 83

4.3停用词处理与特征词选择 84

4.3.1停用词处理 84

4.3.2特征词选择 85

4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用 86

4.4.1层次隐马尔可夫模型 87

4.4.2基于类的隐马尔可夫分词算法 89

4.4.3 N最短路径的切分排歧策略 90

4.4.4未登录词的隐马尔可夫识别方法 91

4.5汉语词法分析系统ICTCLAS性能实验与分析 93

4.5.1词法分析与层次隐马尔可夫模型 94

4.5.2 ICTCLAS在973评测中的测试结果 95

4.5.3第一届国际分词大赛的评测结果 95

4.6基于单字位置成词概率识别未登录词的算法 96

4.6.1字的位置成词概率 96

4.6.2局部二元串频统计 98

4.6.3有关未登录词识别的实验结果 99

4.7本章小结 100

参考文献 102

第5章 大数据语言新特征发现 104

5.1概述 104

5.2基于上下文邻接分析和语言模型的有意义串提取 106

5.2.1上下文邻接分析 107

5.2.2语言模型分析 109

5.2.3重复串发现及处理流程 111

5.2.4实验设计及结果分析 115

5.3基于局部性原理的低频有意义串提取 120

5.3.1有意义串的局部性 121

5.3.2局部性度量 122

5.3.3算法流程 123

5.3.4实验结果与分析 124

5.4基于伪相关反馈模型的有意义串提取 127

5.4.1算法的基本思想 128

5.4.2相关度的定义 129

5.4.3位置成词概率PWP的更新 129

5.4.4算法流程 129

5.4.5实验结果及分析 130

5.5本章小结 133

参考文献 135

第6章 大数据聚类与分类 138

6.1概述 138

6.2基于关键词提取的搜索结果聚类 139

6.2.1相关术语简介 139

6.2.2关键词提取 139

6.2.3基于关键词的检索结果聚类方法 141

6.2.4实验结果及分析 142

6.3基于K-means算法的有意义串主题聚类算法 144

6.4基于邻接串种类的有意义串语境聚类 146

6.5有意义串对分类的改进 149

6.6本章小结 153

参考文献 154

第7章 大数据文本自动摘要 156

7.1概述 156

7.2相关工作综述 156

7.2.1基于抽取的自动文摘 158

7.2.2基于理解的自动文摘 160

7.3基于关键词提取的自动摘要 160

7.3.1文本预处理 160

7.3.2停用词处理 161

7.3.3双数组Trie树 162

7.3.4关键词提取 164

7.3.5句子切分 166

7.3.6句子相似度计算 166

7.4面向主题的自动摘要 167

7.4.1改进的最大边缘相关度方法 167

7.4.2面向主题的词特征统计 168

7.4.3领域主题词表 169

7.4.4句子间的包含关系 170

7.5实验与分析 171

7.5.1稳定性测试 171

7.5.2时间性能 171

7.5.3文摘质量 174

7.6自动摘要应用场景分析及大数据搜索与挖掘软件应用示例 174

7.7本章小结 176

参考文献 176

第8章JZSearch大数据精准搜索引擎 178

8.1概述 178

8.2 JZSearch大数据搜索引擎系统架构 178

8.3 JZSearch索引关键技术 180

8.3.1索引字段类型 180

8.3.2索引词项的设计 181

8.3.3索引压缩技术 181

8.3.4内存交换 184

8.3.5增量索引 184

8.3.6数据库检索 185

8.4 JZSearch搜索技术 187

8.4.1 JZSearch排序算法 187

8.4.2 JZSearch结果格式 188

8.4.3 JZSearch检索语法说明 188

8.5 JZSearch搜索引擎管理 193

8.5.1搜索引擎可视化管理客户端 193

8.5.2客户端管理命令语法 194

8.6 JZSearch大数据搜索应用案例 194

8.6.1中国邮政集团名址信息中心首页的邮址垂直搜索 194

8.6.2河北省标准化研究院的标准搜索 195

8.6.3中国对外承包工程商会的知识搜索门户 196

8.6.4富基融通的商品比价搜索 196

8.6.5微博人物搜索 196

8.6.6维吾尔语搜索 196

8.7本章小结 198

参考文献 199

第9章 面向大数据的句子检索与新颖性监测 200

9.1概述 200

9.2句子检索的查询扩展方法 201

9.2.1语义扩展 201

9.2.2伪相关反馈扩展 203

9.2.3局部共现扩展 204

9.3语言模型检索 206

9.3.1概述 206

9.3.2句子级语言模型及其改进 207

9.4句子检索实验与分析 207

9.4.1浅层语言分析的贡献度 207

9.4.2三种句子检索模型的基准实验 209

9.4.3查询扩展实验 211

9.5新信息检测 212

9.5.1词重叠度及其扩展 213

9.5.2相似度比较方法 214

9.5.3信息增强评价方法 215

9.5.4其他方法 215

9.5.5新信息检测实验与分析 217

9.6监督学习条件下的句子检索与新信息检测 219

9.6.1监督学习环境下的参数调整与阈值设置 219

9.6.2基于分类的句子检索与新信息检测方法 221

9.6.3实验与分析 222

9.7本章小结 224

参考文献 225

第10章 人物追踪中的数据预处理与属性抽取 227

10.1概述 227

10.1.1研究背景 227

10.1.2人物追踪及其处理流程 228

10.2数据预处理 228

10.2.1数据预处理的主要流程 229

10.2.2网页正文提取与噪声过滤 229

10.2.3人名识别 232

10.2.4人名指代处理 232

10.2.5人物对应语段的确定 233

10.2.6时间和时序标签的确定 234

10.3人物属性抽取 234

10.3.1人物属性抽取的总体框架 235

10.3.2标注人物属性抽取语料 235

10.3.3分类器模型 237

10.4本章小结 243

参考文献 245

第11章 人物模型组织与基于事件的信息处理 246

11.1概述 246

11.2人物模型的特征表示 247

11.2.1属性特征的表示 247

11.2.2数值特征的表示 247

11.2.3各项特征的分布规律 249

11.3人物模型的相似度计算方法 249

11.3.1基本属性的相似度计算 249

11.3.2介绍性属性的相似度计算 249

11.3.3词场的相似度计算 251

11.3.4人物模型相似度计算 251

11.4人物模型的同一性判别与合并 252

11.5实验结果与分析 253

11.5.1数据集与评测方法 253

11.5.2实验结果 254

11.6基于宏观粒度的事件组织 258

11.6.1宏观粒度事件的特征 258

11.6.2针对事件特点的话题识别方法 259

11.6.3基于多层聚类的话题层次化组织方法 261

11.6.4实验结果与分析 265

11.7本章小结 270

参考文献 272

附录A ICTCLAS/NLPIR 2014汉语分词系统介绍 274

附录B NLPIR大数据搜索与挖掘共享开发平台 281