大数据搜索与挖掘PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:张华平,黄河燕,赵燕平著
- 出 版 社:北京:科学出版社
- 出版年份:2014
- ISBN:9787030403186
- 页数:292 页
第1章 绪论 1
1.1大数据 4
1.2云计算及Hadoop简介 5
1.3 Web搜索、全文索引与Lucene简介 6
1.3.1 Web搜索 7
1.3.2全文索引 9
1.3.3 Lucene简介 11
1.4大数据挖掘 13
1.5本书主要内容及其知识点 14
1.6本章小结 16
参考文献 17
第2章 大数据搜索挖掘综述 18
2.1常用的信息检索模型 18
2.1.1传统布尔检索与扩展布尔检索模型 18
2.1.2向量空间模型 19
2.1.3概率检索模型 23
2.1.4语言模型 24
2.2自然语言理解与处理概述 26
2.3中文词法分析中的分词处理 28
2.3.1基于词典和规则的汉字分词 30
2.3.2基于大规模语料库的统计学习的分词方法 30
2.3.3规则和统计方法相结合的汉字分词方法 32
2.4未登录词及其识别 32
2.4.1命名实体及其识别 33
2.4.2未登录词与新词识别 34
2.5有意义串及其识别 36
2.6词典组织与管理 37
2.6.1基于Trie索引树的词典管理 37
2.6.2基于哈希表的词典管理 38
2.7文本分类 39
2.8文本聚类 41
2.8.1文本表示 41
2.8.2相似度度量 42
2.8.3聚类算法体系 43
2.9话题识别与跟踪 46
2.10句子及其检索 48
2.10.1传统的文档检索方法 48
2.10.2信息过滤方法 48
2.10.3分类方法 49
2.10.4语义比较方法 49
2.10.5隐马尔可夫模型方法 50
2.10.6自动文摘方法 51
2.11句子级新信息检测 52
2.11.1词重叠度 52
2.11.2最大区间相关度 52
2.11.3余弦冗余度 52
2.11.4命名实体触发方法 53
2.11.5统计机器翻译模型 53
2.11.6 LexRank方法 54
2.12本章小结 55
参考文献 56
第3章 大数据检索与分词 62
3.1概述 62
3.2分词对中文信息检索的影响 63
3.3分词精度与检索性能的关系 66
3.4大数据应用环境下中文信息检索的分词算法及其特点 70
3.4.1分词算法的时间性能要求高 70
3.4.2分词正确率的提高并不一定带来检索性能的提高 70
3.4.3分词切分粒度需在查询扩展层面进行相关处理 70
3.4.4未登录词识别的准确率要比召回率更重要 71
3.5基于双数组Trie树优化算法的词典 72
3.5.1双数组Trie树算法介绍及其优化 72
3.5.2利用优化的双数组Trie树算法组织词典 74
3.5.3实验结果与分析 76
3.6本章小结 77
参考文献 78
第4章 基于层次隐马尔可夫模型的浅层词法分析 80
4.1概述 80
4.2英文浅层分析的实现 81
4.2.1英文断句与词汇切分 81
4.2.2词性标注 82
4.2.3词干抽取与词形还原 83
4.3停用词处理与特征词选择 84
4.3.1停用词处理 84
4.3.2特征词选择 85
4.4基于层次隐马尔可夫模型的汉语浅层分析及其应用 86
4.4.1层次隐马尔可夫模型 87
4.4.2基于类的隐马尔可夫分词算法 89
4.4.3 N最短路径的切分排歧策略 90
4.4.4未登录词的隐马尔可夫识别方法 91
4.5汉语词法分析系统ICTCLAS性能实验与分析 93
4.5.1词法分析与层次隐马尔可夫模型 94
4.5.2 ICTCLAS在973评测中的测试结果 95
4.5.3第一届国际分词大赛的评测结果 95
4.6基于单字位置成词概率识别未登录词的算法 96
4.6.1字的位置成词概率 96
4.6.2局部二元串频统计 98
4.6.3有关未登录词识别的实验结果 99
4.7本章小结 100
参考文献 102
第5章 大数据语言新特征发现 104
5.1概述 104
5.2基于上下文邻接分析和语言模型的有意义串提取 106
5.2.1上下文邻接分析 107
5.2.2语言模型分析 109
5.2.3重复串发现及处理流程 111
5.2.4实验设计及结果分析 115
5.3基于局部性原理的低频有意义串提取 120
5.3.1有意义串的局部性 121
5.3.2局部性度量 122
5.3.3算法流程 123
5.3.4实验结果与分析 124
5.4基于伪相关反馈模型的有意义串提取 127
5.4.1算法的基本思想 128
5.4.2相关度的定义 129
5.4.3位置成词概率PWP的更新 129
5.4.4算法流程 129
5.4.5实验结果及分析 130
5.5本章小结 133
参考文献 135
第6章 大数据聚类与分类 138
6.1概述 138
6.2基于关键词提取的搜索结果聚类 139
6.2.1相关术语简介 139
6.2.2关键词提取 139
6.2.3基于关键词的检索结果聚类方法 141
6.2.4实验结果及分析 142
6.3基于K-means算法的有意义串主题聚类算法 144
6.4基于邻接串种类的有意义串语境聚类 146
6.5有意义串对分类的改进 149
6.6本章小结 153
参考文献 154
第7章 大数据文本自动摘要 156
7.1概述 156
7.2相关工作综述 156
7.2.1基于抽取的自动文摘 158
7.2.2基于理解的自动文摘 160
7.3基于关键词提取的自动摘要 160
7.3.1文本预处理 160
7.3.2停用词处理 161
7.3.3双数组Trie树 162
7.3.4关键词提取 164
7.3.5句子切分 166
7.3.6句子相似度计算 166
7.4面向主题的自动摘要 167
7.4.1改进的最大边缘相关度方法 167
7.4.2面向主题的词特征统计 168
7.4.3领域主题词表 169
7.4.4句子间的包含关系 170
7.5实验与分析 171
7.5.1稳定性测试 171
7.5.2时间性能 171
7.5.3文摘质量 174
7.6自动摘要应用场景分析及大数据搜索与挖掘软件应用示例 174
7.7本章小结 176
参考文献 176
第8章JZSearch大数据精准搜索引擎 178
8.1概述 178
8.2 JZSearch大数据搜索引擎系统架构 178
8.3 JZSearch索引关键技术 180
8.3.1索引字段类型 180
8.3.2索引词项的设计 181
8.3.3索引压缩技术 181
8.3.4内存交换 184
8.3.5增量索引 184
8.3.6数据库检索 185
8.4 JZSearch搜索技术 187
8.4.1 JZSearch排序算法 187
8.4.2 JZSearch结果格式 188
8.4.3 JZSearch检索语法说明 188
8.5 JZSearch搜索引擎管理 193
8.5.1搜索引擎可视化管理客户端 193
8.5.2客户端管理命令语法 194
8.6 JZSearch大数据搜索应用案例 194
8.6.1中国邮政集团名址信息中心首页的邮址垂直搜索 194
8.6.2河北省标准化研究院的标准搜索 195
8.6.3中国对外承包工程商会的知识搜索门户 196
8.6.4富基融通的商品比价搜索 196
8.6.5微博人物搜索 196
8.6.6维吾尔语搜索 196
8.7本章小结 198
参考文献 199
第9章 面向大数据的句子检索与新颖性监测 200
9.1概述 200
9.2句子检索的查询扩展方法 201
9.2.1语义扩展 201
9.2.2伪相关反馈扩展 203
9.2.3局部共现扩展 204
9.3语言模型检索 206
9.3.1概述 206
9.3.2句子级语言模型及其改进 207
9.4句子检索实验与分析 207
9.4.1浅层语言分析的贡献度 207
9.4.2三种句子检索模型的基准实验 209
9.4.3查询扩展实验 211
9.5新信息检测 212
9.5.1词重叠度及其扩展 213
9.5.2相似度比较方法 214
9.5.3信息增强评价方法 215
9.5.4其他方法 215
9.5.5新信息检测实验与分析 217
9.6监督学习条件下的句子检索与新信息检测 219
9.6.1监督学习环境下的参数调整与阈值设置 219
9.6.2基于分类的句子检索与新信息检测方法 221
9.6.3实验与分析 222
9.7本章小结 224
参考文献 225
第10章 人物追踪中的数据预处理与属性抽取 227
10.1概述 227
10.1.1研究背景 227
10.1.2人物追踪及其处理流程 228
10.2数据预处理 228
10.2.1数据预处理的主要流程 229
10.2.2网页正文提取与噪声过滤 229
10.2.3人名识别 232
10.2.4人名指代处理 232
10.2.5人物对应语段的确定 233
10.2.6时间和时序标签的确定 234
10.3人物属性抽取 234
10.3.1人物属性抽取的总体框架 235
10.3.2标注人物属性抽取语料 235
10.3.3分类器模型 237
10.4本章小结 243
参考文献 245
第11章 人物模型组织与基于事件的信息处理 246
11.1概述 246
11.2人物模型的特征表示 247
11.2.1属性特征的表示 247
11.2.2数值特征的表示 247
11.2.3各项特征的分布规律 249
11.3人物模型的相似度计算方法 249
11.3.1基本属性的相似度计算 249
11.3.2介绍性属性的相似度计算 249
11.3.3词场的相似度计算 251
11.3.4人物模型相似度计算 251
11.4人物模型的同一性判别与合并 252
11.5实验结果与分析 253
11.5.1数据集与评测方法 253
11.5.2实验结果 254
11.6基于宏观粒度的事件组织 258
11.6.1宏观粒度事件的特征 258
11.6.2针对事件特点的话题识别方法 259
11.6.3基于多层聚类的话题层次化组织方法 261
11.6.4实验结果与分析 265
11.7本章小结 270
参考文献 272
附录A ICTCLAS/NLPIR 2014汉语分词系统介绍 274
附录B NLPIR大数据搜索与挖掘共享开发平台 281
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《数据库技术与应用 Access 2010 微课版 第2版》刘卫国主编 2020
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《Power BI数据清洗与可视化交互式分析》陈剑 2020
- 《数据失控》(美)约翰·切尼-利波尔德(John Cheney-Lippold)著 2019
- 《中国生态系统定位观测与研究数据集 森林生态系统卷 云南西双版纳》邓晓保·唐建维 2010
- 《穿越数据的迷宫 数据管理执行指南》Laura Sebastian-Coleman 2020
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《Access数据库系统设计与应用教程》李勇帆,廖瑞华主编 2019
- 《并行数据挖掘及性能优化》荀亚玲著 2020
- 《单逨传奇》刘高奇,单百平著 2019
- 《实用商务英语听说 第1册》窦琳,江怡平主编 2019
- 《药学概论》于海平主编 2019
- 《换一种教法》姜风平,侯丙生,李长宾 2013
- 《简明大学物理实验教程》黄立平主编 2019
- 《云南少数民族传统舞蹈》葛树蓉,吴世平著 2018
- 《扬眉剑出鞘》高燕编绘 2019
- 《当代文化视域下的中国钢琴教育研究与实践》孙淑平著 2019
- 《微观经济学》(美)罗伯特·S. 平狄克,(美)丹尼尔·L.鲁宾费尔德著 2019
- 《太古正音琴谱 上》(明)张大明辑;邓占平主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《《走近科学》精选丛书 中国UFO悬案调查》郭之文 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《中医骨伤科学》赵文海,张俐,温建民著 2017
- 《美国小学分级阅读 二级D 地球科学&物质科学》本书编委会 2016
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《强磁场下的基础科学问题》中国科学院编 2020
- 《小牛顿科学故事馆 进化论的故事》小牛顿科学教育公司编辑团队 2018
- 《小牛顿科学故事馆 医学的故事》小牛顿科学教育公司编辑团队 2018
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019