Java自然语言处理PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:(美)理查德·M.里斯著;邹伟,孙逢举译
- 出 版 社:北京:机械工业出版社
- 出版年份:2018
- ISBN:9787111592112
- 页数:195 页
第1章 NLP简介 1
1.1什么是NLP 2
1.2为何使用NLP 3
1.3 NLP的难点 4
1.4 NLP工具汇总 5
1.4.1 Apache OpenNLP 6
1.4.2 Stanford NLP 7
1.4.3 LingPipe 9
1.4.4 GATE 10
1.4.5 UIMA 10
1.5文本处理概览 10
1.5.1文本分词 11
1.5.2文本断句 12
1.5.3人物识别 14
1.5.4词性判断 16
1.5.5文本分类 17
1.5.6关系提取 18
1.5.7方法组合 20
1.6理解NLP模型 20
1.6.1明确目标 20
1.6.2选择模型 21
1.6.3构建、训练模型 21
1.6.4验证模型 22
1.6.5使用模型 22
1.7准备数据 22
1.8本章小结 24
第2章 文本分词 25
2.1理解文本分词 25
2.2什么是分词 26
2.3一些简单的Java分词器 28
2.3.1使用Scanner类 29
2.3.2使用split方法 30
2.3.3使用B reakIterator类 31
2.3.4使用Stream Tokenizer类 32
2.3.5使用StringTokenizer类 34
2.3.6使用Java核心分词法的性能考虑 34
2.4 NLP分词器的API 34
2.4.1使用OpenNLPTokenizer类分词器 35
2.4.2使用Stanford分词器 37
2.4.3训练分词器进行文本分词 41
2.4.4分词器的比较 44
2.5理解标准化处理 45
2.5.1转换为小写字母 45
2.5.2去除停用词 46
2.5.3词干化 49
2.5.4词形还原 51
2.5.5使用流水线进行标准化处理 54
2.6本章小结 55
第3章 文本断句 56
3.1 SBD方法 56
3.2 SBD难在何处 57
3.3理解LingPipe的HeuristicSen-tenceModel类的SBD规则 59
3.4简单的Java SBD 60
3.4.1使用正则表达式 60
3.4.2使用BreakIterator类 62
3.5使用NLP API 63
3.5.1使用OpenNLP 64
3.5.2使用Stanford API 66
3.5.3使用LingPipe 74
3.6训练文本断句模型 78
3.6.1使用训练好的模型 80
3.6.2使用SentenceDetector-Evaluator类评估模型 81
3.7本章小结 82
第4章 人物识别 83
4.1 NER难在何处 84
4.2 NER的方法 84
4.2.1列表和正则表达式 85
4.2.2统计分类器 85
4.3使用正则表达式进行NER 86
4.3.1使用Java的正则表达式来寻找实体 86
4.3.2使用LingPipe的RegEx-Chunker类 88
4.4使用NLP API 89
4.4.1使用OpenNLP进行NER 89
4.4.2使用Stanford API进行NER 95
4.4.3使用LingPipe进行NER 96
4.5训练模型 100
4.6本章小结 103
第5章 词性判断 104
5.1词性标注 104
5.1.1词性标注器的重要性 107
5.1.2词性标注难在何处 107
5.2使用NLP API 109
5.2.1使用OpenNLP词性标注器 110
5.2.2使用Stanford词性标注器 118
5.2.3使用LingPipe词性标注器 125
5.2.4 训练OpenNLP词性标注模型 129
5.3本章小结 131
第6章 文本分类 132
6.1文本分类问题 132
6.2情感分析介绍 134
6.3文本分类技术 135
6.4使用API进行文本分类 136
6.4.1 OpenNLP的使用 136
6.4.2 Stanford API的使用 140
6.4.3使用LingPipe进行文本分类 145
6.5本章小结 152
第7章 关系提取 153
7.1关系类型 154
7.2理解解析树 155
7.3关系提取的应用 156
7.4关系提取 159
7.5使用NLP API 159
7.5.1 OpenNLP的使用 159
7.5.2使用Stanford API 162
7.5.3判断共指消解的实体 166
7.6问答系统的关系提取 168
7.6.1判断单词依赖关系 169
7.6.2判断问题类型 170
7.6.3搜索答案 171
7.7本章小结 173
第8章 方法组合 174
8.1准备数据 175
8.1.1使用Boilerpipe从HTML中提取文本 175
8.1.2使用POI从Word文档中提取文本 177
8.1.3使用PDFBox从PDF文档中提取文本 181
8.2流水线 182
8.2.1使用Stanford流水线 182
8.2.2在Standford流水线中使用多核处理器 187
8.3创建一个文本搜索的流水线 188
8.4本章小结 193
- 《自然拼读背单词 高考英语3500词》宋德伟 2019
- 《程序逻辑及C语言编程》卢卫中,杨丽芳主编 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《幼儿园课程资源丛书 幼儿园语言教育资源》周兢编 2015
- 《高等学校“十三五”规划教材 C语言程序设计》翟玉峰责任编辑;(中国)李聪,曾志华,江伟 2019
- 《音乐语言的根基》张艺编著 2019
- 《认知语言学视野的抽象方位结构研究》曹爽著 2019
- 《激活语言思维》李蒨,王宏年,汤青编著 2017
- 《自然拼读背单词 小学英语1000词》宋德伟 2019
- 《汉语言文学本科专业核心课程研究导引教材 古代汉语》马蓝婕责任编辑;(中国)魏宜辉 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019
- 《高等院校旅游专业系列教材 旅游企业岗位培训系列教材 新编北京导游英语》杨昆,鄢莉,谭明华 2019
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017
- 《新工业时代 世界级工业家张毓强和他的“新石头记”》秦朔 2019
- 《智能制造高技能人才培养规划丛书 ABB工业机器人虚拟仿真教程》(中国)工控帮教研组 2019
- 《AutoCAD机械设计实例精解 2019中文版》北京兆迪科技有限公司编著 2019