大规模中文文本处理PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:吴立德等著
- 出 版 社:上海:复旦大学出版社
- 出版年份:1997
- ISBN:7309018818
- 页数:170 页
第一章 概论 1
1.1 自然语言处理 1
1.1.1 中文信息处理与自然语言处理 1
1.1.2 自然语言处理的基本问题 2
1.2 自然语言处理中的新趋势 7
1.2.1 新趋势的特征 7
1.2.2 美国的情况 8
1.2.3 日本和欧洲的情况 14
1.2.4 在中国 14
1.2.5 一个并未解决的问题 14
1.3 本书内容 15
参考文献 15
第二章 自动分词 16
2.1 自动分词概述 16
2.1.1 分词规范 16
2.1.2 自动分词的原则 17
2.2 词典体系 17
2.2.1 词典体系简介 17
2.2.2 分析词典 18
2.2.3 概念词典 20
2.2.4 动态词典 22
2.3 机械分词方法 23
2.3.1 机械分词方法简介 23
2.3.2 机械分词方法的局限性 24
2.4 歧义字段的处理 25
2.4.1 歧义处理知识 25
2.4.2 一体化分词 25
2.4.3 分词规则 26
2.4.4 复旦分词系统 27
2.5 未登录词的处理 30
2.5.1 未登录词识别方法综述 31
2.5.2 中文姓名的自动辨识 31
2.5.3 统计词汇获取 33
参考文献 36
第三章 自动标注 38
3.1 词性标注与概念标注 38
3.1.1 词性标注与概念标注 38
3.1.2 歧义的消除 39
3.1.3 模型的训练 42
3.1.4 词典 43
3.2 隐马尔可夫模型 43
3.2.1 离散马尔可夫过程 44
3.2.2 隐马尔可夫模型 46
3.2.3 HMM的三个基本问题 47
3.2.4 问题1的解法 48
3.2.5 问题2的解法 49
3.2.6 问题3的解法 51
3.3 稀疏事件的概率估计 53
3.3.1 计数等价类和交叉检验 53
3.3.2 留一估计与Turing—Good公式 55
3.3.3 空等价类 56
3.3.4 有序概率问题 57
3.3.5 受约束模型和折扣模型 57
3.3.6 联合概率与条件概率 59
3.3.7 其他的一些小概率估计算法 61
3.4 标注算法的一个具体例子 62
3.4.1 词类分类标准 62
3.4.2 模型选择 63
3.4.3 词典的管理 64
3.4.4 面向文本解释的标注 65
3.4.5 熟语料的增加 66
参考文献 66
第四章 句法分析 68
4.1 语法分析概要介绍 68
4.1.1 句子的几种数据结构表示 69
4.1.2 语法表示 70
4.1.3 语法分析过程概要 71
4.1.4 自然语言语法分析中的歧义性 72
4.2 语法分析的知识库 72
4.2.1 分析词典 72
4.2.2 语法分析规则 74
4.3 传统分析器 74
4.3.1 传统LR语法分析器 74
4.3.2 传统图算法分析器 76
4.4 扩展LR算法 78
4.4.1 语法分析表的构造 79
4.4.2 扩展LR算法过程 81
4.4.3 例子 84
4.4.4 扩展LR算法的优点和特征 89
4.5 双向图算法分析器 89
4.5.1 传统图算法分析器的不足之处 89
4.5.2 规则的触发类 90
4.6 基于双向图算法的快速部分语法分析 91
4.6.1 FIRST分析表和LAST分析表 91
4.6.2 弧的竞争机制 92
4.6.3 数据结构 93
4.6.4 算法 94
4.6.5 例子 96
4.7 处理汉语真实文本中的一些现象 97
4.7.1 处理语法错误、文字错误 97
4.7.2 句间关系分析 98
参考文献 100
第五章 VSM模型和篇章分析 102
5.1 向量空间模型 102
5.2 项的自动选取及权重评价 103
5.2.1 一般考虑 103
5.2.2 反比文档频数权重评价 104
5.2.3 信噪比 104
5.2.4 项的区分度 105
5.2.5 一个实用的项的权重评价函数 106
5.3 文档特征项 106
5.3.1 词汇特征与字特征 106
5.3.2 短语特征 108
5.3.3 项的分类和分类词典 109
5.4 篇章结构关系图的建立与应用 111
5.4.1 篇章结构关系图 111
5.4.2 主题分析和聚类 112
5.4.3 主题浏览与跳段阅读 114
5.5 基于语言学知识的分析方法 116
参考文献 117
第六章 应用技术 119
6.1 自动索引 119
6.1.1 从手工索引到自动索引 119
6.1.2 索引词典 120
6.1.3 自动索引的过程 121
6.2 信息检索 122
6.2.1 简介 122
6.2.2 严格匹配模型 124
6.2.3 概率模型 125
6.2.4 向量检索模型 136
6.3 文档分类 144
6.3.1 文档分类简述 144
6.3.2 有指导的分类 145
6.3.3 无指导的分类 149
6.4 自动文摘 153
6.4.1 自动文摘研究概况 153
6.4.2 自动文摘的信息处理过程 155
6.4.3 自动文摘的评估 158
6.4.4 实例:FDASCT文摘系统简介 159
参考文献 163
附录:术语表 167
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《潜文本的阐释与翻译》刘早著 2019
- 《烧结法处理非常规含铁资源研究》王哲著 2018
- 《无机元素原子光谱分析样品预处理技术》吴瑶庆 2019
- 《农村生活污水处理工艺与技术应用》李灵娜著 2019
- 《中国人民大学研究报告系列 中国水处理行业可持续发展战略研究报告 膜工业卷 3》(中国)郑祥,魏源送,王志伟 2019
- 《工业废水处理工艺与设计》高永编著 2019
- 《工业水处理技术》(中国)赵文玉,林华,许立巍 2019
- 《污水处理PPP项目实施方案编制实务》王雁然,方俊,朱立冬 2019
- 《图像处理与图形界面(GUI)设计案例教程》李娜,张丽君 2019
- 《断陷湖盆比较沉积学与油气储层》赵永胜等著 1996
- 《液固旋流分离新技术》中国化工学会组织编写;汪华林等著 2019
- 《社会资本与村庄治理转型的社区机制》张国芳等著 2019
- 《大数据Hadoop 3.X分布式处理实战》吴章勇,杨强 2020
- 《高等教育双机械基础课程系列教材 高等学校教材 机械设计课程设计手册 第5版》吴宗泽,罗圣国,高志,李威 2018
- 《回味从前》周作人,张亦庵,徐蔚南等著 2019
- 《有机磷酸酯的暴露、毒性机制及环境风险评估》许宜平,王子健等著 2019
- 《抗战与军队政治工作》李富春等著 1938
- 《证据》田文芳,王绍昱责编;王原,吴飞翔,金海月 2019
- 《世界文豪之家》(日)阿部公彦等著 2019