《文本信息分析与全文检索技术》PDF下载

  • 购买积分:12 如何计算积分?
  • 作  者:化柏林编著
  • 出 版 社:北京:科学技术文献出版社
  • 出版年份:2008
  • ISBN:9787502361808
  • 页数:301 页
图书介绍:本书主要从核心算法、关键技术、技术实例、发展趋势等方面对文本信息分析及全文检索进行了剖析与探讨。主要内容包括中文分词与语法分析,文献计量分析技术、网络搜索引擎原理与实例、全文检索技术与实例等,对一些前沿专题进行了探讨,包括信息抽取、自动问答、列表搜索、知识抽取、辅助审稿、对联生成等、本书内容新颖、观点独特、案例翔实,注重用实践阐释理论,可以作为情报学专业研究生的教材,也可供情报研究人员和数据库构建企业有关人员参考。

第1章 概论 1

第1节 从学科特性探析情报学核心技术 1

1.情报学与图书馆学 2

2.情报学与管理科学 3

3.情报学与计算机科学 3

4.情报学与通信科学 4

5.情报学与智能科学 4

6.情报学与计算语言学 5

7.情报学的核心技术 6

第2节 信息分析内容 6

1.信息的分类 6

2.信息分析的要素 7

3.从语言的分析层面看文本信息分析 8

第3节 信息分析过程 10

1.从IPO看信息分析处理过程 10

2.从计量分析实例看信息分析过程 10

3.从情报分析实例看信息分析过程 11

第4节 信息分析方法 12

1.人工定性分析 13

2.人工定量分析 14

3.计算机定量分析 14

4.计算机定性分析 14

5.小结 17

第5节 自然语言处理概论 18

1.自然语言的分类 18

2.自然语言处理的概念 18

3.自然语言处理层面 20

4.自然语言处理过程 20

第2章 词法分析技术 23

第1节 中文分词方法与处理流程 23

1.中文分词方法的传统分类 23

2.中文分词方法的过程分类 24

第2节 分词预处理技术 24

1.停用词单独处理的意义 24

2.停用词的认定与选取 26

3.停用词的获取 27

4.停用词表的组织方式 28

5.真假停用词的识别 29

6.停用词处理的关键 31

第3节 切分处理 31

1.无词表切分方法 31

2.向量切分方法 32

3.向量切分关键技术 33

4.向量切分的词典排序与查找技术 34

5.嵌套向量切分技术 36

6.向量分词的关键与发展 37

第4节 分词后处理技术 38

1.未登录词识别 38

2.中文分词歧义分析 39

3.最大概率消歧法 40

4.基于互信息的消歧法 41

5.回溯消歧 41

第5节 词性标注 41

1.高频优先法 42

2.基于隐马尔科夫模型的方法 42

3.基于规则的方法 43

第3章 语法分析技术 45

第1节 语法分析基础理论 45

1.语法模型与语法计算 45

2.语法开发平台和语言理论模型 47

第2节 句法分析过程 48

1.语法表示 48

2.自顶向下的分析算法 49

3.自底向上分析算法 50

第3节 语法开发平台的系统架构 50

1.语法开发平台技术的发展现状 50

2.语法开发平台的功能分析 53

3.语法开发平台的数据处理流程设计 59

4.语法开发平台的数据库设计 60

5.语法开发平台的输入输出设计 63

第4节 语法开发平台的关键技术实现 66

1.句法结构线性表达的分析算法 67

2.规则与词典的提取算法 69

3.图形生成的算法 71

4.成分结构与功能结构的转换算法 72

5.语法开发平台的功能测试 75

第4章 文献信息计量分析技术 77

第1节 计量分析的分类与处理流程 77

1.计量分析的分类 77

2.计量分析工具的选择 78

3.结构化信息分析的处理流程 79

4.数据获取模块 79

5.数据预处理模块 82

6.统计计算模块 83

第2节 计量分析预处理技术 84

1.行列转换 84

2.数据清洗 86

3.数据拆分 88

4.数据提取 90

第3节 计量分析中的统计技术 91

1.数量初步统计 91

2.加权统计 95

3.Top N统计 96

4.奇异值统计 97

5.数量分布统计 98

6.年度增长统计 98

7.统计技术的问题与发展 100

第4节 文献计量分析的发展趋势 100

1.计量指标与评价体系 101

2.统计规律与计量理论 103

3.计量分析的数据输入 104

4.计量分析的处理粒度 105

5.计量分析的结果输出 106

第5章 文献计量分析研究实例 108

第1节 论文关键词计量分析研究 108

1.高频关键词统计 109

2.篇含关键词数量统计 110

3.词长统计分析 111

4.图书情报核心关键词统计 113

5.关键词年度分布及增长分析 115

第2节 论文标题计量分析研究 118

1.标题长度统计 118

2.标题含关键词数量统计 120

3.标题高频词统计分析 121

4.标题句法结构的统计分析 125

5.小结 128

第6章 网络信息搜索引擎 129

第1节 搜索引擎工作原理 129

1.Google技术概况与体系结构 129

2.基于Robot的搜索过程 130

3.标引入库 133

4.检索过程与网页级别 135

第2节 爬行程序实例 137

1.网页下载程序 138

2.URL解析程序 139

第3节 搜索引擎发展趋势 141

1.引言 141

2.从信源(Input)看搜索引擎的发展 142

3.从分析处理(Process)看搜索引擎的发展 144

4.从信宿(Output)看搜索引擎的发展 146

5.从资源支撑看搜索引擎的发展 147

6.总结与展望 148

第7章 全文检索系统原理与实例 150

第1节 全文数据库与全文索引平台 150

1.全文数据库与索引平台介绍 150

2.通过检索实例分析索引方式 151

第2节 分析标引过程 155

1.顺排索引 155

2.倒排索引 155

3.Trie树索引 157

第3节 检索过程机理 158

1.检索接口 158

2.检索表达式解析 159

3.查找与匹配 160

4.检索结果的输出 160

第4节 全文检索系统实例 161

1.全文检索的数据准备 161

2.全文检索程序 164

3.构建三层结构应用 168

第5节 全文数据库的未来发展 176

1.新型检索功能的不断推出 176

2.从文献服务走向知识服务 177

3.一系列学术服务 178

4.三大全文数据库对比 179

第8章 面向情报检索的文本信息分析 181

第1节 信息抽取技术 181

1.信息抽取与信息检索对比分析 181

2.信息抽取的分类 182

3.信息抽取的系统结构与处理流程 183

4.信息抽取的命名实体识别 184

5.信息抽取中的共指关系确定 185

6.信息抽取中的模板元素填充 186

第2节 基于信息抽取的列表式搜索 186

1.统计型搜索的概念 186

2.针对提问抽取信息 187

3.对抽取出来的信息进行统计分析 188

第3节 自动问答系统 189

1.自动问答系统的分类 189

2.自动问答系统的系统结构 191

3.自动问答系统中的问题分析 192

4.自动问答系统中的文档检索 195

5.自动问答系统中的答案生成 197

第4节 信息采集系统 198

1.竞争情报系统中的信息采集 198

2.面向双语语料检索的信息采集 199

3.话题识别与跟踪 200

第9章 面向文献处理的文本信息分析 202

第1节 自动分类 202

1.分类的思想与原理 202

2.自动分类的体系与标准 203

3.自动分类的方法 204

4.自动分类的系统结构与流程 206

第2节 聚类分析 207

1.聚类分析的思想 207

2.聚类分析的聚类轴 208

3.聚类分析的顺序 208

第3节 自动文摘 210

1.自动文摘的方法 210

2.自动文摘的系统结构 212

3.自动文摘的流程 213

4.自动文摘的关键技术 215

第10章 面向知识工程的文本信息分析 217

第1节 知识工程研究综述 217

1.知识的定义与分类 218

2.知识管理与知识工程 218

3.知识抽取与信息抽取 221

4.知识抽取与知识发现 222

5.知识获取的方式 222

第2节 知识抽取 223

1.知识抽取的国内外研究现状 224

2.知识抽取的分类 227

3.基于NLP的知识抽取系统架构 228

4.知识抽取中的自然语言处理基础 229

5.基于NLP的知识抽取 230

第3节 知识发现 232

1.数据挖掘 232

2.知识发现 233

3.数据挖掘与知识发现的关系 234

4.关联规则挖掘与非相关文献知识发现的差异性 235

5.知识挖掘与文本挖掘 235

6.知识发现的发展展望 236

第4节 知识表示 236

1.框架表示法 237

2.面向对象表示法 237

3.一阶谓词表示法 238

4.产生式表示法 239

5.语义网表示法 240

6.脚本表示法 240

7.过程表示法 242

8.Petri网表示法 243

第5节 知识利用 243

1.知识检测与求精 243

2.知识搜索 245

3.知识推理 245

第11章 面向学术问题的文本信息分析 247

第1节 学术抄袭与科学引用自动判定系统 247

1.学术腐败及参考文献的引用问题 247

2.系统的意义及可行性分析 248

3.句子匹配分析的研究现状 249

4.句子匹配分析系统结构 250

5.实验结果与分析 258

6.总结与展望 260

第2节 文献自动综述系统 261

1.多文档自动摘要与自动综述的区别 261

2.学习型搜索 262

3.观点型搜索 262

第3节 基于学位论文的致谢构建导师评价系统 263

1.导师评价系统的功能意义 263

2.导师评价系统的内容 263

3.导师评价系统的关键技术 264

第12章 面向传统文化的文本信息分析 265

第1节 交互式成语接龙系统 265

1.成语接龙系统的方式 266

2.成语接龙系统的技术方案 266

第2节 对联自动评测与生成系统 267

1.对联的可计算性分析 267

2.用LFG模型验证对联的工整性 267

3.半自动对联生成系统 269

4.全自动对联生成系统 271

第3节 计算机辅助写诗系统 272

1.计算机辅助写诗的可行性分析 272

2.诗词语料建设 274

3.计算机辅助写诗的流程 274

参考文献 276

附录 287

附录1全文检索系统环境配置与测试 287

1.环境配置 287

2.写测试包进行全程环境测试 288

附录2插图索引 293

附录3表格索引 296

附录4英文缩略语 298

附录5中文术语 300