《汉语文古籍全文文本化研究》PDF下载

  • 购买积分:10 如何计算积分?
  • 作  者:王荟,肖禹著
  • 出 版 社:上海:中西书局
  • 出版年份:2012
  • ISBN:9787547504383
  • 页数:203 页
图书介绍:本书定位专业,是一本中文古籍类研究图书,系统地梳理了汉语文古籍各个方面的问题,为国家图书馆古籍馆多年的研究成果,本书不仅能指导古籍全文文本化的工程实践,而且对古籍整理、数字出版、数字资源建设、数字资源评价等都具有较大的推动。目前我国的古籍全文文本化研究在可用性、易用性、学术性、开放性、标准化等方面都还存在一些问题。这些问题需要古籍数字化的建设者在实践中去研究解决,所以本书的最大意义在于推动古籍全文文本化理论和实践研究的深入。

第一章 绪论 1

一、研究意义 3

二、研究对象 3

1.汉语文古籍 3

2.古籍全文文本化 4

(1)古籍全文文本化定义 4

(2)全文文本化在古籍数字化中的地位和作用 4

三、研究现状 5

1.专著论文 5

2.学术会议 7

四、研究的目的与解决的问题 7

五、研究角度 8

六、研究方法 8

第二章 古籍全文数据的功能与格式 9

一、古籍全文数据的功能分析 11

1.检索功能 11

2.显示功能 11

3.后续应用功能 13

二、古籍全文数据的格式 13

1.古籍全文数据的常见格式 13

2.XML格式和PDF格式 14

第三章 古籍全文数据的基本模型描述 15

一、古籍文字模型描述 17

1.古籍用字情况分析 17

2.字符集与集外字 25

3.古籍文字基本模型 28

(1)字符集选择 28

(2)不同字体书体的处理 30

(3)文字转换 31

(4)文字转换策略 32

二、古籍符号模型描述 34

1.古籍符号使用的基本情况 35

(1)标点符号 36

(2)校对符号 38

(3)版式符号 40

(4)专类符号 42

(5)其他符号 43

2.字符集与符号表示 44

(1)字符集中的符号 44

(2)字符集中符号的表示方法 46

3.古籍符号基本模型 46

(1)古籍符号描述 47

(2)古籍符号处理策略 48

三、古籍版式模型描述 48

1.古籍版式分析 49

(1)版面版式 49

(2)文字版式 51

(3)符号版式 54

(4)特殊版式 54

2.古籍版式基本模型 57

(1)古籍版式描述 57

(2)古籍版式的处理策略 62

四、古籍结构模型描述 63

1.古籍的基本结构 63

2.古籍的基本结构描述 64

(1)古籍影像结构模型 64

(2)古籍全文结构模型 66

第四章 古籍全文文本化的基本流程 67

一、全文文本化前期准备 69

1.构建全文文本化模型 69

2.确定全文文本化方法 70

3.底本选择 71

4.可数字化评估 71

二、全文转换 72

1.全文转换方法 73

(1)字符集编码输入 73

(2)自定义编码输入 74

(3)贴图 74

(4)描述 75

2.全文处理策略 77

三、版式转换 78

1.版式转换过程 78

2.有限版式还原 79

四、数据校验 81

1.校验方法选择 82

2.错误率控制 83

(1)错误率计量 83

(2)错误率控制方法 84

第五章 个案研究 87

一、《文渊阁四库全书》电子版项目分析 89

1.项目概述 89

2.项目主要的技术路线 90

3.该项目的特点与不足 91

(1)文字转换 91

(2)版式转换 94

(3)结构描述 96

(4)《文渊阁四库全书》电子版3.0 98

二、数字方志全文文本化项目分析 98

1.项目概述 99

2.项目主要的技术路线 100

(1)全文数据加工方式 100

(2)全文文本化模型 104

3.该项目的特点与不足 108

(1) XML标记体系不一致 108

(2)集外字处理 110

(3)贴图处理 112

(4)表格处理 112

三、《中文文献全文版式还原与全文输入XML…规范》标准分析 112

1.全文版式规范概述 115

2.全文版式规范的主要技术路线 116

3.全文版式规范的特点与不足 117

(1)适用范围 118

(2)术语使用 118

(3)应用指南 119

(4)古籍模型 119

(5)扩充规则 120

(6)图形图像描述 120

(7)表格描述 120

(8)上下文连续描述 123

参考文献 129

一、专著 129

二、论文 130

三、网络文献 133

附录 137

附录一XML格式的古籍全文数据样例 139

附录二 四十种古籍用字统计表 149

附录三 四库和四部语料、国学宝典、数字方志项目核心字和部分高频字对照表 150

附录四CJK文字的字源 153

1.最初期的统一汉字(20,902字)字源 153

2.扩展A区(6,582)字源 153

3.扩展B区(42,711)字源 154

4.扩展C区(4,149)字源 155

附录五 字源编码统一规则示例 157

1.不同语源的字不做统一 157

2.抽象字形(部件数量、部件相对位置和相应部件结构)不同的字不做统一 157

(1)部件数量不同的字不做统一 157

(2)部件相对位置不同的字不做统一 157

(3)相应部件结构不同的字不做统一 157

3.抽象字形相同部件细节不同的字可做统一 157

4.源字集分离原则 157

5.字源编码统一实例 158

附录六 数字方志项目第一至三期造字示例表 159

附录七 集内字Unicode编码与IDS示例 162

附录八 文字认同的示例表 164

附录九 数字方志项目一至三期全文数据样例 170

附录十 数字方志项目四期全文数据头文件样例 175

附录十一 数字方志项目四期全文数据表格描述样例 179

附录十二《中文文献全文版式还原与全文输入XML规范》中定义的主要标签和属性说明表 198

后记 202