第一章 绪论 1
一、研究意义 3
二、研究对象 3
1.汉语文古籍 3
2.古籍全文文本化 4
(1)古籍全文文本化定义 4
(2)全文文本化在古籍数字化中的地位和作用 4
三、研究现状 5
1.专著论文 5
2.学术会议 7
四、研究的目的与解决的问题 7
五、研究角度 8
六、研究方法 8
第二章 古籍全文数据的功能与格式 9
一、古籍全文数据的功能分析 11
1.检索功能 11
2.显示功能 11
3.后续应用功能 13
二、古籍全文数据的格式 13
1.古籍全文数据的常见格式 13
2.XML格式和PDF格式 14
第三章 古籍全文数据的基本模型描述 15
一、古籍文字模型描述 17
1.古籍用字情况分析 17
2.字符集与集外字 25
3.古籍文字基本模型 28
(1)字符集选择 28
(2)不同字体书体的处理 30
(3)文字转换 31
(4)文字转换策略 32
二、古籍符号模型描述 34
1.古籍符号使用的基本情况 35
(1)标点符号 36
(2)校对符号 38
(3)版式符号 40
(4)专类符号 42
(5)其他符号 43
2.字符集与符号表示 44
(1)字符集中的符号 44
(2)字符集中符号的表示方法 46
3.古籍符号基本模型 46
(1)古籍符号描述 47
(2)古籍符号处理策略 48
三、古籍版式模型描述 48
1.古籍版式分析 49
(1)版面版式 49
(2)文字版式 51
(3)符号版式 54
(4)特殊版式 54
2.古籍版式基本模型 57
(1)古籍版式描述 57
(2)古籍版式的处理策略 62
四、古籍结构模型描述 63
1.古籍的基本结构 63
2.古籍的基本结构描述 64
(1)古籍影像结构模型 64
(2)古籍全文结构模型 66
第四章 古籍全文文本化的基本流程 67
一、全文文本化前期准备 69
1.构建全文文本化模型 69
2.确定全文文本化方法 70
3.底本选择 71
4.可数字化评估 71
二、全文转换 72
1.全文转换方法 73
(1)字符集编码输入 73
(2)自定义编码输入 74
(3)贴图 74
(4)描述 75
2.全文处理策略 77
三、版式转换 78
1.版式转换过程 78
2.有限版式还原 79
四、数据校验 81
1.校验方法选择 82
2.错误率控制 83
(1)错误率计量 83
(2)错误率控制方法 84
第五章 个案研究 87
一、《文渊阁四库全书》电子版项目分析 89
1.项目概述 89
2.项目主要的技术路线 90
3.该项目的特点与不足 91
(1)文字转换 91
(2)版式转换 94
(3)结构描述 96
(4)《文渊阁四库全书》电子版3.0 98
二、数字方志全文文本化项目分析 98
1.项目概述 99
2.项目主要的技术路线 100
(1)全文数据加工方式 100
(2)全文文本化模型 104
3.该项目的特点与不足 108
(1) XML标记体系不一致 108
(2)集外字处理 110
(3)贴图处理 112
(4)表格处理 112
三、《中文文献全文版式还原与全文输入XML…规范》标准分析 112
1.全文版式规范概述 115
2.全文版式规范的主要技术路线 116
3.全文版式规范的特点与不足 117
(1)适用范围 118
(2)术语使用 118
(3)应用指南 119
(4)古籍模型 119
(5)扩充规则 120
(6)图形图像描述 120
(7)表格描述 120
(8)上下文连续描述 123
参考文献 129
一、专著 129
二、论文 130
三、网络文献 133
附录 137
附录一XML格式的古籍全文数据样例 139
附录二 四十种古籍用字统计表 149
附录三 四库和四部语料、国学宝典、数字方志项目核心字和部分高频字对照表 150
附录四CJK文字的字源 153
1.最初期的统一汉字(20,902字)字源 153
2.扩展A区(6,582)字源 153
3.扩展B区(42,711)字源 154
4.扩展C区(4,149)字源 155
附录五 字源编码统一规则示例 157
1.不同语源的字不做统一 157
2.抽象字形(部件数量、部件相对位置和相应部件结构)不同的字不做统一 157
(1)部件数量不同的字不做统一 157
(2)部件相对位置不同的字不做统一 157
(3)相应部件结构不同的字不做统一 157
3.抽象字形相同部件细节不同的字可做统一 157
4.源字集分离原则 157
5.字源编码统一实例 158
附录六 数字方志项目第一至三期造字示例表 159
附录七 集内字Unicode编码与IDS示例 162
附录八 文字认同的示例表 164
附录九 数字方志项目一至三期全文数据样例 170
附录十 数字方志项目四期全文数据头文件样例 175
附录十一 数字方志项目四期全文数据表格描述样例 179
附录十二《中文文献全文版式还原与全文输入XML规范》中定义的主要标签和属性说明表 198
后记 202