《古籍文本数据格式化比较研究》PDF下载

  • 购买积分:16 如何计算积分?
  • 作  者:陈红彦
  • 出 版 社:上海:上海远东出版社
  • 出版年份:2017
  • ISBN:9787547612446
  • 页数:509 页
图书介绍:古籍是研究我国历代政治、经济、文化、科学等发展历史的主要文献信息,具有重要的学术价值。本书为国家图书馆古籍馆关于古籍数字化过程中对数据格式化的几种类型进行对比研究的课题研究成果,对古籍数字化工程的推进具有重要的理论指导意义和实践借鉴。

第一章 绪论 1

一、引言 1

(一)古籍数字化 1

1.概念 3

2.层级 6

3.问题与对策 7

4.标准规范 9

(二)古籍数字化与学术研究 13

1.数字人文 14

2.知识遮蔽 15

二、古籍文本化 17

(一)数据 17

(二)加工过程 17

三、古籍文本化理念 18

(一)面向应用 18

(二)服务学术 18

(三)利用技术 19

(四)工程项目 19

(五)保存信息 21

(六)标准规范 21

第二章 古籍文本模型 23

第一节 简单对象 23

一、文字 23

(一)文字类型 24

1.字符集 24

(1)Unicode 25

(2)中华字库 32

2.集外字 33

(1)集外字问题 34

(2)集外字处理方法 35

(二)文字属性 36

1.字体 36

2.字号 37

3.文字位置 38

4.文字颜色 38

5.文字变形 38

6.文字旋转 38

二、符号 39

(一)符号类型 42

1.标点符号 43

2.校对符号 43

3.版式符号 44

4.专类符号 46

(二)符号属性 47

三、图形 47

(一)图形类型 47

1.线段 48

2.圆弧 48

3.圆形 49

4.矩形 49

(二)图形属性 49

四、图像 50

(一)图像类型 50

1.版框内插图 50

2.书叶内插图 52

3.其他插图 52

(二)图像属性 54

1.图像尺寸 54

2.分辨率 54

3.颜色模式 54

第二节 复杂对象 54

一、大小字 54

二、墨围 56

三、墨盖子 57

四、表格 58

五、图形组合 60

六、特殊图像 60

(一)牌记 60

(二)印章 61

七、版式 61

(一)普通版式 62

(二)特殊版式 63

1.无版式 63

2.不规则版框 64

3.格抄本 64

4.多截板 64

5.图文混排 65

第三节 结构对象 66

一、古籍的物理结构 66

(一)古籍装帧形式 66

(二)古籍图像 67

二、古籍的逻辑结构 67

第三章 纯文本 69

第一节 纯文本格式 69

一、源起 69

二、现状 70

(一)汉籍电子文献资料库 70

(二)CBETA电子佛典集成 72

(三)中国基本古籍库 74

(四)古籍电子定本工程 75

(五)《汉籍全文数字化工作流程指南》 76

三、数据模型 78

(一)结构对象 78

(二)简单对象 81

1.文字 81

2.符号 84

3.图像 85

4.图形 85

(三)复杂对象 86

1.大小字 86

2.墨围 87

3.墨盖子 87

4.表格 88

5.图形组合 89

6.特殊图像 89

第二节 纯文本格式描述 89

一、纯文本XML结构 89

(一)文件头 89

(二)书目元数据 90

(三)文本数据 91

(四)集外字数据 92

二、纯文本XML Schema 93

第三节 纯文本XML示例 105

一、示例1 105

二、示例2 107

第四章 位置文本 110

第一节 位置文本格式 110

一、源起 111

二、现状 112

三、数据模型 112

(一)结构对象 112

(二)简单对象 115

1.文字 115

2.符号 117

3.图像 117

4.图形 119

(三)复杂对象 119

1.大小字 119

2.墨围 121

3.墨盖子 122

4.表格 123

5.图形组合 125

6.特殊图像 125

第二节 位置文本格式描述 125

一、位置文本XML结构 125

(一)文件头 126

(二)书目元数据 126

(三)卷目数据 126

(四)文本数据 127

(五)集外字数据 128

二、位置文本XML Schema 128

第三节 位置文本XML示例 140

一、示例1 140

二、示例2 146

第五章 版式文本 153

第一节 版式文本格式 153

一、源起 153

二、现状 154

(一)文渊阁四库全书电子版 155

(二)爱如生大型古代数据库 161

(三)数字方志 166

(四)《中文文献全文版式还原与全文输入XML规范》 173

三、数据模型 175

(一)结构对象 175

(二)简单对象 180

1.文字 180

2.符号 183

3.图形 184

4.图像 186

(三)复杂对象 187

1.大小字 187

2.墨围 189

3.墨盖子 191

4.表格 192

5.图形组合 199

6.特殊图像 201

7.版式 202

第二节 版式文本格式描述 202

一、头文件XML结构 202

(一)文件头 203

(二)书目元数据 203

(三)卷目数据 203

(四)默认版式数据 203

(五)集外字数据 204

二、叶文件XML结构 204

(一)文件头 205

(二)叶文本 206

(三)集外字数据 206

三、版式文本XML Schema 206

(一)头文件XML Schema 206

(二)叶文件XML Schema 220

第三节 版式文本XML示例 232

一、示例1 232

二、示例2 237

第六章 语义文本 245

第一节 语义文本格式 245

一、源起 245

(一)语料库 245

(二)内容标注 247

(三)数据抽取 248

二、现状 249

(一)台湾地区“中研院古汉语语料库” 249

(二)北大CCL古代汉语语料库 251

(三)国家语委古籍语料库 252

(四)中华古籍语料库 252

(五)“汉语史语料库建设研究”项目 252

三、数据模型 253

(一)结构对象 254

(二)内容对象 256

1.图像 256

2.图形 257

3.表格 257

(三)标注对象 261

1.文本碎片属性 261

2.句型 262

3.词类 263

第二节 语义文本格式描述 266

一、语义文本XML结构 266

(一)文件头 266

(二)书目元数据 267

(三)来源文本属性 267

(四)卷目数据 268

(五)标注集合 268

(六)文本数据 269

(七)集外字数据 269

二、语义文本XML Schema 269

第三节 语义文本XML示例 289

第七章 部分文本 304

第一节 谱系文本格式 304

一、源起 304

二、现状 305

(一)GEDCOM 305

(二)浙江图书馆家谱全文数据库 308

(三)中华寻根网 309

(四)家谱世系数据规范 311

(五)GEDCOMX 314

(六)“家谱谱系数字化模型研究”项目 318

三、数据模型 318

(一)实体 319

(二)实体间关系 321

第二节 谱系文本格式描述 325

一、谱系文本XML结构 325

(一)文件头 325

(二)书目元数据 326

(三)卷目数据 326

(四)实体间关系数据 326

(五)实体数据 327

(六)集外字数据 328

二、谱系XML Schema 328

第三节 谱系文本XML示例 346

一、宗族模式示例 346

二、家庭模式示例 359

第八章 文本格式比较 379

第一节 文本格式分析 380

一、全文文本 380

(一)格式比较 380

(二)格式简化 382

1.数据模型简化 382

2.数据描述简化 383

(三)格式转换 384

1.版式文本转换为纯文本 384

2.纯文本转换为版式文本 385

(四)语义文本 387

二、部分文本 387

第二节 复合文本格式 387

一、复合文本 388

二、复合文本示例 388

(一)XML Schema 389

(二)XML 415

1.示例1 415

2.示例2 421

参考文献 432

一、专著 432

二、标准 433

三、论文 434

四、电子和网络文献 443

附录 450

一、古籍元数据规范(CDLS-S05-013) 450

二、中文文献全文版式还原规范 453

三、中文文献全文版式还原规范XML Schema 464

(一)头文件XML Schema 464

(二)叶文件XML Schema 480

四、家谱谱系数据规范 495

(一)结构说明 495

(二)标签及属性说明 495

五、家谱世系数据规范XML Schema 498

六、“中研院”上古汉语语料库词类与特征标记表 500

(一)词类标记表 500

(二)词类标记说明表 501

(三)特征标记表 502

七、GEDCOM 5.5标签与GEDCOM XML对应关系 503