一、古籍数字化加工要求
1.数字化加工设备规格
(1)扫描:扫描设备选择非接触式扫描仪。设备A3幅面的光学分辨率600dpi以上,CCD感光元件不低于5000像素点,色彩位数24bit。扫描设备应是无紫外线的同步冷光源。
(2)拍照:数码拍照相机的有效像素不低于5000万像素,裁切后图像短边像素换算分辨率不得低于同规格扫描分辨率,感光元件尺寸不低于全画幅(36×24 mm),采用1:1微距镜头。
备注:每日设备使用前进行色彩校正,以使文献色彩还原度高,真实。
2.其它辅件要求
(1)托稿台:为文献数码拍照的平台。托稿台材质应选用经过脱酸处理的,书籍托架应稳定牢固。
(2)扫描仪的自动评测被拍摄物重量,通过液压调节拍摄物与上下压平装置的空间和力度,控制拍摄物位置和平整度。
(3)照明:无紫外线或红外线的排放,冷光源LED照明系统。
(4)避光:日光灯、太阳光线
(5)地板:稳固,静电处理
(6)扫描方式:国图标准色卡校对,手动对焦。
(7)背景布置:中灰色纸板,即18%灰板。
3.图像采集前的准备工作要求
(1)预热。扫描仪预热5至10分钟,使机器内的灯管达到均匀发光状态,这样可以确保光线平均照到稿件每一处。
(2)色彩校验。显示器、扫描仪的色彩校准。
(3)预扫,是保证扫描效果的第一道关卡。有两方面的好处,一是确定所需要扫描的区域,以减少扫描后对图像的处理工序;二是可通过观察预扫后的图像色彩、效果等,对扫描参数重新进行设定、调整之后再进行扫描。
(4)保持清洁,扫描仪外部构件如果有灰尘、斑点,要用干净的抹布蘸无水酒精擦拭干净,以免影响扫描效果。
4.图像采集要求
(1)文献扫描前根据国际色彩协会(International Color Consortium,简称ICC)标准,做加工设备的基本色彩校正,及针对各类型文献进行色彩校正。
(2)每册书在数字化前单独扫描色卡并放入册文件夹,命名为seka.tif。IT8标准色彩导表(带尺寸标尺)与原件的距离为0.1~1厘米,色标放置于首页画面左侧。应注意保证色卡的整洁,不能有磨损或污渍,色卡的扫描方式应该有统一规定。
(3)避免透光,要求扫描图像清晰,不透字。扫描后的图像文件叶码连续,没有重叶、缺叶,错叶、折叶等情况(原书缺叶、错叶除外)。补扫缺叶图像要与同册图像文件的大小一致,颜色接近。
(4)按1:1比例扫描,叶面外围要求留白,宽度不超过1厘米;书叶间距不超过0.1厘米。
(5)以原书的上边沿为基准,以中缝为中心线,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。页面与标尺平行,图像倾斜角度不大于0.2度。
(6)原件有粘贴物,先将粘贴物掀开,扫描文献;然后将粘贴物复原,将粘贴物(即粘贴物覆盖于文献)逐片与原件一起扫描。这样,就获得2个或2个以上图像。
(7)原件透背叶字迹,有虫蛀、漏洞时,需垫上古籍适用的衬纸后扫描。
(8)分画幅扫描时,各扫描区域边缘必须有3厘米(含)以上的重复扫描区,如有特殊情况,视情况另行规定。
(9)数字图像文件用专业图像软件放大至100%检查,不失真,清晰不虚焦。
(10)工作人员可根据扫描制式(即双半叶和半叶)和文献规格的不同,正确选择扫描分辨率和拍照像素,以保证采集质量。
5.数字图像制作规格
(1)古籍典藏级
位深:24位
扫描分辨率:文献小于等于10X12.5cm,用800DPI以上
文献大于10X12.5cm ,小于等于A3,用600 DPI 以上,
文献大于A3:400DPI以上,
拍照像素:5000万像素
文件格式:TIFF(LZW)
RAW(sRAW)封装格式
色标卡:处理方式首页加载
(2)复制加工级
位深:24位
扫描分辨率:档案典藏级分辨率
拍照像素:档案典藏级拍照像素
文件格式:JPEG2000无损压缩
(3)发布服务级
位深:24位
文件格式: PDF或JPEG2000。成册文献格式类型为PDF,其它类型为JPEG2000。JPEG2000根据图像尺寸、颜色、数据存储量,进行有损压缩,压缩因子适度动态调整,单页图像文件大小不超过500KB/页。PDF文件以发布级JPEG2000文件标准进行封装,带水印和不带水印各一套。
6.数字图像文件处理
(1) 纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过1°,对方向不正确的图像进行旋转还原,以符合阅读习惯。
(2) 去污处理。对图像页面中出现的影响图像质量的杂质如黑边等进行去污处理;历史文献为展示原版原貌可不进行去污处理。
(3) 图像拼接。若原文献幅面较大,无法整体采集的,可将原件分画幅采集。分画幅采集图像,保存级文件(Tiff格式文件)无需进行拼接,但需有说明性文件;服务级文件需进行拼接处理,合并为一个完整的图像,以保证数字文件的整体性(合并信息应在readme.txt进行说明)。A2幅面以上可拼接处理。图像拼接后不得有明显的拼接痕迹。每种同一规格书籍扫描后每叶影像尺寸大小相同。
(4) 图像剪裁。拍摄物外边缘裁至0.5~0.75厘米。
不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。
二、对象数据命名规则
扫描存储文件(TIFF格式)、复制加工级文件(JPEG2000格式)、发布服务文件(PDF格式或JPEG2000)命名规则相同,这里仅以TIFF格式文件为例。
加工编号命名规则
加工编号是数字化加工过程中一种唯一标识号,由14位流水号组成,第一至四位为馆藏单位代码1701,第五至六位为类别代码,第七至十位为年份,第十一至十四位为加工序号例如17010120190026。一般情況下,每种古籍的目录结构分2层,书文件夹和册文件夹,书文件夹用14位数字表示,叶(筒子页)文件保存在册文件夹下:
例如:0120190026 —— 0001 —— 0001.tif
……
—— 0076.tif
—— 0002 —— 0001.tif
……
—— 0079.tif
……
—— 0106 —— 0001.tif
……
—— 0127.tif
(三)文件名命名规则
1.一个册文件夹下包含若干图像文件,按四位加工流水号命名:XXXX.tif,从0001.tif开始连续命名。
2.特殊处理
(1)原件有粘贴物的命名规则
不带粘贴物的图像文件名为:4位数字
带粘贴物的图像文件命名为:4位数字+小写字母。
其中,4位数字为原件内容的顺序流水号;小写字母,从a开始,顺序命名。
例如:原件第8叶有2个重叠粘贴的簽條,先将粘贴物掀开扫描,然后逐一复原粘贴物与原书一起扫描。三个图像文件分别命名为:0008.tif、0008a.tif、0008b.tif。
(2)一页普通古籍过大,分多画幅拍摄
保存级文件名为:4位数字_2位数字(4位数字为原件内容的顺序流水号,2位数字为该图多画幅顺序号,从01开始连续命名。)
例如:0002_01.tif 0002_02.tif
服务级文件需将多画幅进行拼接,拼接生成一个文件,命名规则为:4位数字(4位数字为原件内容的顺序流水号)例如:附加:0002.jpegg
3.特殊情况说明
有拼接、分多画幅采集等特殊情况需在当前文件夹下,建立readme.txt进行说明。
三、古籍元数据著录
1.著录规范
管理元数据部分,元数据应符合《国家图书馆元数据应用规范》和《国家图书馆专门元数据设计规范》,如有特别需要,可遵循《国家图书馆专门元数据设计规范》中的扩展规则进行本地扩展。
2.著录内容
按甲方提供内容著录。
3 著录要求
(1)在甲方指定平台进行著录。
(2)使用字符集为Unicode 5.0 UTF-8;对字符集中没有的文字,采用普查平台中的著录方式(描述字体结构)。
(3)著录信息应严格按照文献实际内容进行描述,标引词与标引对象文件应正确链接。著录文字处理错误率不超过0.3‰。
四、数字化过程中的数据保存、备份以及图像处理和检验中标方须自备设备
五、数字化成品数据提交要求
格式 | 份数 | 载体 | 用途 |
RAW格式 | 2 | 硬盘 | 原始图像 |
TIFF格式 | 2 | 硬盘 | 存储格式长期保存备份 |
JPEGEG2000格式 | 3 | 硬盘 | 复制加工格式长期保存备份 |
PDF格式 | 3 | 硬盘 | 带水印和不带水印 提交发布 |
数据库文件 | 2 | 硬盘 | 提交发布 |
数据说明文件 | 2 | 硬盘 | 存档 |
元数据 | 2 | 硬盘 | 存档 |
六、验收
(1)送检数据与《古籍数字资源提交单》的内容一致,各种格式数据和数据说明文件一一对应,不可夹杂无关文件。
(2)各种标引、说明文件的文字、符号、版式、位置和名称准确,其综合错误率不超过0.3‰。
(3)图像数据扫描方式、扫描规格、文件格式、文件命名、图像处理、压缩方式等符合要求,其综合错误率不超过1‰。
(4)数字化成品提交硬盘一式两份,成品数据数量、保存介质命名、数据存放方式、数据内容符合规范要求,且各类型保存介质内无坏死文件、不准携带病毒,错误率为0。
(5)本馆派遣人员现场监督中标公司数字化加工,负责现场数据安全、质量检查等工作。
(6)达到验收标准的数据视为合格,在规定错误率范围内检查出的数据问题由加工单位进行修正;超出错误率、未达到验收标准的数据由加工单位对全部提交数据进行整改、重新数字化等返工处理。
(7)形成相应的过程记录档案,项目完成后进行归档。