四川省档案资料数字化标准
本标准根据国家档案局《电子文件归档与管理规范》、《纸质档案数字化技术规范》制定,适用于四川省各级档案馆(室)的数字化工作,其它单位可参照执行。
第一章 纸质档案数字化标准
1 基本术语解释
1.1 数字化 指用计算机技术将模拟图像转换为数字图像的处理过程。
1.2 纸质档案数字化 对普通(黑色字迹清晰)的油印、铅印、胶印等印刷件或复印件纸质档案进行数字化及应用的过程。
1.3 数字图像 表示景物图像的整数阵列。一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。在矩阵(或其他)网络上采样一连续函数,并在采样点上将值最小化后的阵列。
1.4 连续色调静态图像 以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。
1.5 失真度 对档案原件进行数字化转换后,在同等测试环境下,数字图像与档案原件色彩、几何、压缩算法等差值。
1.6 可懂度 表示数字图像向人或机器提供信息的能力。
1.7 图像压缩 清除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。
1.8 分辨率 指单位长度内图像包含的点数或像素数。
1.9 TIFF 标记图像文件格式。一种基于标记的无损(不丢失信息)压缩格式,用于在应用程序之间和计算机平台之间交换文件。因为它存储的图像细微层次的信息非常多,图像的质量也得以提高,故而非常有利于原件为黑白档案的复制储存。
1.10 JPEG 联合照片专家组。一种丢失少量信息的压缩格式,尤其适用于屏幕和打印显示,支持所有主要的计算机平台和Web浏览器。JPEG格式文件小,影像质量多数情况下均可接受。考虑储存空间及传输效率,原件为彩色的档案可选此格式复制储存。
1.11 灰度值 指进行灰度扫描时把图像由纯黑到纯白整个色彩区域进行划分的级数,编辑图像时一般都使用到8位,即256级灰度。
1.12 黑白二值图像 是与彩色及灰度相对应的一种模式,黑白图在表示图像时只区分黑白二值,他把其它色彩根据其特性转换为黑白两种,因此形成只有两种颜色的图像。
1.13 LZW压缩 LZW压缩是一种比较复杂的压缩算法,其压缩效率也比较高。它的基本原理为:LZW把每一个第一次出现的字符串用一个数值来编码,在还原程序中再将这个数值还成原来的字符串。例如:用数值0x100代替字符串“abccddeee”,每当出现该字符串时,都用0x100代替,这样就起到了压缩的作用。LZW是无损压缩,因此它不会对图像质量造成损失。
2 数字化基本流程
纸质档案数字化的基本流程主要包括案卷整理、目录建库、批量扫描、数据处理、信息存储、检索利用等工序。
2.1 案卷整理
对需要扫描的案卷进行适当整理,做出标识。
2.2 目录建库
为数字化的档案检索而建立必要的目录数据库。
2.3 批量扫描
按照档案数字化具体任务的整体安排按计划分批次进行扫描。
2.4 数据处理
2.4.1 对扫描图像进行校对,确保图像完整无误,并视需要对有问题的扫描图像进行纠偏、去污、拼接等技术处理。
2.4.2 对裸数据进行验收前的相应处理,包括文件的格式转换、逻辑分盘处理、添加说明性文件,以及数据的挂接、检验、上载、质量检查和备份。
2.5 信息存储
根据不同的扫描图像选择适当数据格式、编码方式和存储介质对信息进行保存。
2.6 检索利用
按用户需求提供检索利用。
3 案卷整理
在批量扫描之前,按下述步骤对案卷进行整理,确保档案数字化质量。
3.1 分件
3.1.1 把同一案卷中的扫描和非扫描分开。
3.1.2 在扫描件中将大图、照片插入指示页,便于扫描工序批量扫描,实际图像放在图像处理时进行重扫,替换指示页。
3.1.3 填写《数据加工过程处理单》(见附录A),对需要特殊处理的页,标识清楚。
3.2 分页
对批量扫描前的档案进行页号、件号的标注。如在标注中与原档案中的件数、页号不一致,应以此为准。
3.3 拆卷
去除档案中原来的装订物,以便后续扫描工作的进行。
3.4 装卷
按档案保管要求恢复原装订。
4 建目录库
4.1 目录著录
根据DA/T18确定档案著录项,并进行著录。
4.2 数据格式选择
所选定的数据格式通用,应能直接或间接与DBF文件格式或通过XML文档进行数据交换。
4.3 目录输入
将著录好的目录输入计算机内,建立机读目录数据库。
5 批量扫描
5.1 扫描方式
纸质档案扫描可采用黑白二值图像和连续色调图像两种方式。
5.1.1 页面为单色文字的纸质档案,宜采用黑白二值图像扫描;页面为多色文字图像的档案文件,可采用连续色调图像扫描。
5.1.2 字迹清晰、不带图片的档案材料,采用黑白二值图像扫描;清晰度较差或带有图片的档案材料,可采用连续色调图像扫描。
5.2 分辨率选择
5.2.1 单色页面档案文件,扫描分辨率—般建议选择100-200dpi。
5.2.2 彩色页面档案文件,扫描分辨率可选择100dpi以上参数值进行。
5.2.3 大幅面档案文件,如工程图纸、报纸等尺寸超过A3的,可选用大幅面图像扫描仪(如AO)、大幅面数码平台、缩微照相后胶片数字转换,也可以采用小幅面扫描后的图像拼接。扫描分辨率应选择100dpi以上。
5.2.4 需要时可根据原件的清晰度适当调整扫描分辨率。如原件质量较差且尺寸较小,可适当提高分辨率;反之也可相应减少分辨率,增减的多少以扫描后图像按原尺寸显示后是否清晰为准。
5.3 特殊页面的扫描
5.3.1 粘贴页与表格
对于粘贴折页,可用大幅面扫描仪扫描,或先分部扫描后拼接;对部分字体很小、字迹密集的情况,可适当提高扫描分辨率,选择灰度扫描或彩色扫描,采用局部深化技术解决;对字迹与表格颜色深度不同的,采用局部淡化技术解决。
5.3.2 一般文本流程图
采用适当的分辨率扫描及局部深化技术,确保文本流程图清晰。同时采用不同设备满足文本流程图的扫描工作。
5.3.3 插图
采用高分辨率灰度或彩色扫描技术将插图与文字一起扫描,保证原来的页面布局和插图清晰。
5.3.4 照片
对于页面中有黑白或彩色照片的文件,采用JPEG格式扫描,确保照片清晰度,同时可避免图像存储空间过大。
5.4 文件命名方式
5.4.1 建立文件夹
扫描时文件夹的建立应按档案实体分级建立,其中的每—份文件也需要单独建立文件夹。
5.4.2 文件夹命名方法,以档案实体中的档号命名,一般为3位数,不足3位数的左边补“0”。
6 数据处理
6.1 图像处理
6.1.1 纠偏
对扫描过程中出现的偏斜图像进行整体纠正,保证数字图像的偏斜角度小于1度。{图像偏斜不超过页面内半个文字)。
6.1.2 去污
去除数字图像中影响可懂度的杂质。档案数字化图像的去污,应遵循在不影响可懂度的前提下展现原貌的原则。
6.1.2.1 局部去污,如去除黑边、污点。
6.1.2.2 整体去污,可—次性去除页面上的污渍。
6.1.3 拼接
为保证档案数字化图像的整体性,对幅面分离的数字图像进行拼接。
6.1.4 校对
6.1.4.1 一次校对,检查扫描完的图像质量情况,对不合格的图像进行标记,退回重新扫描。
6.1.4,2 纠错处理,根据—次校对中提出的削口污渍、黑边、偏斜、图像质量等问题,结合(数据加工过程处理单)(见附录A)情况,对每份图像进行相应的处理。
6.1.4.3 二次校对,对—次校对及数据处理后的数字图像再次进行检查,并标记图像处理过程中不清晰的页面。不合格的退回重新处理。
6.2数据质量检查
6.2.1 文字录入质量
对录入域清单上所标明的各著录项的文字录入进行正确率控制;保证错误率低于3‰。
6.2.2 图像质量
对纸质文件扫描后形成的图像文件进行清晰度、污渍、黑边、偏斜等问题的控制,以达到要求的图像质量。
保证扫描后的数字图像清晰,便于清楚阅读,适应各种纸张和手写、印刷字的情况。
6.3 数据挂接
档案条目数据与图像文件的对应准确程度的控制。
在生成裸数据光盘之前,根据资料整理信息、扫描前的标引信息及卷内文件页号信息核查图像文件总数是否与实际文件数相等,如不相等则不能生成裸数据光盘,可打印出清单,回退给图像处理人员补扫。
6.4 数据检验
6.4.1 将裸数据进行验收前的相应处理,包括文件的格式转换、逻辑分盘处理、添加说明性文件。
6.4.2 对数据进行检验,给出合格或不合格结论。
6.4.3 将数字加工后的数据转换为裸数据光盘格式,拷贝到活动硬盘上。
6.4.4 系统应自动记录检验进度。
6.5 数据上载
档案数字化各工序的数据通过网络及时上载到数据服务器端汇总,其中数字图像自动搜索对应的目录数据,加入对应的电子地址数字图像文件名,建立起——对应的关系。
6.6 数据备份
定期对服务器的各类数据进行备份,防止数据丢失。
7 信息存储
以JPEG数字压缩编码或TIFF国际通用标准格式。采用国际标准的传真文档压缩格式压缩后,分别按页编号后分页存储。
数字图像的存储管理应保持原纸制档案的保管模式对应存储。
7.1 压缩存储格式
数字图像格式采用TIFF和JPEG数字压缩编码。
7.1.1 黑白二值图像
. 黑白二值扫描图像文件采用TIFFCCCITTG3)格式二值图像压缩算法,压缩串(Cr)为15:1。也可以采用TIFF(CCITTG4)格式二值图像压缩算法,压缩率(Cr)为30:1。
7.1.2 连续色调静态图像
连续色调静态图像采用JPEG数字压缩编码,平均压缩率(Cr)为15:1。
7.2 编码方式
应尽量采用实时操作性强的编码方式。失真度编码,用较少的比特率获得较好的图像质量;无失真编码,以低压缩保持信息的不失真。—般情况下宜采用国际通用编解码算法。
7.3 存储方式与载体
可选用在线和离线、不同载体进行存储。
8 检索利用
8.1 检索利用方式
档案数字图像检索利用可采用单机、局域网和互联网三种方式。
局域网中传输利用,应保证数据在内部局域网10Base-T带宽下,平均1秒内显示响应完成。互联网中传输利用,互联网56Kbit/s带宽下,平均5秒内显示响应完成。为此要求—般每页档案数字图像的存储容量为50K以内。
8.2 检索软件配置
检索软件应符合国家档案局制定的《档案管理软件功能要求暂行规定》的各项要求。检索软件应具备目录检索与档案数字图像方便调阅的基本功能。
附录A
(资料性附录)
数据加工过程处理单
批次 流水线名称 任务名称 工序名称 员工姓名 开始时间 结束时间 备注
第二章 照片数字化标准
1 基本术语解释
1.1 光学分辨率 指扫描仪光电转换器件的物理精度。例如一台扫描仪的光学分辨率为1200dpi,也就是说每一英寸可以扫描出1200个象素点。
1.2 差值分辨率 也称为最大分辨率,指扫描仪最高可以达到的线数。差值分辨率是由光学分辨率差值运算得来的,因此它并不能代表扫描仪的本质精度。
2 技术标准
2.1 前提条件:所有要进行数字化的档案必须先进行著录,编制好页号。
2.2 扫描方式:照片按彩色和灰度两种方式扫描。
2.3 分辨率:所使用扫描仪的光学分辨率必须大于或等于300dpi。
2.4 扫描办法:对于所扫的照片,以常见5寸照片大小(12.5cmX8.5cm)为参照,统一采用300dpi;对于其它太大或太小的照片,扫描线数可作相应的调整;对于一些涉及重要历史事件和人物的照片,其扫描精度可在以上基础上适当增加。
2.5 文件存储类型:扫描后的照片以TIF格式存储,采用LZW压缩,存入一个统一的照片数据库。
2.6文件存储方式:档案照片存储时按全宗、目录、相册分级建文件夹保存,照片名字以照片号命名。
2.7 文件夹命名办法:档案照片命名,全宗级文件夹5位,目录级3位,相册级5位,页号4位,照片档案中页号为“0001”;照片号4位。资料照片名字由资料号、照片所在的页号、照片在该页的幅号组成。资料号7位,页号4位,幅号2位。
3 补充说明
3.1 彩色照片采用彩色方式扫描,黑白照片采用灰度方式扫描。
3.2 扫描仪有光学分辨率和差值分辨率两个常用技术参数,其中光学分辨率反映的是硬件系统确实可以达到的清晰程度,是扫描仪自身性能的反映,因此我们在本标准中的以它来要求。
3.3 扫描线数调整的具体方法为:比较要扫描照片与5寸照片大小的比例,假设待扫照片大小为5寸照片的N分之一,则扫描线数变为5寸照片的N倍,即Nx300dpi;相应的,假设待扫照片为5寸照片的N倍大小,则我们的扫描线数可相应变为5寸照片的N分之一,即300/N dpi。这样,我们可达到最佳的精度/容量比,便于保存和利用。
3.4 所扫描的照片来源于档案和资料,在档案中有单独的档案全宗,如我馆的211、212即为照片全宗;资料照片是来源于馆藏中的书籍、杂志等资料中的照片。照片按照资料和档案的不同而分别命名并存储。
3.5 按照以上方式扫描后照片的容量大小大体相同(扫描仪采用Microtek ScanMaker 6400XL时),灰度图为2M左右,彩色图为7至8M。但以上所说的图像大小只是一个大概数值,可能根据照片色彩的复杂程度及所使用扫描仪的不同而有差异,因此在具体操作时应按照标准中的要求来执行。
第三章 缩微胶片数字化标准
1 基本术语解释
参考以上两个标准的术语。
2 技术标准
2.1 设备类型:所采用的缩微胶片转换仪为美能达MS7000。
2.2 转换方式:缩微胶片的构成方式采用“高对比”,压缩方式采用“G4-2D”,保存方式采用“黑白”方式。
2.3 分辨率:对于一般缩微胶片,转换分辨率采用200dpi。对于报纸等效果较差,原始幅面较大的材料,转换分辨率采用300dpi。其他材料用户可根据需要进行调整。
2.4 文件存储类型:转换的图像存为TIF格式。
2.5 文件存储方式:档案按全宗号、目录号、案卷号分级建文件夹存储,其中的每一份文件也要单独建文件夹;资料按照资料编号建文件夹存储。
2.6文件夹命名办法:命名时,全宗、目录、案卷级文件夹分别按照其全宗号、目录号、案卷号命名。全宗号5位,目录号3位,案卷号5位,案卷中文件夹4位,资料号7位,文件中的文件名由机器自动生成,采用8位。不足以上位数的,以“0”补齐。
2.7 转换应尽量采用母片来进行。
3 补充说明
3.1 不同的缩微胶片转换仪可能参数设置会有不同,在2.2中的参数设置是针对美能达MS7000的。
3.2 缩微胶片有16mm和35mm两种,在选择扫描线数时,应根据具体情况来具体分析。对于字迹比较清晰而且缩微原件图像大小为A4或A3的,分辨率采用200dpi;对于字迹太小、不清或缩微图像尺寸大于A3的,扫描线数要适当增加,具体的增加程度以在原件尺寸下,在计算机上可以清晰的看出图像的内容为准。
3.3 转换后的图像按照档案和资料的不同而分别存储。档案的存储办法可参考“纸质档案数字化标准”中的3.4。对于报纸、地图等资料,以其资料号作为文件夹名,其中的内容按顺序从“1”开始编号
3.4 按照以上办法转换后的图像容量大小跟图像的清晰程度有很大关系,高质量的胶片转换后不仅图像的清晰度更高,而且形成的文件容量也更小。因此在转换时,应该采用高清晰度的母片。
第四章 声音档案数字化标准
声音档案数字化是指通过硬件设备将声音档案转换为用“0”和“1”表示的数字化数据并加以存储的过程。声音档案数字化必须保证声音档案的真实性、完整性、有效性。在使用时必须保证数字化数据能从存储介质中正确读取,并能还原成声音信号输出。
1基本概念
1.1采样频率和样本大小 采样频率和样本大小是反映数字化声音档案的精确度高低的两个最基本的参数。采样频率即每秒钟采集多少个声音样本,用Hz或kHz来表示。样本大小一般指声音卡的二进制位数,有8位、12位、16位等。采样频率越高,声音波形就表达得越精确,而需要的存储空间就越大。
1.2奈奎斯特理论 奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把数字表达的声音还原成原来的声音。采样频率的高低是根据奈奎斯特理论以及声音信号本身的最高频率决定的。
1.3声道 声道数是声音处理的重要参数,早期存储声音的接触式唱片最多有两条声道,后来的录音机、调频广播、录像机甚至连数字激光唱盘也都采用两个声道的规格,现在的杜比AC-3采用5+1个声音通道,即左、中、右3个声道,左后、右后两个环场声道以及一个次低音声道,另外,还有7+l声音通道等技术。
1.4模数转换(ADC) 模数转换是将输入的模拟音频信号转换成数值,数字化后的音频信号是数值,是离散的数,并非像音频信号一样为连续的波形。
1.5数模转换(DAC) 数模转换完成将数字化的声音数据转换成模拟音频信号输出,它是模数转换的逆过程。其主要的指标与模数转换相同。
2硬件要求
2.1放音设备 放音设备必须能正确地将声音源输出。放音设备应根据原载体型号进行选择,如盒式录放机、开盘式放音机等等。
2.2计算机配置 应选用性能稳定配置较高的计算机作为数字化设备。本标准推荐的计算机配置为:CPU为奔腾系列的P4以上,硬盘为20G以上,内存128M以上,操作系统为WIN98以上,有专用声卡。
2.3存储设备 声音信号除存储在硬盘中随机使用外,应备份至磁带或光盘上脱机保存,如有必要,应异地保存。
2.4声音卡 声音卡(声卡)是声音数字化和数字化声音转换为可听到的模拟信号的部件。声音卡必须符合声音档案数字化要求的技术指标和功能。
2.4.1声音卡的采样频率至少应支持11.025kHz、22.05kHz、44.1kHz,最好支持48kHz。
2.4.2声音卡必须是16位以上声音卡。
2.4.3声音卡的声道必须是双声道以上。
2.4.4声音卡应能够支持多种声源输入,如CD Audio、MIDI、话筒、线性输入等。
3技术标准
3.1存储标准:声音档案数字化时要选用标准和通用的格式。本标准规定使用的声音文件存储标准为:WAV或MP3。
3.2采样频率:声音档案数字化选用44.1kHz作为声音采样标准。对于DVD中的声音选用48kHz
4补充说明
4.1声音档案数字化时必须远离强磁场等外部干扰。
4.2数字化过程中应检查声音档案载体质量,确保声音档案的真实性、完整性。
第五章 影像档案数字化标准
影像档案数字化是指通过硬件设备将影像档案转换为用“0”和“1”表示的数字化数据并加以存储的过程。影像档案数字化必须保证其真实性、有效性、完整性。在使用时必须保证数字化数据能从存储介质中正确读取,并还原成影像信号输出。
1基本概念
1.1视频制式 视频制式标准主要有NTSC制式、PAL制式和SECAM制式。中国及欧洲大多数地区使用PAL制式,规定每秒25帧,每帧625行,每行240-400个像素点,隔行扫描方式,场频为50HZ,行频为15625Hz。
1.2视频数据压缩 根据解码后的数据与原始数据是否安全一致,数据压缩方法一般被划分为可逆编码方法和不可逆编码方法两类。
1.3用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。
1.4用不可逆编码方法压缩的图像,其还原图像较之原始图像存在—定的误差,但视觉效果一般是可被接受的。
1.5常用的有损压缩方法有:脉冲编码调制(PCM)、预测编码、变换编码(主要是离散余弦变换方法)、插值和外推法(空域亚采样、时域亚采样、自适应)等。
2硬件要求
2.1放像设备 放像设备必须能正确地将影像信息源输出。放像设备应根据原载体型号进行选择,如VHS放像机、3/4放像机等。
2.2计算机配置 应选用性能稳定配置较高的计算机作为数字化设备。本标准规定的计算机配置为:CPU为奔腾系列的P4 以上,CPU频率为IG以上,最好为双CPU。硬盘最好为SCSI总线结构,容量为40G以上,转数为10000转/分以上。内存为256M以上。操作系统为WIN98以上。安装有视频采集压缩卡。视频压缩卡应有回放功能或安装回放卡。
2.3存储设备 影像信号除存储在硬盘中随机使用外,应备份至磁带或光盘上脱机保存,如有必要,应异地保存。
2.4视频采集卡 视频采集卡分为广播级视频采集卡,专业级视频采集卡,民用级视频采集卡。
他们的区别主要是采集的图象指标不同。广播级视频采集卡的最高采集分辨率一般为768X576(均方根值)PAL制,或720X576(CClR-601值)PAL制25帧每秒,或640X480/720X480 NTSC制30帧每秒最小压缩比一般在4:1以内。这一类产品的特点是采集的图象分辨率高,视频信噪比高,缺点是视频文件庞大,每分钟数据量至少为200MB。广播级模拟信号采集卡都带分量输入输出接口,用来连接BetaCam摄/录像机。此类设备是视频采集卡中最高档的,用于电视台制作节目。
专业缎视频采集卡的级别比广播级视频采集卡的性能稍微低一些,分辨率两者是相同的,但压缩比稍微大一些,其最小压缩比一般在6:1以内.输入输出接口为AV复合端子与S端子,此类产品适用于广告公司,多媒体公司制作节目及多媒体软件。
民用级视频采集卡的动态分辨率一般最大为384X288,PAL制25帧每秒,320X240,30帧每秒,NTSC制。(个别产品的静态捕捉分辨率为768X576),输入端子为AV复合端孑与S端子,绝大多数不具有视频输出功能。
另外,有一类视频捕捉卡是比较特殊的,这就是VCD制作卡,从用途上来说它是应该算在专业级,而从图像指标上来说他只能算做民用级产品。它的分辨率为352X288,25帧每秒,PAL制,320X288,30帧每秒,NTSC制。它采集的视频文件为MPEG文件。采用MPEGl压缩算法,所以文件尺寸较小,但视频指标低于AVl文件。
2.5压缩卡 压缩卡是影像档案数字化的关键部件。压缩卡必须符合影像档案数字化要求的技术指标和功能。压缩卡应支持采集MPEG1和MPEG2。压缩卡的码流最高值至少应为10MB。压缩卡应能够支持多种影像源输入,如S-VIDEO等。
2.6编辑机 本标准推荐使用非线性编辑机。
3技术标准
3.1存储标准:影像档案数字化选用MPEG2格式作为影像存储标准。
3.2数据传输率:影像档案数字化的数据传输率应不低于4Mb/S。
4、补充说明
4.1影像档案数字化时必须远离强磁场等外部干扰。
4.2数字化过程中应检查载体质量,确保影像档案的真实性、完整性。