档案网

学术园地

您所在的位置:首页 > 学术园地 > 学术交流

档案数字化的质量控制——网络传输
发布部门: 日期:2017-11-13 浏览次数:此处显示稿件总访问量

华宏 徐建华 何涛 陈阳林  (南京市档案局  江苏南京  210019

 

摘要自电子技术的发展,电子计算机在档案领域的应用越来越广泛,各个档案室(馆)对档案的数字化工作不断加强,随之而来的是信息化模式、标准理解的缺失,理解程度上大同迥异,严重影响了档案集群化发展,同时在数字化后的电子档案迁移、传输、备份中,文件的损坏、丢失日显突出,本文通过对目前数字化档案室(馆)在数字化过程中的网络传输现状和建设中的问题进行分析,同时对怎样建立一个适度规模的数字化网络传输平台提出了自己的看法。

 

关键词:网络传输 数字档案室 数字档案馆 数字化建设 电子档案 

 

Abstract: Since the development of electronic technology, computers are applied wider and wider in the archival field. All record offices are continuously strengthening the archives digitalization, and along with it come the lack of information model and standard understanding, and a substantial difference in understanding, which affect the archives clustering development seriously. At the same time during the course of migration, transmission and backup of the digitalized electronic files, file damage and loss is becoming more and more obvious. Therefore, this article aims to make an analysis on the existing situation and relevant problems caused in the network transmission construction during the digitalization of electronic record offices, and put forward its own view on how to establish a digitalized network platform on a moderate scale.

Keywords: network transmission; digital record room; digital record office; digitalization; Electronic file

1 数字化档案室(馆)数字化平台建设的现状

经过近几年各个档案高速发展数字档案馆(室)建设,我国的档案信息化工作不断攀升,随着大量数据的产生,网络传输成为数字化工作重要脉搏,如何安全有效的进行高速传输成为数字化建设的基础。目前数字化生产平台都是应用简单的CS模式加存储方式,更有大量的数字化平台采用的是直接拷贝迁移,无法保障数字化后信息的安全,容易产生文件损坏,丢失,同时文件迁移过程中产生的权限丢失,也导致大量文件不可读,为此根据生产规模、生产流程、数据量大小,建立一个适度规模的数字化生成平台是十分必要的。

1.1数字化平台环境

软件环境:Hyper-V Server 2012 Windows2003 ServerCentos6.3,数据库软件Microsoft SQL ServerMySql(根据委托数字化加工供应商(以下称供应商)软件软件平台,供应商自选并提供平台,本馆只提供虚拟平台)供应商数字化生产软件。

硬件环境:DELL3800磁盘阵列、联想RD34070PC机、12台高速平板扫描仪、主干网光钎、千兆桌面,扫描仪及部分PC机由供应商提供,故无具体型号。

应用环境:虚拟机宿主机管理PowerShell管理,Windows Server虚拟机终端登录管理,Centos虚拟机 SSH登录管理,生产平台工作站微软Windows系统

 

1.2我馆数字化现状

进入2000年以来,我馆开始对馆藏档案进行小规模的数字化,主要针对的是馆藏影像、照片和实物,同时开始对原始照片档案进行进馆工作,2013年开始,我馆对文书档案大规模进行数字化工作,目前我的数字化工作量从原来的10几万画幅/年增长到500多万画幅/年,画幅要求:现行卷扫描采取全彩色模式,分辨率取300dpi,扫描生成的图像文件须为单页TIFF格式,历史卷扫描采取全彩色模式,分辨率取200dpi,扫描生成的图像文件须为单页TIFF格式,图像文件采用不压缩或无损压缩(LZW),单个图像文件大小在10M-20M之间,生成文件作为原始文件进保存库,经有损压缩后加工成双层PDF,应用于应用平台。数字化加工流程见图一,数字化网络传输流程见图二。

档案实体处理流程

数字化加工处理流程

档案前处理

加工中心周转库房

装订还原

档案交接

档案馆库房

档案扫描

图像质检

目录校对

索引质检

数据验收

数据备份

 

 

 

 

 

 

 

 

 

 

 

 

 


图一 南京市档案馆数字化加工流程

档案扫描

网络存储

数据库

 

前处理目录数据

图像处理

 

图像质检

索引质检

应用数据处理

及质检

移交整体质检

及移交迁移

 

 

 

 

 

 

 

 

 

 


图二 南京市档案馆数字化网络传输流程

 

 

1.3供应商公司现状

档案数字化公司属于劳动密集型企业,也属于新兴产业,国内的规模企业大小不一、技术能力参差不齐,人员管理及人员流动严重影响数字化质量及可承担项目的大小。

1.3.1小规模企业

小规模企业,30人以下(常规固定岗位)的企业,这部分企业往往没有自己的数字化加工管理平台,在数据传输上基本采用拷贝或简单网络共享,人为干预因素过多,没有专门数据管理人员,文件在拷贝和传输过程中容易丢失、损坏、人为放错文件的现象,此部分企业适宜加工20万画幅以下的项目。

1.3.2中规模企业

中规模企业,30-60人的企业,这部分企业一般极少有自己的数字化加工管理平台,在数据传输上基本起用网络传输,但没有软件技术人员,在网络传输过程中没法保障传输文件质量,特别是对不同采购方的质量及存储结构只能用人工干预的方式进行解决,出错率较高,对于150万画幅以下的数字化项目可以接受,承担更大项目,由于人工干预过多,一旦出现整体性错误,将是一场噩梦。

1.3.3大规模企业

大规模企业,60人以上的企业,这部分企业基本有自己的数字加工管理平台,在文件传输上由于采购方提供环境不同,数据传输基本也不能很好保障,但由于大规模企业有一定的技术人员提供支持,可以在自主研发的软件上弥补大部分的因传输引起的质量问题,同时用软件干预最终数据和进行质量控制大大减少了数据的出错概率。

2现阶段我馆数字化网络传输过程中存在的问题

在数字化加工过程中,我馆由于才用的是单页TIFF格式,不允许进行有损压缩,因而单个图像文件过大,单页A4画幅,32位彩色,文件大小在10M-20M,日量产3万画幅(均值,峰值日量产4.5万画幅)单日仅扫描上传量:

峰值日产量 × 文件大小 = 45000 × (10 + 20) / 2 = 675000 MB

单从日成产量上来看,数据量非常庞大,再计算图像处理、索引质检等,数据量将成倍增长,对于高保真采购方来说,对网络传输的质量及速度则倍加关注。

2.1 图像文件格式的选择,决定网络传输的吞吐率饱和的瓶颈

上世纪90年代以后,计算机存储单元价格的降低以及运算能力的提高,越来越多的写实图像在PC机中应用,在计算机高速发展的这20多年里,图像技术也同时在高速发展,诞生了10多种的常用图像算法,我馆一直沿用老的TIFF格式标准,存储格式大,在数字化过程中,占用大量存储空间,消耗大量网络带宽,严重影响生产效率。由于没有专门详细的行业标准,各个应用用户只能不断在生产实践中总结,选择适合自己应用的存储格式,存储格式也就成为困扰数字化平台的构成的决定因素。

2.2 网络平台的设计不合理

早期,我馆进行数字化加工过程中,由于经费等原因,服务器、存储由PC机代替,再者本着节省的原则,对网络规划设计不完善,如图片数据和加工数据库数据共用主干网,而导致大量上传图片数据时,各数字化加工机器无法有效读取、写入数字化加工过程中产生的辅助数据,造成部分数据的丢失,对数字化加工的完整性产生严重影响。

2.3 没有完善的网络校验机制

我馆数字化加工过程中,偶尔存在上传文件不完整,或者打不开等的现象,虽然数量极少,但是对于数字化加工却是极大严重问题,他将严重影响数字化的最终质量,而对于小规模的数字化加工,人工检查可以解决部分问题,但也不能保障完全正确,而对于大规模的数字化加工生产,人工检查将是一场恶梦,为此在数字化过程中,各个环节拥有必要的校验机制是十分必要的,他能保障数据的最终完整准确。

2.4 人工上传数据,造成人为失误产生数字化加工串号、重号、丢失等现象

在数字化加工过程中,很多串号、重号、文件丢失等现象,系加工过程中对原有数据处理后,然后人工传输造成的,数字化加工中,加工人员高强度简单重复性劳动容易产生工作疲劳,人工传输很难保障传输的准确性,建立必要的自动上传措施,减少人工干预的机率将大大保障数据的准确性。

3现阶段我馆数字化网络传输中存在问题的对策

基于我馆数字化网络传输中存在的问题,我觉得采取恰当的措施是可以有效地减少数字化过程中传输对数字化质量带来的危害。

3.1 选择适当的数字化加工图像文件格式,采用适当通用图像存储方案

我馆采用的是TIFF图像文件格式,很多人片面认为TIFF就是无损压缩的的代名词,JPEG格式就是有损压缩图片,其实不然,TIFF其实支持多种编码方法,其中也包含JPEG编码压缩,JPEG格式也不是一定是有损压缩编码,比如说JPEG2000,同时支持有损和无损压缩。采用TIFF图像文件格式JPEG编码压缩的图像文件,Windows环境,在缺少第三方软件的前提下是无法打开,因此采用通用的图像文件格式将是数字化方案的首选条件,这才能够提供档案长期保存的安全性。其次,图像格式要具有高度的压缩性,只有有效减小图像文件体积才能保证数字化过程的稳定传输,同时也能够大大减少日后对数据的维护维护成本。再次,可采用还原性较好的有损压缩编码,一味追求保真性的代价就是不能够达到很好的性价比。

3.2 设计合理的网络传输平台,规划高效的加工流程

3.2.1网络平台设计

我馆由于经费等原因,数字化平台的搭建并非一步到位,是通过生产搭建逐年积累而成,数字化平台在扩展规模时,出现了多处瓶颈,在文件传输过程中出现卡顿现象,利用当初规划平台设计方案的冗余可以解决部分问题,但不能完全解决网络拥堵现象。对于本馆这种需求大数据量传输的平台,比较合理方案是主干网万兆,桌面千兆,10-15左右生产点,通过交换机堆叠接入万兆主干网,见图三

……

 

可扩展接入点

千兆交换机

 

万兆交换机

 

宿主计算机

存储

 

千兆工作区

 

 

万兆主干网区

 

 

……

生产机

……

 

 

 

 

 

 

 

 

 

 

 


图三 理想状态下数字化加工网络传输拓扑图

以本馆数字化日产量数据容量计算每日网络吞吐量

每日产量 = 675000 MB

上传扫描 = 上传1

图像处理 = 上传下载各2

图像质检 = 下载1

索引质检 = 下载1

应用处理 = 下载1

数据移交 = 下载1

图像质量校验不计算

总单日吞吐量 = 675000 MB × 7 = 4725000 MB

万兆网所需耗时(理论值) = 4725000 /1000 = 4725 ≈1.3小时

工作时所占带宽比(万兆) = 4725000 / 8 小时 × 60 × 60 × 1000 ≈ 0.16 = 16%

千兆网所需耗时(理论值) = 4725000 /100 = 47250 ≈13.1小时

网络传输总吞吐量在实际不可能采取饱和工作模式,经实测数字化传输平台正常工作,网络占用率不能高于40%,以我馆数据量容量,采用此种网络传输平台,可以符合工作需求,并且具有很好的冗余性和可扩展性。

 

3.2.2 流程设计

对于高保真数字化加工生产的项目,加工数据量大是个显著特点,中小规模的数字化加工项目采用以存储为中心,各个流程点对存储直接读取写入是一种简单方便的加工方式,但随之而来的是要求具有很高的网络带宽才能够支撑生产的需求。对于大规模甚至超大规模的数字化加工项目来说,万兆带宽的网络面对这些项目的数据,网络传输能力便有些捉襟见肘,面对带宽不够的问题,很多加工项目采用分时上传来解决,在上传过程中等待时间长,又会影响本身加工节点和下个加工节点的生产,降低了生产效率。变更加工的网络传输流程可以很好解决网络带宽瓶颈问题,优化后网络传输流程见图四

档案扫描

图像处理

图像质检

根据加工量分组

 

索引质检

数据验收

应用处理

存储

数据迁移

 

档案扫描

图像质检

图像处理

索引质检

 

 

 

 

 

 

 

 

 

 


……

 

万兆网络区

 

 

 

 


图四 优化后网络传输流程

此流程对供应商的能力有较高的要求,需要具有能够编写含后台传输及流程管理的软件,单纯采用手工模式,只能缓解网络压力,但对于流程管理及数据安全不利。

对于超大规模的的数字加工项目,图四网络传输流程网络吞吐率吃紧的话,可采用如下方法解决,见图五

 

 

 

存储

 

 

 

 

后续处理终端

万兆网络区

 

宿主服务器

终端控制数据

图像扫描

 

 

 

 

 


万兆主干网之外只传输扫描数据,对于数据后续处理加工,采用虚拟机,终端管理,加工数据直接在万兆网上传输。

3.3 采用HashCRC等文件校验,确保文件传输准确无误

庞大的数据在网络传输过程中难免造成丢失损坏,在百万级别的数据中,一旦出现文件件丢失或文件文件损坏,很难定位和查找,采用HashCRC等文件校验,就能很好的解决传输中文件丢失和文件损坏的问题,同时也为文件保存过程中判断文件是否改变作为重要评判标准。

3.4 使用软件控制传输,尽量减少人工操作,可以大大减少人工因素带来的错误

在数字化过程中,由于软件开发的不完善,多数的数字化供应商不能够按照各个采购商量身定做数字化软件,数字化供应商的软件不能够很好适应采购商的数字化环境,导致数字化流程和网络传输的不通畅,很多环节必须手工操作完成,人为操作带来的影响就是人工的操作失误,比如文件夹放错位置,图像放错位置,文件的误删除,不同工号间文件误操作导致文件互相覆盖,命名错误导致的文件相互覆盖等等,这些都给数字化的最终质量带来实质性的影响。为了尽可能的减少人工操作带,使用软件控制传输,命名,以及传输的控制权限,可有效防止上述事件的发生,保障数字的质量。

4对我馆数字化网络传输及流程的思考

基于以上我馆长期数字化发展过程中存在的问题和解决措施,下面对于怎样搭建适度的数字化平台进行分析,并提出自己的看法。

4.1 对于有高压缩存储文件格式图像的数字化加工项目

具有高压缩存储文件格式的图像文件,由于图像文件占用的存储空间较小,在网络传输过程中消耗的网络带宽也相应较小,在整个数字化平台构建上,全部采用PC机搭建,各种服务可以采用PC机提供,对于网络上要求,普通的千兆网完全可以胜任,在文件传输过程中,主要考虑不在是网络传输的瓶颈,重点考虑的是传输过程中文件的损坏和丢失,因而建议,在数字化流程中,各节点对图像文件处理都加人校验机制(HashCRC)防止文件的损坏或丢失。

4.2 对于需要高保真文件存储格式图像的中规模数字化加工项目

有高保真要求的图像格式文件,图像文件过于庞大,在网络传输过程中占用网络带宽较多,设计良好的数字化平台和规划合理的加工传输流程可以很好保障数字化项目的完成。总结我馆的经验,对于中规模数字化加工项目,数字化平台的搭建,建议使用千兆或千兆以上的网络,存储数据的庞大,存储是必要的,便于数据的完整性检查。提供数据库服务器用PC机即可,但必须是独立的数据库服务,不可和其他服务混搭,以免造成数据请求延迟或丢失,为了保障数据的安全性、完整性,必须有校验机制。

4.3 对于需要高保真文件存储格式图像的大规模数字化加工项目

对于需要高保真文件存储格式图像的大规模数字化加工项目,在数字化平台搭建上,建议采用专门的服务器提供各种不同的网络服务,主干网采用万兆光纤构建,工作机采用千兆桌面,对于网络传输还存在瓶颈的大规模项目,可以采用以下两种方法进一步解决网络传输的瓶颈。

4.3.1 采用缩略图

在数字化加工的图像质检和索引质检等过程中没有必要采用实图传输,在上传时同时上传一份缩略图,质检时只下载缩量图,,可以极大减少网络传输的吞吐量。

4.3.2 采用虚拟机

主服务器和存储都在一个主干网中,服务器可以虚拟成多个工作终端,除扫描流程外,其他操作都用服务器直接读取,大量数据流控制在万兆主干网中

结论

通过前文对我馆数字化的现状、存在的问题及解决对策的阐述,为不同规模数字平台提供一个搭建参考,以达到适度规模数字化平台并且经济资源的充分利用的效果。

 

 

致谢语

 

 

 

参考文献

孟秀丽.对馆藏档案数字化加工若干问题的思考[J].四川档案,2011(5):40-41

王婉萍.档案数字化工作中如何选择外包公司[J].档案管理,2013(2):85-85

董献.谈档案数字化建设中区域网络管理问题[J].浙江档案,2005(10):20-21

纸质档案数字化技术规范DA/T31-2005[S].中华人民共和国档案行业标准.2005

档案网