大數(shù)據(jù)時(shí)代存量檔案數(shù)字化信息采集
發(fā)布時(shí)間:2018-07-01 來源: 美文摘抄 點(diǎn)擊:
摘要:紙質(zhì)檔案的利用存在諸多不便,大數(shù)據(jù)時(shí)代對檔案數(shù)據(jù)信息綜合利用提出了更高的要求,通過檔案數(shù)字化信息采集才能實(shí)現(xiàn)檔案數(shù)據(jù)信息的綜合利用,檔案數(shù)字化信息的采集是一項(xiàng)非常重要的基本工作。存量檔案作為常年積累下來的檔案,存量檔案數(shù)據(jù)信息的采集是檔案工作的基礎(chǔ),工作流程包括掃描、著錄、數(shù)據(jù)存儲、校對、OCR文字識別等,每個(gè)環(huán)節(jié)嚴(yán)謹(jǐn)?shù)墓ぷ髦贫群鸵?guī)范的工作紀(jì)律是保證準(zhǔn)確率的基本條件,新技術(shù)的應(yīng)用亦必不可少。
關(guān)鍵詞:存量檔案;數(shù)字化;掃描;OCR文字識別
一、引言
隨著計(jì)算機(jī)信息化技術(shù)的應(yīng)用和普及,大數(shù)據(jù)時(shí)代的到來,國家提出了“互聯(lián)網(wǎng)+”的發(fā)展戰(zhàn)略,適應(yīng)了現(xiàn)實(shí)的迫切需求,現(xiàn)如今,不管是生活上(如網(wǎng)上購物、手機(jī)APP叫外賣、網(wǎng)上約出租車、共享單車),還是工作上(如財(cái)務(wù)信息系統(tǒng)、人事管理系統(tǒng)、質(zhì)量管理系統(tǒng)、檔案信息系統(tǒng)、科技信息系統(tǒng)),信息化為我們提供高效服務(wù)的同時(shí),也在深刻的改變和影響著我們每一個(gè)人。進(jìn)入大數(shù)據(jù)時(shí)代,大規(guī)模數(shù)字存儲系統(tǒng)實(shí)現(xiàn)應(yīng)用降低了數(shù)據(jù)存儲的成本,許多以前無法存儲的數(shù)字信息也可以保存下來[1],檔案的數(shù)字化同樣產(chǎn)生了大量的數(shù)字信息,在大數(shù)字時(shí)代的檔案利用會越來越便捷。
檔案信息化系統(tǒng)正是基于信息化大發(fā)展的背景下大力建設(shè)的,檔案信息化系統(tǒng)可有效避免紙質(zhì)檔案在利用的過程中遭到損壞,以確保檔案完整性,改善存量檔案的存儲環(huán)境,檔案信息化系統(tǒng)的實(shí)現(xiàn),使檔案的利用效率更高,跨越了時(shí)間和空間的限制,節(jié)省了大量人力資源,有效降低了檔案保管單位的利用成本[2],方便統(tǒng)計(jì)和進(jìn)行遠(yuǎn)程查詢。存量檔案數(shù)據(jù)信息的采集是主要包括掃描、著錄、數(shù)據(jù)存儲、校對、OCR文字識別等工作流程,本文將進(jìn)行詳細(xì)分析。
二、存量檔案掃描
。ㄒ唬⿸呙铚(zhǔn)備
增量檔案的信息化掃描工作是業(yè)主方的常態(tài)工作內(nèi)容,掃描工作量比較固定,可以由業(yè)主方安排專門的人員完成,但在承擔(dān)掃描工作前,一定要進(jìn)行前期的培訓(xùn),使其符合檔案掃描崗位的要求。相對而言,存量檔案的掃描工作量特別大,耗費(fèi)時(shí)間長,業(yè)主方的工作通常是定人定崗,一般難以抽調(diào)大量人力完成存量檔案的掃描工作。存量檔案掃描應(yīng)建立在預(yù)先制定的規(guī)則之上,最好外包至專業(yè)的掃描公司。掃描公司自身有一套具體的人員和工作質(zhì)量管控的辦法,執(zhí)行力強(qiáng),業(yè)主方需安排專人配合,操作檔案信息管理系統(tǒng),確保檔案信息管理系統(tǒng)正確操作、保證信息安全,業(yè)主方內(nèi)部人員進(jìn)行掃描圖片、著錄條目的檢查、修改、打印工作,第一輪檢查工作完成后,將糾錯(cuò)結(jié)果返還至掃描公司,由掃描公司進(jìn)行確認(rèn)修改,修改后的內(nèi)容再由業(yè)主方進(jìn)行確認(rèn),執(zhí)行嚴(yán)格到位的情況下,即可保證存量檔案掃描工作的準(zhǔn)確無誤。
掃描場地要根據(jù)業(yè)主單位及掃描公司投入的設(shè)備及人力確定適宜的面積,準(zhǔn)備掃描場地。掃描場地要具有良好的采光、通風(fēng)條件以及消防、防盜設(shè)施,場地位置應(yīng)距離庫房較近,便于檔案的調(diào)卷及還卷,防止運(yùn)輸過程中損壞檔案,確保檔案的安全[3]。
(二)掃描過程注意事項(xiàng)
檔案信息化一定要保證質(zhì)量的情況下,提高數(shù)量,即使檔案糾錯(cuò)及質(zhì)檢非常嚴(yán)格,也難以完全應(yīng)對錯(cuò)誤百出的情況,不僅降低了檔案信息化工作的準(zhǔn)確度,也占用了大量從事糾錯(cuò)和質(zhì)檢的人力資源,降低了工作效率,再者,檔案掃描工作完成后,即錄入檔案信息管理系統(tǒng),如果在檔案信息系統(tǒng)利用的過程中,發(fā)現(xiàn)電子檔案的錯(cuò)誤之處,返工的成本則會成倍增加。
掃描工作進(jìn)行的過程中,要確保掃描儀、掃描軟件的正確操作,選購掃描儀要注重儀器的掃描速度、圖片效果及公司的售后服務(wù),選購品質(zhì)、技術(shù)和服務(wù)有保障的品牌,保證掃描圖片的質(zhì)量及正常運(yùn)行,使圖片曝光和色調(diào)合適,圖片不容許歪斜。
存量檔案通常年代久遠(yuǎn),紙質(zhì)檔案存放時(shí)間長,可能會導(dǎo)致檔案的質(zhì)量較差,檔案由于其不可再生的屬性,且諸多檔案原件具有法律效力和歷史意義,在進(jìn)行掃描時(shí)要特別小心謹(jǐn)慎,稍有不慎就可能造成損壞。根據(jù)存量檔案的原文類型,掃描人員可選用黑白、灰度、彩色三種掃描方式。大多數(shù)檔案圖文是黑白文稿,可選用黑白掃描方式。對于存在灰度變化的檔案圖文,如黑白照片,則選用灰度掃描方式,許多檔案存在手寫方式不同、字跡不清的情況,亦須采用灰度掃描方式,增強(qiáng)其逼真性。彩色的檔案圖文,掃描時(shí)采用彩色掃描方式[4]。
。ㄈ⿸呙栉募鎯
由于TIFF格式的圖像具有較高的位信息,還能以無損壓縮的方式存儲,較適合作為保真要求高的檔案圖文,應(yīng)用廣泛。由于檔案掃描后需占用大量的存儲空間,需根據(jù)業(yè)主方要求及顯示效果,設(shè)定合適的分辨率,一般大于200dpi,過大的分辨率不僅造成了存儲空間的浪費(fèi),還會占用檔案信息系統(tǒng),使服務(wù)器負(fù)擔(dān)過重,造成系統(tǒng)響應(yīng)遲緩。
在應(yīng)用的實(shí)踐中,可以將TIFF格式的圖像轉(zhuǎn)換成PDF文件,這樣可以將擁有一定數(shù)量頁碼的檔案文件合成為一個(gè)PDF文件,既能降低檔案電子文件所占用的空間,又能方便使用。由于檔案文件種類繁多、數(shù)量非常多,服務(wù)器存儲空間有限,不能大量長期存儲,無法滿足存量檔案的存儲要求。實(shí)際操作中,需采用多個(gè)移動硬盤進(jìn)行存儲,還需要備份,以免移動硬盤受到意外或不可抗力造成數(shù)據(jù)的損壞。采用光盤刻錄存儲,存儲空間大,不易損壞,也不失為一種較好的存儲方式。在實(shí)際應(yīng)用中,采用異地備用存儲的方式,能進(jìn)一步保障檔案數(shù)據(jù)存儲的安全性。
。ㄋ模⿸呙柽^程監(jiān)督
外包至掃描公司首先要保證檔案信息的安全性,與掃描公司及具體在業(yè)主方實(shí)地工作的人員簽訂保密協(xié)議,掃描的數(shù)據(jù)不能帶出業(yè)主方指定的地點(diǎn),掃描公司所使用的電腦USB數(shù)據(jù)傳輸口應(yīng)封掉,不應(yīng)接入互聯(lián)網(wǎng),業(yè)主方應(yīng)進(jìn)行巡查及抽查,掃描公司應(yīng)承擔(dān)主體責(zé)任和義務(wù)。
許多存量檔案是經(jīng)過鑒定、整理后形成的長期的、系統(tǒng)的材料,自身具有完整性和系統(tǒng)性,切不可打亂了檔案自身的內(nèi)部聯(lián)系,保證存量檔案掃描后的電子文件齊全完整,是存量檔案利用的前提[5]。對于存量檔案中可能夾雜的一些涉密檔案,在檔案調(diào)出庫房的同時(shí),應(yīng)由業(yè)主方所派人員即時(shí)檢查撿出,由業(yè)主方內(nèi)部進(jìn)行處理。
相關(guān)熱詞搜索:存量 數(shù)字化 信息采集 檔案 時(shí)代
熱點(diǎn)文章閱讀