东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        大數(shù)據(jù)時代存量檔案數(shù)字化信息采集

        發(fā)布時間:2018-07-01 來源: 美文摘抄 點擊:


          摘要:紙質(zhì)檔案的利用存在諸多不便,大數(shù)據(jù)時代對檔案數(shù)據(jù)信息綜合利用提出了更高的要求,通過檔案數(shù)字化信息采集才能實現(xiàn)檔案數(shù)據(jù)信息的綜合利用,檔案數(shù)字化信息的采集是一項非常重要的基本工作。存量檔案作為常年積累下來的檔案,存量檔案數(shù)據(jù)信息的采集是檔案工作的基礎(chǔ),工作流程包括掃描、著錄、數(shù)據(jù)存儲、校對、OCR文字識別等,每個環(huán)節(jié)嚴謹?shù)墓ぷ髦贫群鸵?guī)范的工作紀律是保證準確率的基本條件,新技術(shù)的應(yīng)用亦必不可少。
          關(guān)鍵詞:存量檔案;數(shù)字化;掃描;OCR文字識別
          一、引言
          隨著計算機信息化技術(shù)的應(yīng)用和普及,大數(shù)據(jù)時代的到來,國家提出了“互聯(lián)網(wǎng)+”的發(fā)展戰(zhàn)略,適應(yīng)了現(xiàn)實的迫切需求,現(xiàn)如今,不管是生活上(如網(wǎng)上購物、手機APP叫外賣、網(wǎng)上約出租車、共享單車),還是工作上(如財務(wù)信息系統(tǒng)、人事管理系統(tǒng)、質(zhì)量管理系統(tǒng)、檔案信息系統(tǒng)、科技信息系統(tǒng)),信息化為我們提供高效服務(wù)的同時,也在深刻的改變和影響著我們每一個人。進入大數(shù)據(jù)時代,大規(guī)模數(shù)字存儲系統(tǒng)實現(xiàn)應(yīng)用降低了數(shù)據(jù)存儲的成本,許多以前無法存儲的數(shù)字信息也可以保存下來[1],檔案的數(shù)字化同樣產(chǎn)生了大量的數(shù)字信息,在大數(shù)字時代的檔案利用會越來越便捷。
          檔案信息化系統(tǒng)正是基于信息化大發(fā)展的背景下大力建設(shè)的,檔案信息化系統(tǒng)可有效避免紙質(zhì)檔案在利用的過程中遭到損壞,以確保檔案完整性,改善存量檔案的存儲環(huán)境,檔案信息化系統(tǒng)的實現(xiàn),使檔案的利用效率更高,跨越了時間和空間的限制,節(jié)省了大量人力資源,有效降低了檔案保管單位的利用成本[2],方便統(tǒng)計和進行遠程查詢。存量檔案數(shù)據(jù)信息的采集是主要包括掃描、著錄、數(shù)據(jù)存儲、校對、OCR文字識別等工作流程,本文將進行詳細分析。
          二、存量檔案掃描
         。ㄒ唬⿸呙铚蕚
          增量檔案的信息化掃描工作是業(yè)主方的常態(tài)工作內(nèi)容,掃描工作量比較固定,可以由業(yè)主方安排專門的人員完成,但在承擔(dān)掃描工作前,一定要進行前期的培訓(xùn),使其符合檔案掃描崗位的要求。相對而言,存量檔案的掃描工作量特別大,耗費時間長,業(yè)主方的工作通常是定人定崗,一般難以抽調(diào)大量人力完成存量檔案的掃描工作。存量檔案掃描應(yīng)建立在預(yù)先制定的規(guī)則之上,最好外包至專業(yè)的掃描公司。掃描公司自身有一套具體的人員和工作質(zhì)量管控的辦法,執(zhí)行力強,業(yè)主方需安排專人配合,操作檔案信息管理系統(tǒng),確保檔案信息管理系統(tǒng)正確操作、保證信息安全,業(yè)主方內(nèi)部人員進行掃描圖片、著錄條目的檢查、修改、打印工作,第一輪檢查工作完成后,將糾錯結(jié)果返還至掃描公司,由掃描公司進行確認修改,修改后的內(nèi)容再由業(yè)主方進行確認,執(zhí)行嚴格到位的情況下,即可保證存量檔案掃描工作的準確無誤。
          掃描場地要根據(jù)業(yè)主單位及掃描公司投入的設(shè)備及人力確定適宜的面積,準備掃描場地。掃描場地要具有良好的采光、通風(fēng)條件以及消防、防盜設(shè)施,場地位置應(yīng)距離庫房較近,便于檔案的調(diào)卷及還卷,防止運輸過程中損壞檔案,確保檔案的安全[3]。
          (二)掃描過程注意事項
          檔案信息化一定要保證質(zhì)量的情況下,提高數(shù)量,即使檔案糾錯及質(zhì)檢非常嚴格,也難以完全應(yīng)對錯誤百出的情況,不僅降低了檔案信息化工作的準確度,也占用了大量從事糾錯和質(zhì)檢的人力資源,降低了工作效率,再者,檔案掃描工作完成后,即錄入檔案信息管理系統(tǒng),如果在檔案信息系統(tǒng)利用的過程中,發(fā)現(xiàn)電子檔案的錯誤之處,返工的成本則會成倍增加。
          掃描工作進行的過程中,要確保掃描儀、掃描軟件的正確操作,選購掃描儀要注重儀器的掃描速度、圖片效果及公司的售后服務(wù),選購品質(zhì)、技術(shù)和服務(wù)有保障的品牌,保證掃描圖片的質(zhì)量及正常運行,使圖片曝光和色調(diào)合適,圖片不容許歪斜。
          存量檔案通常年代久遠,紙質(zhì)檔案存放時間長,可能會導(dǎo)致檔案的質(zhì)量較差,檔案由于其不可再生的屬性,且諸多檔案原件具有法律效力和歷史意義,在進行掃描時要特別小心謹慎,稍有不慎就可能造成損壞。根據(jù)存量檔案的原文類型,掃描人員可選用黑白、灰度、彩色三種掃描方式。大多數(shù)檔案圖文是黑白文稿,可選用黑白掃描方式。對于存在灰度變化的檔案圖文,如黑白照片,則選用灰度掃描方式,許多檔案存在手寫方式不同、字跡不清的情況,亦須采用灰度掃描方式,增強其逼真性。彩色的檔案圖文,掃描時采用彩色掃描方式[4]。
         。ㄈ⿸呙栉募鎯
          由于TIFF格式的圖像具有較高的位信息,還能以無損壓縮的方式存儲,較適合作為保真要求高的檔案圖文,應(yīng)用廣泛。由于檔案掃描后需占用大量的存儲空間,需根據(jù)業(yè)主方要求及顯示效果,設(shè)定合適的分辨率,一般大于200dpi,過大的分辨率不僅造成了存儲空間的浪費,還會占用檔案信息系統(tǒng),使服務(wù)器負擔(dān)過重,造成系統(tǒng)響應(yīng)遲緩。
          在應(yīng)用的實踐中,可以將TIFF格式的圖像轉(zhuǎn)換成PDF文件,這樣可以將擁有一定數(shù)量頁碼的檔案文件合成為一個PDF文件,既能降低檔案電子文件所占用的空間,又能方便使用。由于檔案文件種類繁多、數(shù)量非常多,服務(wù)器存儲空間有限,不能大量長期存儲,無法滿足存量檔案的存儲要求。實際操作中,需采用多個移動硬盤進行存儲,還需要備份,以免移動硬盤受到意外或不可抗力造成數(shù)據(jù)的損壞。采用光盤刻錄存儲,存儲空間大,不易損壞,也不失為一種較好的存儲方式。在實際應(yīng)用中,采用異地備用存儲的方式,能進一步保障檔案數(shù)據(jù)存儲的安全性。
         。ㄋ模⿸呙柽^程監(jiān)督
          外包至掃描公司首先要保證檔案信息的安全性,與掃描公司及具體在業(yè)主方實地工作的人員簽訂保密協(xié)議,掃描的數(shù)據(jù)不能帶出業(yè)主方指定的地點,掃描公司所使用的電腦USB數(shù)據(jù)傳輸口應(yīng)封掉,不應(yīng)接入互聯(lián)網(wǎng),業(yè)主方應(yīng)進行巡查及抽查,掃描公司應(yīng)承擔(dān)主體責(zé)任和義務(wù)。
          許多存量檔案是經(jīng)過鑒定、整理后形成的長期的、系統(tǒng)的材料,自身具有完整性和系統(tǒng)性,切不可打亂了檔案自身的內(nèi)部聯(lián)系,保證存量檔案掃描后的電子文件齊全完整,是存量檔案利用的前提[5]。對于存量檔案中可能夾雜的一些涉密檔案,在檔案調(diào)出庫房的同時,應(yīng)由業(yè)主方所派人員即時檢查撿出,由業(yè)主方內(nèi)部進行處理。

        相關(guān)熱詞搜索:存量 數(shù)字化 信息采集 檔案 時代

        版權(quán)所有 蒲公英文摘 smilezhuce.com