[我國機構(gòu)知識庫模式構(gòu)建與流程設(shè)計]知識庫系統(tǒng)
發(fā)布時間:2020-03-07 來源: 短文摘抄 點擊:
[摘要]構(gòu)建與設(shè)計我國機構(gòu)知識庫建設(shè)模式與應(yīng)用流程,針對建設(shè)目標、實施對象、資金庫源、軟硬件選擇、組織管理方式、知識產(chǎn)權(quán)、內(nèi)容收集、服務(wù)模式、數(shù)字保存做出詳細規(guī)劃,并以南開大學(xué)為例,從內(nèi)容建設(shè)流程、數(shù)據(jù)處理流程、資源共享流程和檢索使用流程4部分展開設(shè)計分析。
[關(guān)鍵詞]機構(gòu)知識庫模式設(shè)計
[分類號]G250.76
1 前言
國外開放存取運動的興起帶動了國外機構(gòu)知識庫(Institutional Repository,縮寫為瓜)的蓬勃發(fā)展。而我國瓜建設(shè)則處于起步階段,在實施規(guī)模和數(shù)量上與國外相差甚遠。為加速中國學(xué)術(shù)研究進展,提高其學(xué)術(shù)水平與科技創(chuàng)新收益,m建設(shè)無疑成為中國學(xué)術(shù)界所急需解決的事項之一。為此,本文對我國(不含港澳臺地區(qū))瓜的建設(shè)模式進行大膽構(gòu)建,并以具體院校為例進行建設(shè)流程設(shè)計,以期為國內(nèi)iR建設(shè)提供啟示。
2 我國IR模式構(gòu)建
國內(nèi)外瓜建設(shè)環(huán)境的差別使我們不能照搬國外瓜建設(shè)模式,但按照國外IR建設(shè)經(jīng)驗,IR建設(shè)中最大的困難不是來自技術(shù),而是來自于人文環(huán)境、管理維護、內(nèi)容獲取、知識產(chǎn)權(quán)等方面。因此,在對我國IR進行建設(shè)之前必須對這些內(nèi)容做好規(guī)劃架構(gòu),以順利推動其建設(shè)過程。
2.1 建設(shè)目標
瓜的建設(shè)目標是以我國高?蒲袡C構(gòu)為依托,通過IR的建設(shè),加強高?蒲袡C構(gòu)之間學(xué)術(shù)資源的交流與整合,促進知識共享與創(chuàng)新,提升我國科研機構(gòu)的學(xué)術(shù)地位,并為全球范圍內(nèi)的學(xué)術(shù)交流做出貢獻。
2.2 實施對象與資金來源
IR的實施對象應(yīng)定位于高校與科研機構(gòu)。因這些機構(gòu)是學(xué)術(shù)成果的主要生產(chǎn)地與利用地。與其他機構(gòu)相比,它們在資金來源、學(xué)術(shù)成果搜集、職員技能等方面更具優(yōu)勢。
國外瓜建設(shè)的資金一般都來源于政府支持及一些私人基金會的贊助。如澳大利亞政府于2003年10月投入1200萬澳元進行IR的相關(guān)研究,其所支持的4個項目覆蓋本國15所大學(xué),且主要研究大學(xué)都建有IR。Fedora、DSpace軟件的研發(fā)則由商業(yè)公司和基金會資助。因我國商業(yè)公司和基金會對瓜建設(shè)少有投資,建設(shè)資金只能源于政府投入與高校支持?梢杂山逃块T每年撥出一定資金用于瓜建設(shè),各高?蒲袡C構(gòu)也可以從自身經(jīng)費中劃撥一部分用于IR。
2.3 軟件選擇與運行支持
構(gòu)建IR的軟件已研發(fā)出十幾種,可選范圍較大。但按照我國IR建設(shè)目標與實施對象的定位,本文推薦DSpace、Eprints、Fedora三種軟件。
?DSpace的數(shù)據(jù)組織方式是按照使用機構(gòu)的組織結(jié)構(gòu)來排列的,其所有的社區(qū)對應(yīng)不同的組織機構(gòu),社區(qū)之間可按照等級關(guān)系進行排列。這樣就特別適用于高校,因其社區(qū)設(shè)置完全可參照高校內(nèi)的院系來設(shè)置,便于資料的搜集、管理、使用。對運行環(huán)境,DSpace要求操作系統(tǒng)為UNIX、MacOSX或Windows,編程語言為Java 1.4,數(shù)據(jù)庫系統(tǒng)為PostgreSQL7.3或Oracle9,Web服務(wù)器為Apachel.5,對客戶端支持和瀏覽器無特殊要求。
?Eprints按照主題來組織數(shù)據(jù),方便用戶按不同的學(xué)科分類來查找。與其他軟件相比,Eptints簡單靈活,是全球使用最多,分布最廣的軟件。軟件使用的廣泛性增加了系統(tǒng)的基本能力,使其能以相對較低的技術(shù)花費和較快速度被注冊運行,也能按機構(gòu)具體要求進行改進。對運行環(huán)境,Eprints要求操作系統(tǒng)為UNIX、GNU、Linux或Solaris,編程語言為Per15,數(shù)據(jù)庫系統(tǒng)為MySQL 3.4/4.1,Web服務(wù)器為Apache2,客戶端支持需要Netscape、Mozilla、ie或Lynx瀏覽器。
?相對于其他軟件而言,F(xiàn)edora的功能比較齊全,系統(tǒng)體系的分層模式使其具有很強的靈活性和擴展性,不僅能適應(yīng)已有的數(shù)字資源類型,還能適應(yīng)新數(shù)字資源類型,適用于一些有著復(fù)雜應(yīng)用需求的瓜。對運行環(huán)境,F(xiàn)edora要求操作系統(tǒng)為UNIX、MacOSX或Windows,編程語言為Java1.5及以上,數(shù)據(jù)庫系統(tǒng)為Oracle9i、MySQL 4x/v3.23x或PostgreSQL,Web服務(wù)器為Tomcat5.x,客戶端支持需Web瀏覽器和SOAP客戶端。
2.4 組織方式
IR的組織方式可采用聯(lián)盟式,先由國家教育部發(fā)起瓜建設(shè)的聯(lián)盟項目,成立相關(guān)委員會,對IR建設(shè)給予政策與資金支持。最初的參與者可從我國科研成果豐富、實力雄厚,并有進行IR建設(shè)意向的高校中選出。委員會只對參與者進行宏觀指導(dǎo)和資金支持,對具體運作過程不做統(tǒng)一規(guī)定,由各參與者按照自身狀況來制定實施策略。委員會定期召開相關(guān)交流會,使各參與者能夠總結(jié)自身經(jīng)驗教訓(xùn),以方便他人借鑒。
2.5 管理方式
IR建設(shè)的宏觀管理由政府及教育部來承擔。各獨立瓜的管理運行職責可由該機構(gòu)的圖書館承擔,圖書館在此方面有著得天獨厚的條件。許多高校圖書館都建有數(shù)字圖書館,并從事數(shù)字化館藏建設(shè),圖書館員所擁有的分類、編目、元數(shù)據(jù)等專業(yè)技術(shù)正是IR建設(shè)所必需的。相比于校內(nèi)其他機構(gòu),圖書館面向全校服務(wù),與校內(nèi)院系及師生接觸最多,便于圖書館各學(xué)科館員向?qū)谠合敌麄鞴系膶嵤┮嫣,鼓勵師生參與IR建設(shè)。
2.6 知識產(chǎn)權(quán)
知識產(chǎn)權(quán)是限制IR建設(shè)的一個重要瓶頸。我國作者在發(fā)表論文后仍擁有該論文的版權(quán),對于作者非贏利性的傳播利用,出版商沒有明確限制。這種現(xiàn)狀下,作者本身就有權(quán)向瓜提交論文,不像國外作者需輾轉(zhuǎn)得到出版商許可。但考慮到出版體制的改革會帶來對知識產(chǎn)權(quán)歸屬問題的新規(guī)定,我們應(yīng)借鑒國外在此方面的得失,借助政府的規(guī)劃決策來避免學(xué)術(shù)期刊出版商對論文版權(quán)的絕對控制,以免形成學(xué)術(shù)出版的商業(yè)壟斷,加大瓜及相關(guān)項目的建設(shè)難度。
2.7 內(nèi)容獲取
內(nèi)容獲取和知識產(chǎn)權(quán)是緊密相連的兩個問題,也是制約瓜發(fā)展的重要瓶頸。國內(nèi)瓜建設(shè)的內(nèi)容獲取可采用以下方式進行。
第一,在觀念上要對IR的實施益處進行宣傳,讓高校內(nèi)各院系與師生明白向瓜提交內(nèi)容可提升個人及機構(gòu)在專業(yè)領(lǐng)域內(nèi)的聲譽,方便與同行間的學(xué)術(shù)交流,確立優(yōu)先發(fā)現(xiàn)權(quán),從而提高其參與度。
第二,借助高校管理部門的支持,要求各院系將其已有的、具有學(xué)術(shù)利用價值、便于轉(zhuǎn)化為數(shù)字化類型的學(xué)術(shù)成果向瓜整理提交,同時要確保正在生產(chǎn)的學(xué)術(shù)成果的管理與提交。
第三,目前,高校各學(xué)科領(lǐng)域經(jīng)常舉行學(xué)術(shù)交流會,學(xué)術(shù)交流會可反映各參與高校的學(xué)術(shù)水平,會議內(nèi)容也是學(xué)術(shù)成果的一部分,應(yīng)加以保存以便交流利用。對此,學(xué)術(shù)交流會的舉辦高;驒C構(gòu)應(yīng)將會上各專家學(xué)者的發(fā)言、會議論文等資料進行記錄保存,并存入本單位的IR中。
第四,高校圖書館都建有數(shù)字圖書館,并擁有特色數(shù)字館藏,可將這部分內(nèi)容加入瓜。另外,圖書館所存博碩士論文也是充實IR的一個重要來源。 第五,鼓勵師生進行自存檔,主動將其學(xué)術(shù)論文、專利、科研數(shù)據(jù)、教學(xué)資料等學(xué)術(shù)性資料提交給IR。
2.8 服務(wù)模式
國外IR的服務(wù)模式有中央集中式、分布式和收割式,其中以收割式服務(wù)模式應(yīng)用最為廣泛。收割式服務(wù)模式的基本原理是利用OAI-PMH協(xié)議從其他支持OAI協(xié)議的知識庫中收割元數(shù)據(jù),對其進行加工后重新暴露給最初的數(shù)據(jù)提供者和其他服務(wù)提供者?紤]到瓜建設(shè)的成本和發(fā)展規(guī)模,我國瓜的服務(wù)模式也應(yīng)以收割式為主,并可采用以下體系結(jié)構(gòu):①ePrints UK項目所使用的體系結(jié)構(gòu);②基于瀏覽入口(Portal-in-a-browser)的體系結(jié)構(gòu)。
?ePrints UK項目屬于從國家層面進行的收割式模型,其目的是發(fā)展國家化的服務(wù),使英國的教育社區(qū)能夠獲得英國知識庫的公共電子資源。它通過利用OAI-PMH從IR、學(xué)科知識庫、個人知識庫中收集元數(shù)據(jù),發(fā)展一個全國范圍的e.print服務(wù)提供知識庫。通過8個RDN(resource discoverynetwork)和建立在利茲大學(xué)的教育入口,供公眾使用。其體系結(jié)構(gòu)(見圖1):
基于瀏覽入口的服務(wù)模式由AlmaSwan等人提出。該模型簡單易用,采用標準協(xié)議,易于實施且成本較低。與ePrintsUK模型相比,該模型去掉了網(wǎng)絡(luò)服務(wù),并增加一個中央知識庫,用來除掉那些還沒有建立瓜的機構(gòu)成員所提交的論文。
其體系結(jié)構(gòu)如圖2所示:
OAI-PMH complialt repositorie0
2.9 數(shù)字保存
IR的數(shù)字保存不僅需要技術(shù)支持,還需要制定一系列的相關(guān)政策,來明確數(shù)字保存中所涉及到的一系列問題,對于保存什么,如何保存,由誰保存等問題做出規(guī)定,明確各環(huán)節(jié)的責任義務(wù),并在各環(huán)節(jié)中建立良好的合作機制。對于保存中所應(yīng)用到的各種技術(shù)方案,可以采用遷移、仿真、UVC、封裝、技術(shù)保存、數(shù)據(jù)再造等方法,具體到各瓜需要采用哪一種技術(shù)方案,可視自身情況,并綜合考慮該技術(shù)方案的可行性、可持續(xù)性、實用性與合理性,采用上述方案中的一種或多種混合使用。
3 我國IR模式應(yīng)用的流程設(shè)計
在構(gòu)建我國IR建設(shè)的一般應(yīng)用模式之后,本文擬以一具體院校為例,對我國瓜的建設(shè)應(yīng)用流程進行設(shè)計分析。在此,本文選擇南開大學(xué)為設(shè)計對象。
考慮到南開大學(xué)的學(xué)術(shù)影響力和在天津教育領(lǐng)域所起的帶頭作用,南開大學(xué)IR的建設(shè)可作為天津地區(qū)IR的建設(shè)試點來進行,由天津教委和南開大學(xué)共同撥款支持,由南開大學(xué)圖書館負責具體運行與管理維護,采用DSpace軟件,建立收割式服務(wù)模式。南開大學(xué)圖書館現(xiàn)有UNIX、Windows等多個操作系統(tǒng),數(shù)據(jù)庫系統(tǒng)有sQL server、Oracle 9i,編程語言為Java,Web服務(wù)器為Apache4.5,既有系統(tǒng)自帶的專門客戶端支持,也有Apache2.2,瀏覽器為Ⅲ,其軟硬件設(shè)施完全足以支持DSpace的運行需求。
設(shè)定南開大學(xué)IR建設(shè)的宏觀模型,筆者對南開大學(xué)IR運行的具體流程進行設(shè)計,其流程圖如圖3所示:
3.1 內(nèi)容建設(shè)流程
內(nèi)容建設(shè)流程擬采用“學(xué)校宏觀規(guī)劃,院系具體落實”的策略。由學(xué)校宏觀規(guī)劃指導(dǎo),對各院系和研究中心、實驗室下達硬性規(guī)定,明確各參與單位的任務(wù)與作用,由各院系負責本部門的內(nèi)容收集與提交,由圖書館、檔案館負責提交內(nèi)容的審核、整理、保存。
除了學(xué)校政策支持,還需要師生認可瓜。對此,圖書館可利用師生對其每日需求與依賴性,通過舉辦交流會和在圖書館主頁進行介紹的方式,把IR的建設(shè)理念和實施益處向廣大師生進行介紹,對IR的使用進行培訓(xùn),讓師生熟悉認可瓜,并參與到IR的內(nèi)容建設(shè)與使用過程中。
內(nèi)容提交過程由研究中心、各院系、圖書館和檔案館、師生來進行。研究中心指南開大學(xué)教學(xué)院系以外的各實驗室和研究中心,它們側(cè)重于提交第一手的實驗數(shù)據(jù)、研究發(fā)現(xiàn)和技術(shù)報告;參與院系指各教學(xué)院系,它們側(cè)重于提交本部門所產(chǎn)生的教學(xué)資料、會議論文、工作報告等,把這些內(nèi)容按照專業(yè)來組織并提交;圖書館和檔案館側(cè)重于提交該館的特色館藏和歷年博碩士學(xué)位論文;為保障瓜的學(xué)術(shù)質(zhì)量,這里的南開師生主要指在校任職的教師和在讀博碩士生,他們側(cè)重于對學(xué)術(shù)論文預(yù)印本的提交和對已往所發(fā)論文的整理提交,還可提交自己其他形式的學(xué)術(shù)成果。
由于南開大學(xué)瓜側(cè)重于收集本校所生產(chǎn)的學(xué)術(shù)資源,因此個人提交者必須先經(jīng)過注冊認證,證明為南開大學(xué)的師生后才有權(quán)力向IR提交內(nèi)容。
3.2 數(shù)據(jù)處理與保存流程
數(shù)據(jù)處理流程的實現(xiàn)分為兩大塊:①對本校學(xué)術(shù)資源的整理驗證,②對從其他開放資源中所收集到元數(shù)據(jù)記錄的整理。
對本校資源的處理保存要經(jīng)過身份驗證、規(guī)范控制和索引。首先要對提交者身份進行驗證,非注冊用戶的提交內(nèi)容將會被拒收。規(guī)范控制是對所提交內(nèi)容的文件類型、文件格式、元數(shù)據(jù)質(zhì)量進行規(guī)范。包含對不正確的文件歸類進行調(diào)整;對不符合系統(tǒng)要求的文件格式進行相應(yīng)格式轉(zhuǎn)換;對重要元數(shù)據(jù)字段空缺、非專業(yè)化的標引詞匯、拼寫錯誤等問題進行糾正補充,以保證元數(shù)據(jù)質(zhì)量。對通過驗證和規(guī)范控制的內(nèi)容,要按照一定的檢索點建立索引,以供用戶檢索。
對于從其他開放資源中收集到的元數(shù)據(jù)記錄的整理,要經(jīng)過元數(shù)據(jù)過濾、格式轉(zhuǎn)換、標準化、建立索引的處理過程。包含對采集來的元數(shù)據(jù)進行初步分類整合,并把不符合標準的元數(shù)據(jù)過濾掉;將不同來源處的元數(shù)據(jù)編碼格式與南開大學(xué)IR的編碼格式相統(tǒng)一;為采集后的元數(shù)據(jù)添加來源信息、版權(quán)信息等新字段,并對某些字段的內(nèi)容進行清理,如按唯一標識號、元數(shù)據(jù)前綴等關(guān)鍵詞排序以剔除重復(fù)記錄;對經(jīng)過上述處理的元數(shù)據(jù)按照一定的檢索點進行索引并形成相應(yīng)的倒排檔,以供用戶檢索。
通過數(shù)據(jù)處理過程的元數(shù)據(jù)和資料將被添加到南開大學(xué)瓜的存儲區(qū)進行保存,并向校內(nèi)外的廣大師生提供使用。
3.3 資源共享流程
資源共享流程的實現(xiàn)要求南開大學(xué)IR的建設(shè)要遵從OAI.PMH協(xié)議,并注冊為OAI用戶。資源共享流程的實現(xiàn)是雙向的,一方面南開大學(xué)瓜利用OAI-PMH協(xié)議從與OAI協(xié)議相適應(yīng)的其他IR、學(xué)科知識庫、開放存取期刊和個人網(wǎng)站中采集相關(guān)元數(shù)據(jù)記錄;另一方面南開大學(xué)瓜也要允許其他瓜、學(xué)科知識庫等開放資源對其元數(shù)據(jù)記錄的采集。通過OAI―PMH協(xié)議的應(yīng)用,可實現(xiàn)不同開放資源之間的互操作,增加資源的利用效率。
3.4 檢索使用流程
檢索使用流程是由用戶通過互聯(lián)網(wǎng)對南開大學(xué)IR界面進行訪問來實現(xiàn)的。使用用戶沒有身份限制,既可是南開大學(xué)IR注冊用戶,也可是社會公眾。通過南開大學(xué)IR用戶界面,用戶可通過標題,作者、主題等關(guān)鍵詞來瀏覽或檢索;IR在收到用戶的檢索瀏覽請求后,會向檢索瀏覽處理區(qū)發(fā)送相應(yīng)的指令,然后系統(tǒng)會根據(jù)指令對存儲區(qū)內(nèi)的現(xiàn)有內(nèi)容進行篩選排序,并將處理結(jié)果反饋給用戶。
4 我國IR發(fā)展前景展望
隨著我國開放存取理念的深入人心和相關(guān)實踐活動的陸續(xù)進行,IR也會隨之蓬勃發(fā)展。筆者相信,我國瓜的發(fā)展將會呈現(xiàn)以下趨勢。
4.1 大學(xué)IR建設(shè)的普及性
大學(xué)作為我國主要的教學(xué)中心和科研中心,擁有豐富的學(xué)術(shù)資源與科研成果,在學(xué)術(shù)交流創(chuàng)新中發(fā)揮著重要作用。目前我國大學(xué)還沒有大規(guī)模地開展瓜建設(shè),但隨著國內(nèi)外已有IR的發(fā)展壯大,我國大學(xué)會逐步認識到瓜的重要性,從而把它的建設(shè)當作重點項目來進行,給予資金和政策支持。而國家教育部門在認識到IR的戰(zhàn)略重要性以后,也會鼓勵資助大學(xué)開展IR建設(shè),使大學(xué)IR的建設(shè)能夠在全國高校中普及。
4.2 大型IR建設(shè)的合作化
IR的實施可加速學(xué)術(shù)交流,提高實施機構(gòu)的學(xué)術(shù)地位與聲譽。但這些益處的實現(xiàn)建立在對該IR的點擊瀏覽量之上,而點擊量的多少取決于IR所收錄的內(nèi)容的多少和實施規(guī)模的大小。因為用戶傾向于使用包含內(nèi)容比較多、規(guī)模比較大的瓜,認為這樣會收獲更多;谟脩暨@種心理,可考慮由規(guī)模實力相當?shù)脑盒;驒C構(gòu)合作建立一個大型IR。這樣可綜合收錄各機構(gòu)的學(xué)術(shù)成果,從整體上同時提高各參與機構(gòu)的聲譽,而且通過各機構(gòu)之間的合作也能避免技術(shù)體系的重復(fù)建設(shè),實現(xiàn)規(guī)模經(jīng)濟。
4.3 區(qū)域性的IR聯(lián)盟建設(shè)
IR建設(shè)的前期成本并不高,但要維持瓜運行,就需要不斷投入人力、物力和財力。一些重點院校能夠得到國家扶持,經(jīng)濟實力雄厚,有充足經(jīng)費來保障項目的建設(shè)和運行。但對于中小型院校,由于經(jīng)濟實力不足和學(xué)術(shù)資源有限,由其單獨進行IR建設(shè)將會造成投入與產(chǎn)出不協(xié)調(diào),而通過區(qū)域性的瓜聯(lián)盟建設(shè),則可有效解決這一問題。中小型院?刹辉O(shè)立自己的IR運行系統(tǒng),通過加入該地區(qū)的瓜建設(shè)聯(lián)盟,借助聯(lián)盟內(nèi)的其他IR,來保存展示該校的學(xué)術(shù)資源。
相關(guān)熱詞搜索:知識庫 構(gòu)建 流程 我國機構(gòu)知識庫模式構(gòu)建與流程設(shè)計 簡述眾籌模式的構(gòu)建流程 酒店眾籌模式流程
熱點文章閱讀