东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        [中文引文索引主題圖的構(gòu)建及其實(shí)現(xiàn)]構(gòu)建主題

        發(fā)布時(shí)間:2020-03-07 來源: 歷史回眸 點(diǎn)擊:

          [摘要]引文索引既可以作為一種檢索工具,同時(shí)又具備一定的信息精選和學(xué)術(shù)評(píng)價(jià)功能,這兩個(gè)方面的功能決定引文索引在科學(xué)研究工作中所發(fā)揮的重要作用。將主題圖技術(shù)應(yīng)用于引文索引數(shù)據(jù)庫的構(gòu)建中,選取《中文社會(huì)科學(xué)引文索引》(CSSCI)中的部分?jǐn)?shù)據(jù)為實(shí)驗(yàn)對(duì)象,通過主題圖軟件工具OKS Samplers的使用,完成引文索引主題圖的構(gòu)建,并實(shí)現(xiàn)其可視化,總結(jié)引文索引主題圖的優(yōu)點(diǎn),對(duì)主題圖應(yīng)用于引文索引數(shù)據(jù)庫提出建議。
          [關(guān)鍵詞]主題圖 引文索引 CSSCI 學(xué)術(shù)評(píng)價(jià) 信息檢索 信息可視化
          [分類號(hào)]G203
           1 前言
          
          引文,即引用文獻(xiàn)(citations),有時(shí)又稱參考文獻(xiàn),是專業(yè)人員為撰寫或編輯論著而引用或參考的其他專業(yè)人員的相關(guān)文獻(xiàn)資料及其文獻(xiàn)條目。引文索引(cita―tion index),是一種以文獻(xiàn)之間的引用關(guān)系為基礎(chǔ)的文獻(xiàn)索引,它以被引用文獻(xiàn)(即引文)為標(biāo)目,其下列出引用過該文獻(xiàn)的全部文獻(xiàn)(我們稱之為來源文獻(xiàn))。
          引文索引具備兩方面的基本功能:一是引文索引可以作為一種檢索工具。引文索引的創(chuàng)始人尤金?加菲爾德先生曾指出,1964年創(chuàng)辦科學(xué)引文索引(SCI),是第一次想把引文索引法的概念大規(guī)模地應(yīng)用于科技文獻(xiàn)檢索。引文索引通過文獻(xiàn)之間的相互引證關(guān)系,將相關(guān)文獻(xiàn)集結(jié)成為一個(gè)文獻(xiàn)網(wǎng)絡(luò),不斷擴(kuò)大檢索范圍,提供更多的檢索人口,從而獲取更多相關(guān)信息資源。二是引文索引具有一定的信息精選和學(xué)術(shù)評(píng)價(jià)功能。引文索引的信息精選和學(xué)術(shù)評(píng)價(jià)功能主要體現(xiàn)在兩個(gè)層次:①宏觀層次的信息篩選,即在引文索引的編制過程中,來源文獻(xiàn)的甄別和確定是通過一定的標(biāo)準(zhǔn)進(jìn)行質(zhì)量評(píng)價(jià),進(jìn)而篩選出高質(zhì)量的來源期刊;②微觀層次的信息萃取,即對(duì)引文數(shù)據(jù)庫中提供的數(shù)據(jù)從引用次數(shù)、引用和被引關(guān)系、學(xué)科、時(shí)間、機(jī)構(gòu)等方面進(jìn)行信息分析和數(shù)據(jù)挖掘,從而獲得關(guān)于學(xué)科發(fā)展過程、態(tài)勢(shì)以及學(xué)科發(fā)展過程中的優(yōu)秀學(xué)術(shù)成果的精選和揭示。
          由南京大學(xué)中國社會(huì)科學(xué)研究評(píng)價(jià)中心研制開發(fā)的《中文社會(huì)科學(xué)引文索引》(CSSCI)不僅為社會(huì)科學(xué)工作者從事研究與科學(xué)管理提供了快捷、科學(xué)的查詢工具,也為我國社會(huì)科學(xué)研究評(píng)價(jià)提供了基本工具和基礎(chǔ)數(shù)據(jù)。目前,關(guān)于中國人文社會(huì)科學(xué)引文索引(CSSCI)的研究大部分集中于利用引文索引數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行某一學(xué)科領(lǐng)域的期刊影響、研究熱點(diǎn)、學(xué)者和機(jī)構(gòu)學(xué)術(shù)影響分析等,而對(duì)于在引文數(shù)據(jù)庫的構(gòu)建中使用新的技術(shù)和方法的研究較少。一般而言,作為引文索引數(shù)據(jù)庫的使用者來說,對(duì)于CSSCI關(guān)注得更多地是如何充分有效地利用引文索引數(shù)據(jù)庫中的數(shù)據(jù)信息;而作為引文索引數(shù)據(jù)庫的構(gòu)建者來說,更多的則是關(guān)注如何提高引文索引數(shù)據(jù)庫的質(zhì)量,從而更加廣泛深入地發(fā)揮引文索引數(shù)據(jù)庫的作用。我們可以從多個(gè)角度提高引文索引數(shù)據(jù)庫的質(zhì)量,如來源期刊的選定、入庫數(shù)據(jù)的加工質(zhì)量和加工速度、系統(tǒng)平臺(tái)等,新的信息組織技術(shù)與方法的引進(jìn)及應(yīng)用也是其中一種途徑,因此,我們可以充分利用一些新的信息組織技術(shù)和方法來提高引文索引數(shù)據(jù)庫的信息組織質(zhì)量,從而增強(qiáng)引文索引的檢索、信息精選與學(xué)術(shù)評(píng)價(jià)功能。
          有鑒于此,本文選取CSSCI中的部分?jǐn)?shù)據(jù)作為樣例來源,將主題圖技術(shù)應(yīng)用于引文索引數(shù)據(jù)庫的構(gòu)建之中,探索主題圖應(yīng)用于引文索引數(shù)據(jù)庫的可行性以及將來可能面臨的問題。
          
          2 主題圖應(yīng)用于引文索引的n-7行性
          
          主題圖,又稱主題地圖(topic map),作為一種新興的信息組織方式,起源于20世紀(jì)90年代初,在國際標(biāo)準(zhǔn)ISO/IEC:13250中,它被定義為“一套用來組織信息的方法,使用這種方法可以提供最佳的信息導(dǎo)航”。從理論到實(shí)踐,主題圖技術(shù)的發(fā)展已經(jīng)相對(duì)穩(wěn)定和成熟。作為一種信息組織技術(shù),它汲取了傳統(tǒng)索引、圖書館科學(xué)、知識(shí)表示以及多種知識(shí)組織方法的的優(yōu)點(diǎn),由于它所具有的靈活性和豐富的表現(xiàn)力,目前已經(jīng)被國外廣泛應(yīng)用于知識(shí)管理、Web應(yīng)用、語義挖掘等領(lǐng)域。如Schweiger Ralf、Hoeher Simon、Rudolf Dirk等人提出利用主題圖技術(shù)來管理醫(yī)療信息系統(tǒng),通過主題圖揭示醫(yī)療臨床數(shù)據(jù)資源之間的聯(lián)系,并將這種關(guān)聯(lián)作為上下文檢索的基礎(chǔ),從而獲取更為準(zhǔn)確的檢索結(jié)果;由挪威Ontopia公司開發(fā)的意大利歌劇主題圖、基于主題圖技術(shù)的柯達(dá)數(shù)字?jǐn)z影配件網(wǎng)站等。
          主題圖的核心概念主要包括主題(topic)、關(guān)聯(lián)(as―sociation)、信息資源實(shí)體(occurrences)和范圍(scope)4個(gè)部分。它在信息資源的上層構(gòu)建了一個(gè)結(jié)構(gòu)化的語義網(wǎng),獨(dú)立于技術(shù)平臺(tái),用以描述主題之間以及主題與信息資源實(shí)體之間的關(guān)聯(lián),通過揭示概念之間的關(guān)系,將用戶指引到相關(guān)的信息資源。引文索引具備三個(gè)得天獨(dú)厚的功能,其中一個(gè)重要功能表現(xiàn)在:已發(fā)表的文獻(xiàn)本身所包含的主題范疇在語義上更準(zhǔn)確、更詳細(xì);同樣,其穩(wěn)定性和靈活性在語義上也勝過普通的主題索引。而主題圖正是在信息資源的上層構(gòu)建了一個(gè)結(jié)構(gòu)化的語義網(wǎng),在引文索引的構(gòu)建中應(yīng)用主題圖技術(shù)可以從語義層次組織信息資源,增強(qiáng)引文索引的功能。
          
          
          3 引文索引主題圖的構(gòu)建
          
          主題圖技術(shù)應(yīng)用于信息組織主要是通過一些主題圖工具來實(shí)現(xiàn)的,主題圖工具包括三大類型:主題圖引擎(topic maps engines)、主題圖編輯器(topic maps edi,tors)和主題圖可視化工具(topic maps visualisation)。目前國外使用比較廣泛的主題圖工具有TM4J、OKSSamplers、The GooseWorks Topic Map Tookit、TMview、TM3D等。在這些主題圖工具中,有的是單一性的主題圖引擎、主題圖編輯器或者主題圖可視化工具,有的則是集三者于一體的綜合性主題圖工具。本文選取的主題圖工具是Ontopia公司開發(fā)的OKS Samplers,它同時(shí)包含了主題圖引擎The Ontopia Topic Map Engine、主題圖編輯器Ontopoly、主題圖導(dǎo)航框架Omnigator以及主題圖可視化工具Vizigator 4部分,能夠?qū)崿F(xiàn)主題圖編輯、顯示和可視化的一站式構(gòu)建,并且支持中文主題圖的開發(fā)和構(gòu)建。
          
          The Ontopia Topic Map Engine是OKS Samplers的核心部分,它的主要功能是通過Topic Maps API允許應(yīng)用程序以XTM形式導(dǎo)人和導(dǎo)出主題地圖,支持在關(guān)系數(shù)據(jù)庫中存儲(chǔ)、訪問、修改主題地圖。無論主題地圖是以內(nèi)存、數(shù)據(jù)庫還是虛擬視圖等形式存放,應(yīng)用程序都可以透明訪問。主題圖編輯器Ontopoly是一個(gè)為用戶提供手工創(chuàng)建與維護(hù)主題地圖的工具,為了應(yīng)用程序開發(fā)方便,提供了易于操作的用戶接口和本體(On―tology)驅(qū)動(dòng)。這就意味著用戶可以從底層本體(Ontol― ogy)和提前定義的規(guī)則中生成主題地圖。Ontopoly編輯頁面主要包括4個(gè)模塊:①Description模塊,對(duì)所構(gòu)建的主題圖的總體描述;②Admin模塊,即Export模塊,提供主題圖的輸出功能,用戶可以將已經(jīng)完成的或者正在編制的主題圖以XML文檔、XTM、TM/XML以及RDF的形式輸出并保存到本地系統(tǒng);③Ontology構(gòu)建模塊,ontopoly的核心部分,主要是對(duì)主題類型(topictypes)、資源類型(occurrence types)、關(guān)聯(lián)類型(associa-tion types)、角色類型(role types)以及名稱類型(nametypes)5個(gè)部分的定義;④Instances模塊,定義每個(gè)主題類型所對(duì)應(yīng)的實(shí)例。從主題圖的基本構(gòu)成要素我們可以看出,引文索引主題圖的構(gòu)建主要包括主題、關(guān)聯(lián)、信息資源實(shí)體以及實(shí)例的定義。具體構(gòu)建步驟如下:
          
          3.1 主題類型的分析與定義
          在主題圖中,主題從屬于特定的主題類型,因此首先必須定義主題類型;贑SSCI向用戶提供了來源文獻(xiàn)和被引文獻(xiàn)兩種檢索入口,因此,在引文索引主題圖中,筆者定義兩種主題類型:“來源文獻(xiàn)”和“被引文獻(xiàn)”。在主題圖中,主題是對(duì)現(xiàn)實(shí)世界中主體結(jié)構(gòu)的描述,不論是一個(gè)具體的事物還是一個(gè)抽象的概念,都可以稱之為主題,因此,在引文索引主題圖中我們將“來源文獻(xiàn)”和“被引文獻(xiàn)”的題名定義為主題。
          
          3.2 信息資源實(shí)體的定義
          在完成主題類型的定義之后,我們需要為每種主題類型定義它所具備的信息資源實(shí)體(occuiTencc)。信息資源實(shí)體是獨(dú)立于主題圖之外的,它可以是有關(guān)某一主題的專論,或者描述有關(guān)主題的一段文字,也可以是描述某一主題的圖像或視頻。一個(gè)主題可以和一個(gè)或多個(gè)信息資源實(shí)體相聯(lián)系。
          在CSSCI數(shù)據(jù)庫中,來源文獻(xiàn)的基本著錄信息包括:篇名、英文篇名、作者、作者機(jī)構(gòu)、文獻(xiàn)類型、學(xué)科類別、分類號(hào)、基金項(xiàng)目、來源期刊、年代卷期、關(guān)鍵詞和參考文獻(xiàn),因此,將以上12個(gè)著錄項(xiàng)目全部定義為主題類型“來源文獻(xiàn)”的信息資源實(shí)體。此外,筆者為來源文獻(xiàn)再添加一個(gè)全文信息資源實(shí)體,通過輸入相應(yīng)文獻(xiàn)的鏈接資源,向用戶提供文獻(xiàn)的全文信息。因此,在引文索引主題圖中,來源文獻(xiàn)的信息資源實(shí)體總共包括13個(gè)。在CSSCI數(shù)據(jù)庫中,被引文獻(xiàn)的檢索結(jié)果頁面信息主要包括被引作者、被引文獻(xiàn)篇名、被引期刊、被引文獻(xiàn)出處和被引次數(shù)5項(xiàng),點(diǎn)擊每篇被引文獻(xiàn)可以獲取到引用過該篇被引文獻(xiàn)的來源文獻(xiàn)信息。鑒于此,筆者將來源文獻(xiàn)也作為被引文獻(xiàn)的一個(gè)信息資源實(shí)體,那么被引文獻(xiàn)的信息資源實(shí)體總共包括6個(gè):被引作者、被引文獻(xiàn)篇名、被引期刊、被引文獻(xiàn)出處、被引次數(shù)和來源文獻(xiàn)。
          在進(jìn)行信息資源實(shí)體定義時(shí),需要為每種信息資源實(shí)體類型選擇合適的數(shù)據(jù)類型(data type),這是進(jìn)行信息資源實(shí)體定義的關(guān)鍵。Ontopoly主題圖編輯器中的數(shù)據(jù)類型主要?jiǎng)澐譃橥獠抠Y源實(shí)體和內(nèi)部資源實(shí)體兩大基本類型,具體包括:日期、日期時(shí)間、超文本標(biāo)記語言、圖像、字符串、數(shù)字和通用資源標(biāo)識(shí)符(URI)7種。來源文獻(xiàn)所具備的13個(gè)信息資源實(shí)體除了將“全文”定義為通用資源標(biāo)識(shí)符(URI),其他12種均可以定義為字符串?dāng)?shù)據(jù)類型;被引文獻(xiàn)的7個(gè)資源實(shí)體類型中,除了將被引次數(shù)數(shù)據(jù)類型定義為數(shù)字,其他6種資源實(shí)體類型全部定義為字符串。
          
          3.3 關(guān)聯(lián)類型的定義
          關(guān)聯(lián)(association),是主題圖中最有價(jià)值的一部分,它是用來展示主題之間的語義關(guān)系,可以發(fā)生在兩個(gè)或多個(gè)主題之間。在引文索引主題圖中,我們可以定義三種關(guān)聯(lián)類型:引用關(guān)系、共引關(guān)系、耦合關(guān)系。
          ?引用關(guān)系。在科學(xué)文獻(xiàn)體系中,眾多的科學(xué)文獻(xiàn)并不是孤立存在的,一篇文章或?qū)V趯懽鬟^程中,一般都需要參閱相關(guān)的其他文獻(xiàn),并且在文章或?qū)V辛谐鏊鶇㈤喌奈墨I(xiàn),這就形成了科學(xué)文獻(xiàn)之間的引用與被引用關(guān)系?茖W(xué)文獻(xiàn)之間的引用和被引用關(guān)系,在一定程度上反映了后人對(duì)前人研究成果的借鑒和參考,是由科學(xué)發(fā)展的規(guī)律與科學(xué)研究活動(dòng)的規(guī)律所決定的。在CSSCI數(shù)據(jù)庫中,來源文獻(xiàn)和被引文獻(xiàn)之間存在著引用關(guān)系。
          ?共引關(guān)系。當(dāng)兩篇或兩篇以上的文獻(xiàn)共同被一篇或多篇文獻(xiàn)引用時(shí),我們稱這兩篇或兩篇以上共同被引用的文獻(xiàn)為“共引”,在CSSCI數(shù)據(jù)庫中,共引關(guān)系設(shè)定發(fā)生在兩篇或多篇被引文獻(xiàn)之間。
          ?耦合關(guān)系。如果兩篇或多篇文獻(xiàn)共同引用了一篇文獻(xiàn),稱這兩篇或多篇文獻(xiàn)之間存在耦合關(guān)系。在CSSCI數(shù)據(jù)庫中,筆者定義耦合關(guān)系發(fā)生在來源文獻(xiàn)之間。
          
          3.4 實(shí)例的添加
          在CSSCI數(shù)據(jù)庫的每條檢索結(jié)果記錄中,文獻(xiàn)篇名是進(jìn)入引文詳細(xì)信息的連接點(diǎn),因此,在進(jìn)行實(shí)例的添加時(shí),將每篇來源文獻(xiàn)和被引文獻(xiàn)的篇名作為實(shí)例的名稱。由于主題類型、信息資源實(shí)體和實(shí)例都是相互對(duì)應(yīng)的,因此添加后的各個(gè)實(shí)例會(huì)自動(dòng)獲取對(duì)應(yīng)主題類型所具備的各種信息資源實(shí)體。如筆者為主題類型“來源文獻(xiàn)”添加篇名為《外文電子期刊收集策略再探》,添加完成之后該篇來源文獻(xiàn)自動(dòng)獲取來源文獻(xiàn)所具備的13個(gè)信息資源實(shí)體類型以及與被引文獻(xiàn)《美國的圖書館自動(dòng)化和文獻(xiàn)資源共享網(wǎng)絡(luò)――現(xiàn)狀與趨勢(shì)》之間的引用關(guān)系。圖1所示的是已定義完成的來源文獻(xiàn)實(shí)例《外文電子期刊收集策略再探》及所具備的信息資源實(shí)體和關(guān)聯(lián)信息:
          
          4 引文索引主題圖的瀏覽與檢索
          
          4.1 引文索引主題圖的瀏覽
          引文索引主題圖的瀏覽主要通過OKS Samplers中的主題圖導(dǎo)航框架Omnigator來實(shí)現(xiàn),Omnigator使用簡單的基于HTFP協(xié)議的客戶機(jī)/服務(wù)器模式,以Tom―cat作為Web服務(wù)器。使用Omnigator不僅可以對(duì)主題地圖進(jìn)行瀏覽,還具有管理、合并主題地圖功能,可以對(duì)插件全文索引進(jìn)行管理。它還利用主題杏詢語言Tolog對(duì)主題地圖進(jìn)行查詢、驗(yàn)證主題地圖的有效性,更換Omnigator顯示模式、視圖等。
          圖2所示的是來源文獻(xiàn)《外文電子期刊收集策略再探》的主題圖瀏覽界面:
          該瀏覽界面顯示了《外文電子期刊收集策略再探》所具備的關(guān)聯(lián)類型和信息資源實(shí)體。其中,關(guān)聯(lián)類型主要是與被引文獻(xiàn)《美國的圖書館自動(dòng)化和文獻(xiàn)資源共享網(wǎng)絡(luò)――現(xiàn)狀與趨勢(shì)》之間的“引用關(guān)系”;信息資源實(shí)體主要包括它的內(nèi)部信息資源實(shí)體和外部信息資源實(shí)體,如分類號(hào)、作者、作者機(jī)構(gòu)、關(guān)鍵詞、參考文獻(xiàn)、全文等。需要指出的是,每一種信息資源實(shí)體都是一個(gè)主題,均可以點(diǎn)擊進(jìn)入其對(duì)應(yīng)的主題圖瀏覽界面。
          
          4.2 引文索引主題圖的可視化顯示與檢索
          引文索引主題圖的可視化主要通過OKS Samplers中的主題圖可視化工具Vizigator來實(shí)現(xiàn)的。在可視化界面中,我們可以選擇關(guān)于某一主題的一級(jí)、二級(jí)、三級(jí)等幾個(gè)不同級(jí)別層次的可視化顯示!锻馕碾娮悠诳占呗栽偬健返囊患(jí)可視化界面(見圖3),層次越小,可視化所顯示的信息就越簡單。
          引文索引主題圖的檢索也是在可視化界面中來實(shí)現(xiàn)的。在可視化顯示上方的檢索框中,我們可以輸入檢索主題,如來源文獻(xiàn)的篇名,檢索結(jié)果會(huì)以亮色突顯的方式來呈現(xiàn)給用戶,從而實(shí)現(xiàn)引文索引主題圖的可視化檢索。
          
          5 結(jié)語
          
          本文以CSSCI中的部分?jǐn)?shù)據(jù)作為樣例來源,利用主題圖工具OKS Samplers實(shí)現(xiàn)了引文索引主題圖的構(gòu)建,驗(yàn)證了主題圖技術(shù)應(yīng)用于引文索引數(shù)據(jù)庫中的可行性。本實(shí)驗(yàn)系統(tǒng)所構(gòu)建的引文索引主題圖具有以下特點(diǎn):①給用戶提供了基于語義的導(dǎo)航,當(dāng)用戶瀏覽某個(gè)主題時(shí),系統(tǒng)就將和該主題有關(guān)聯(lián)的其他所有主題都展示出來,并提供了它們之間存在的語義關(guān)聯(lián),這種語義關(guān)聯(lián)能夠揭示主題之間的引證關(guān)系,為科學(xué)評(píng)價(jià)提供依據(jù);②在所構(gòu)建的主題圖瀏覽界面中,每個(gè)主題都具備“超級(jí)鏈接”功能,這個(gè)“超級(jí)鏈接”功能是在構(gòu)建主題之間的語義關(guān)聯(lián)后,由系統(tǒng)自動(dòng)生成的;③通過利用主題圖系統(tǒng)的可視化插件,實(shí)現(xiàn)了所構(gòu)建的所有主題的可視化瀏覽。
          關(guān)于主題圖應(yīng)用于引文索引數(shù)據(jù)庫,筆者認(rèn)為首先需要在不影響整體引文索引數(shù)據(jù)庫使用的前提下,先進(jìn)行小規(guī)模的實(shí)驗(yàn)研究,分析引文索引數(shù)據(jù)庫使用主題圖技術(shù)的可行性;其次,需要判定所構(gòu)建的引文索引數(shù)據(jù)庫適合使用哪種主題圖工具,即進(jìn)行主題圖工具的調(diào)研和選定,因?yàn)槟壳皣獯蟛糠种黝}圖工具都是付費(fèi)使用,小部分主題圖工具提供一段時(shí)間的免費(fèi)試用期,所以如何選擇適合的主題圖工具是至關(guān)重要的。本文中的實(shí)驗(yàn)系統(tǒng)只選擇了CSSCI中的部分來源文獻(xiàn)和被引文獻(xiàn)作為實(shí)驗(yàn)對(duì)象,還有待于進(jìn)一步的拓展。同時(shí),主題圖技術(shù)的其他功能在引文索引中的應(yīng)用,如合并功能、語義挖掘等,也有待于進(jìn)一步的研究和開發(fā)。

        相關(guān)熱詞搜索:引文 中文 索引 中文引文索引主題圖的構(gòu)建及其實(shí)現(xiàn) 中文社會(huì)科學(xué)引文索引 中文學(xué)術(shù)圖書引文索引

        版權(quán)所有 蒲公英文摘 smilezhuce.com