情報(bào)語(yǔ)言學(xué) 情報(bào)語(yǔ)言學(xué)的若干研究心得和收獲
發(fā)布時(shí)間:2020-03-07 來(lái)源: 散文精選 點(diǎn)擊:
[摘要]著者自述情報(bào)語(yǔ)言學(xué)學(xué)術(shù)思想,包括情報(bào)檢索語(yǔ)言的研究方法、檢索效率、情報(bào)檢索語(yǔ)言一些具體問(wèn)題的研究心得、術(shù)語(yǔ)學(xué)、自然語(yǔ)言檢索等。 [關(guān)鍵詞]張琪玉情報(bào)語(yǔ)言學(xué)情報(bào)檢索語(yǔ)言 自然語(yǔ)言檢索 術(shù)語(yǔ)學(xué)
[分類(lèi)號(hào)]G254.0
我研究情報(bào)語(yǔ)言學(xué),假如僅僅從寫(xiě)作《情報(bào)檢索語(yǔ)言》一書(shū)算起,也已有30年的時(shí)間。有一些來(lái)之不易的心得和收獲,介紹出來(lái)與同行們交流、分享。
我有一個(gè)基本觀(guān)點(diǎn),認(rèn)為各種情報(bào)檢索語(yǔ)言的基本原理是一致的,它們只是在表達(dá)各種概念及其相互關(guān)系時(shí)和在解決對(duì)它們提出的那些共同要求時(shí)所采用的方法不同,才形成了不同的類(lèi)型和語(yǔ)種。因此,對(duì)分類(lèi)檢索語(yǔ)言、主題檢索語(yǔ)言和其他情報(bào)檢索語(yǔ)言以及自然語(yǔ)言在情報(bào)檢索中的應(yīng)用問(wèn)題進(jìn)行統(tǒng)一研究,可探索它們影響檢索效率的共同規(guī)律和有效的改進(jìn)途徑。提高檢索效率是情報(bào)語(yǔ)言學(xué)研究的根本目的和核心問(wèn)題。
正是從這一基本觀(guān)點(diǎn)出發(fā),我寫(xiě)成了《情報(bào)檢索語(yǔ)言》一書(shū)以及之后的許多情報(bào)語(yǔ)言學(xué)文章和專(zhuān)著。寫(xiě)作《情報(bào)檢索語(yǔ)言》一書(shū)是我對(duì)各種情報(bào)檢索語(yǔ)言進(jìn)行統(tǒng)一研究,以探索它們影響檢索效率的共同規(guī)律和有效的改進(jìn)途徑的第一次實(shí)踐。
我的學(xué)術(shù)研究,以情報(bào)語(yǔ)言學(xué)(包括索引學(xué))為范圍。對(duì)于情報(bào)語(yǔ)言學(xué),我可以說(shuō)是“情有獨(dú)鐘”,自1980年之后寫(xiě)的幾百篇著作,幾乎全部是關(guān)于情報(bào)語(yǔ)言學(xué)的。
我認(rèn)為,人生很短暫,一個(gè)人不可能做完一切想做的事,所以只能去做最必要的、最有意義的并且能夠做到的事情。做學(xué)問(wèn),要有一個(gè)專(zhuān)業(yè)范圍,在專(zhuān)業(yè)范圍內(nèi)力求深而廣。
我把情報(bào)語(yǔ)言學(xué)定義為“是研究情報(bào)檢索中語(yǔ)言保證問(wèn)題的一門(mén)學(xué)科,其主要研究對(duì)象是情報(bào)檢索語(yǔ)言,同時(shí)也研究自然語(yǔ)言在情報(bào)檢索中的應(yīng)用問(wèn)題”。這樣表述,是要在概念上弄清情報(bào)檢索語(yǔ)言與自然語(yǔ)言的區(qū)別,情報(bào)檢索語(yǔ)言(簡(jiǎn)稱(chēng)檢索語(yǔ)言)是人工語(yǔ)言,自然語(yǔ)言不能稱(chēng)為“自然檢索語(yǔ)言”。
1 情報(bào)檢索語(yǔ)言的研究方法
我體會(huì)到,研究的成效在很大程度上取決于研究方法。
情報(bào)檢索語(yǔ)言的檢索效率是其功能決定的,而其功能則是由其結(jié)構(gòu)決定的。所以,研究情報(bào)檢索語(yǔ)言的性能,主要就是要分析解剖其結(jié)構(gòu)。結(jié)構(gòu)功能分析法是研究情報(bào)檢索語(yǔ)言最為有效的方法。后來(lái),我總結(jié)出研究情報(bào)檢索語(yǔ)言的一整套專(zhuān)用方法,如歷史演進(jìn)研究法、比較研究法、調(diào)查整理法、歸納法和演繹法、原理或方法的移植法、理想語(yǔ)言設(shè)計(jì)法、現(xiàn)用語(yǔ)言改進(jìn)法、數(shù)學(xué)方法和統(tǒng)計(jì)方法、實(shí)驗(yàn)方法等,我發(fā)現(xiàn)這些方法都含有結(jié)構(gòu)功能分析的內(nèi)容,都是從結(jié)構(gòu)功能分析法衍生出來(lái)的。
關(guān)于比較研究法,我寫(xiě)過(guò)一篇題為《情報(bào)檢索語(yǔ)言原理的一致和方法的差異》(《圖書(shū)館建設(shè)》1994年第6期)的文章,提到比較研究法可以使我們觀(guān)察出情報(bào)檢索語(yǔ)言各種結(jié)構(gòu)與功能的“異中之同,同中之異”,使我們能“既見(jiàn)樹(shù)木,也見(jiàn)森林”。這篇文章可以幫助人們了解各種情報(bào)檢索語(yǔ)言的性能。正是在利用結(jié)構(gòu)功能分析法及其各種衍生方法的基礎(chǔ)上,我對(duì)情報(bào)語(yǔ)言學(xué)的內(nèi)容進(jìn)行了豐富、發(fā)展。
情報(bào)檢索語(yǔ)言的檢索效率由其各種檢索功能決定,而情報(bào)檢索語(yǔ)言的各種檢索功能則由其結(jié)構(gòu)產(chǎn)生。產(chǎn)生檢索功能的是情報(bào)檢索語(yǔ)言的微觀(guān)結(jié)構(gòu)。若干微觀(guān)結(jié)構(gòu)的有機(jī)結(jié)合才能構(gòu)成一種情報(bào)檢索語(yǔ)言。各種類(lèi)型的情報(bào)檢索語(yǔ)言都是一種結(jié)構(gòu)模式,即其宏觀(guān)結(jié)構(gòu)。微觀(guān)結(jié)構(gòu)的數(shù)量、種類(lèi)及結(jié)合模式,形成情報(bào)檢索語(yǔ)言檢索效率的整體水平。
正是這一原理,使我樹(shù)立起情報(bào)檢索語(yǔ)言可創(chuàng)新、可改進(jìn)的信念。我常常異想天開(kāi),去尋找理想的情報(bào)檢索語(yǔ)言結(jié)構(gòu)模式,去發(fā)現(xiàn)新的功能,去探索創(chuàng)新之路。例如《學(xué)科一事物概念組配型檢索語(yǔ)言――關(guān)于情報(bào)檢索語(yǔ)言的遐想與求索》(《圖書(shū)館雜志》1997年第2期)和《探索21世紀(jì)的情報(bào)檢索語(yǔ)言》(《北京大學(xué)學(xué)報(bào):信息管理系建系五十周年專(zhuān)刊》(1997年)以及《對(duì)未來(lái)分類(lèi)法的憧憬》(《圖書(shū)館理論與實(shí)踐》2003年第1期)三篇文章。
《學(xué)科一事物概念組配型檢索語(yǔ)言――關(guān)于情報(bào)檢索語(yǔ)言的遐想與求索》和《探索21世紀(jì)的情報(bào)檢索語(yǔ)言》是經(jīng)過(guò)十多年的研究才尋找到的模式。該模式的本質(zhì)屬性可歸納為:①學(xué)科聚類(lèi)系統(tǒng)與事物聚類(lèi)系統(tǒng)的結(jié)合;②先組式語(yǔ)言與后組式語(yǔ)言的結(jié)合、體系分類(lèi)法與組配分類(lèi)法的結(jié)合;③人工語(yǔ)言與自然語(yǔ)言的結(jié)合;④號(hào)碼標(biāo)識(shí)與語(yǔ)詞標(biāo)識(shí)的結(jié)合、系統(tǒng)序列與字順序列的結(jié)合;⑤不變概念代碼與可變概念體系的結(jié)合。其主要實(shí)現(xiàn)方法可概括為“分面分析+概念代碼+概念對(duì)應(yīng)轉(zhuǎn)換+數(shù)據(jù)庫(kù)技術(shù)”。這種語(yǔ)言的性能可概括為:①分類(lèi)法與主題法徹底一體化的;②充分發(fā)揮情報(bào)檢索語(yǔ)言對(duì)知識(shí)進(jìn)行系統(tǒng)組織和對(duì)自然語(yǔ)言進(jìn)行規(guī)范控制的功能的;③用戶(hù)可十分方便地進(jìn)行標(biāo)引和檢索的;④概念可不斷增補(bǔ)及概念的代表詞可進(jìn)行更換的;⑤用戶(hù)區(qū)別不出是自然語(yǔ)言還是人工語(yǔ)言而其實(shí)是由嚴(yán)密的人工語(yǔ)言控制的;⑥修訂不受已標(biāo)引文獻(xiàn)所牽制,故分類(lèi)體系可逐步完善的;⑦可以?huà)旖佑⑽乃饕⒎肿邮剿饕纫约翱捎糜跈C(jī)助標(biāo)引的。
《對(duì)未來(lái)分類(lèi)法的憧憬》一文認(rèn)為理想分類(lèi)法的結(jié)構(gòu)模式應(yīng)是:①學(xué)科分類(lèi)與事物分類(lèi)并行又能相互結(jié)合的,既可形成學(xué)科分類(lèi)體系又可形成事物分類(lèi)體系,兩種體系可變換的分類(lèi)法,即學(xué)科一事物概念組配型的分類(lèi)法;②多聚類(lèi)中心的、線(xiàn)性結(jié)構(gòu)與網(wǎng)狀結(jié)構(gòu)相結(jié)合的,學(xué)科和事物概念全向聚類(lèi)的分類(lèi)法,單純線(xiàn)性結(jié)構(gòu)和單純網(wǎng)狀結(jié)構(gòu)都有局限性;③只依據(jù)文獻(xiàn)內(nèi)容的學(xué)科屬性或文獻(xiàn)研究對(duì)象之間的相互聯(lián)系的客觀(guān)事實(shí)進(jìn)行分類(lèi),對(duì)其思想觀(guān)點(diǎn)不加區(qū)分和褒貶的分類(lèi)法(某種意識(shí)形態(tài)、宗教信仰、政治主張等的優(yōu)先、重點(diǎn)揭示可作為照顧各國(guó)各民族的特殊需要來(lái)處理),即分類(lèi)體系的建立更注重于揭示各種知識(shí)的內(nèi)在聯(lián)系,重點(diǎn)不在于構(gòu)建表示某種信仰的宏觀(guān)框架;④?chē)?guó)際化與民族化妥善結(jié)合的分類(lèi)法。依據(jù)“求同存異”的原則,以國(guó)際通用為基本,照顧各國(guó)各民族的特殊需要,阮崗納贊的“優(yōu)惠類(lèi)”原理用超鏈接方法實(shí)現(xiàn);⑤體系列舉方式與分面組配方式相結(jié)合的分類(lèi)法;⑥在一個(gè)整體框架下由眾多專(zhuān)業(yè)分類(lèi)法集成的分類(lèi)法;每個(gè)學(xué)科領(lǐng)域或事物范疇允許有不只一個(gè)分類(lèi)體系,但不同體系之間大部分類(lèi)目有對(duì)應(yīng)轉(zhuǎn)換的可能性;⑦分類(lèi)體系和類(lèi)目可不斷革新的分類(lèi)法;擺脫了已標(biāo)引文獻(xiàn)和藏書(shū)排架牽制的分類(lèi)法(排架仍可用已分類(lèi)了大量藏書(shū)的原有分類(lèi)法);⑧能與世界上現(xiàn)有主要分類(lèi)法通過(guò)類(lèi)目對(duì)應(yīng)轉(zhuǎn)換達(dá)到基本兼容的分類(lèi)法;⑨伸縮性很好的分類(lèi)法;⑩類(lèi)名與術(shù)語(yǔ)學(xué)成果盡可能取得一致的分類(lèi)法,即其類(lèi)名可作為主題詞使用的分類(lèi)法,實(shí)際上就是分類(lèi)法主題法一體化;⑩有詳細(xì)的、完善的自然語(yǔ)言入口的分類(lèi)法,并可用于人機(jī)結(jié)合賦號(hào)標(biāo)引;⑩多語(yǔ)種的分類(lèi)法;⑩計(jì)算機(jī)化并可在網(wǎng)絡(luò)上應(yīng)用的分類(lèi)法;⑩有充分文獻(xiàn)保證的分類(lèi)法,但不是僅限于專(zhuān)著的文獻(xiàn)保證。我設(shè)想,未來(lái)分類(lèi)法的編制可能是先構(gòu)筑部分(專(zhuān)業(yè)分類(lèi)法),再形成整體。事實(shí)上,未來(lái)分類(lèi)法的構(gòu)成原理和方法大多已存在于現(xiàn)有情報(bào)檢索語(yǔ)言中,只是找出 它們完善結(jié)合(實(shí)現(xiàn))的方案還需要作出很大的努力。
由此可見(jiàn),情報(bào)檢索語(yǔ)言的發(fā)展方向遠(yuǎn)不止一個(gè)網(wǎng)絡(luò)檢索問(wèn)題,我們必須多方面去探索情報(bào)檢索語(yǔ)言的發(fā)展方向。
我認(rèn)為,情報(bào)檢索語(yǔ)言的進(jìn)步主要是結(jié)構(gòu)模式的進(jìn)步。永遠(yuǎn)只有更佳而不會(huì)有最佳的情報(bào)檢索語(yǔ)言結(jié)構(gòu)模式。因此,尋找更佳結(jié)構(gòu)模式永遠(yuǎn)是情報(bào)檢索語(yǔ)言創(chuàng)新的主流。
我認(rèn)為,目前尋找更佳結(jié)構(gòu)模式的主要方向是:①學(xué)科檢索與事物檢索的更密切結(jié)合;②人工語(yǔ)言與自然語(yǔ)言的融合;③線(xiàn)性顯示與網(wǎng)狀顯示的結(jié)合;④族性檢索與特性檢索的靈活調(diào)節(jié);⑤簡(jiǎn)單易用與功能豐富能兼?zhèn)洌虎薜统杀九c高效益能兼?zhèn);⑦自?dòng)化和網(wǎng)絡(luò)化;⑧既能不斷改進(jìn),又能回避重新標(biāo)引;⑨適應(yīng)性、兼容性、民族化和國(guó)際化;⑩與術(shù)語(yǔ)學(xué)密切結(jié)合。這10項(xiàng)中的哪一項(xiàng),即使是小小的改進(jìn),也符合情報(bào)檢索語(yǔ)言發(fā)展的方向。
我在研究中歸納出情報(bào)檢索語(yǔ)言的4項(xiàng)基本功能,即:①對(duì)文獻(xiàn)的情報(bào)內(nèi)容(及某些外表特征)加以標(biāo)引;②對(duì)內(nèi)容相同及相關(guān)的情報(bào)加以集中或揭示其相關(guān)性;③對(duì)大量情報(bào)加以系統(tǒng)化或組織化;④便于將標(biāo)引用語(yǔ)和檢索用語(yǔ)進(jìn)行相符性比較。后來(lái),我在《情報(bào)檢索語(yǔ)言方法綜述》(《圖書(shū)情報(bào)知識(shí)》1984年第2期)一文中對(duì)情報(bào)檢索語(yǔ)言的各種微觀(guān)結(jié)構(gòu)如何實(shí)現(xiàn)這4項(xiàng)基本功能做了系統(tǒng)說(shuō)明。
2 檢索效率
關(guān)于檢索效率,我的總結(jié)是應(yīng)當(dāng)“全、準(zhǔn)、快、便、省”(檢全率、檢準(zhǔn)率、檢索速度、檢索方便性、檢索成本與效益),其中最主要的是全和準(zhǔn)。
決定檢索效率的有4個(gè)方面的因素:①情報(bào)檢索語(yǔ)言的質(zhì)量;②標(biāo)引質(zhì)量;③檢索質(zhì)量;④其他。其中,情報(bào)檢索語(yǔ)言的質(zhì)量與檢索效率關(guān)系最密切。
3 一些具體的心得和收獲
至于一些具體的體會(huì),限于篇幅,這里僅列舉出相關(guān)的文章和出處。在這些文章中,我對(duì)情報(bào)語(yǔ)言學(xué)的某些問(wèn)題曾做過(guò)全面、深入、系統(tǒng)的研究,我認(rèn)為是比較重要的文章:
?《論情報(bào)檢索語(yǔ)言的研究、創(chuàng)制與普及》(《圖書(shū)情報(bào)知識(shí)》1983年第4期);
?《情報(bào)檢索中的語(yǔ)言保證問(wèn)題》(《情報(bào)理論與實(shí)踐》1995年第1期);
?《檢索效率及其影響因素》(《情報(bào)理論與實(shí)踐》1995年第2期);
?《情報(bào)檢索語(yǔ)言語(yǔ)法體系初探》(《圖書(shū)館理論與實(shí)踐》1986年第3期);
?《情報(bào)檢索語(yǔ)言中聚類(lèi)的原理和方法》(《北京圖書(shū)館館刊》1997年第1期);
?《組配及其演變》(《情報(bào)理論與實(shí)踐》1996年第1期);
?《文獻(xiàn)主題的構(gòu)成因素及層次》(《圖書(shū)情報(bào)知識(shí)》1985年第1期);
?《試論隱含主題》(《圖書(shū)館理論與實(shí)踐》1993年第2期);
?《情報(bào)檢索語(yǔ)言的國(guó)家特點(diǎn)、時(shí)代特點(diǎn)和自然語(yǔ)言特點(diǎn)》(《圖書(shū)館理論與實(shí)踐》1989年第4期);
?《情報(bào)檢索語(yǔ)言的易用性問(wèn)題》(《云南圖書(shū)館》199(年第4期));
?《文獻(xiàn)標(biāo)引是需要智慧的近手藝術(shù)創(chuàng)造的處理過(guò)程》(《圖書(shū)館雜志》2004年第3期);
?《情報(bào)檢索全過(guò)程中概念與標(biāo)識(shí)的對(duì)應(yīng)轉(zhuǎn)換》(《圖書(shū)與情報(bào)》2002年第2期);
?《情報(bào)檢索語(yǔ)言的發(fā)展趨勢(shì)(與吳建中的對(duì)話(huà))》(《圖書(shū)館雜志》1996年第4期);
?《事物分類(lèi)與學(xué)科分類(lèi)》(《圖書(shū)館理論與實(shí)踐》200:年第1期);
?《體系分類(lèi)法的準(zhǔn)則和慣例》(《晉圖學(xué)刊》1992年第4期);
?《體系分類(lèi)法中“集中與分散”的矛盾》(《圖書(shū)館雜志》1982年第1期);
?《體系分類(lèi)法中的交替法》(《圖書(shū)情報(bào)知識(shí)》1982年第2期);
?《分類(lèi)標(biāo)記原理與方法概述》(《圖書(shū)館》1993年第1期);
?《情報(bào)檢索語(yǔ)言中語(yǔ)詞標(biāo)識(shí)的功能與局限――關(guān)于主題法性能的幾點(diǎn)分析》(《湖北高校圖書(shū)館》1985年第1期);
?《主題標(biāo)引的原理和方法》(《圖書(shū)館學(xué)刊》1996年第1期和第2期);
?《漢語(yǔ)檢索詞詞素輪排索引編制法探索》(《圖書(shū)與情報(bào)》1992年第4期)。
這些文章都有一定的新穎性,大部分可構(gòu)成情報(bào)語(yǔ)言學(xué)的基礎(chǔ)理論。
4 術(shù)語(yǔ)學(xué)
我認(rèn)為,術(shù)語(yǔ)學(xué)對(duì)情報(bào)語(yǔ)言學(xué)極其重要。術(shù)語(yǔ)是指稱(chēng)概念的規(guī)范化符號(hào),情報(bào)檢索語(yǔ)言的語(yǔ)詞則是指稱(chēng)文獻(xiàn)主題概念的規(guī)范化符號(hào)(標(biāo)識(shí)),術(shù)語(yǔ)與情報(bào)檢索語(yǔ)言的語(yǔ)詞兩者存在著本質(zhì)的一致性。從這一角度看,術(shù)語(yǔ)學(xué)與情報(bào)語(yǔ)言學(xué)的研究對(duì)象可以說(shuō)是同一事物,情報(bào)語(yǔ)言學(xué)所研究的是如何編制用于情報(bào)檢索領(lǐng)域的“術(shù)語(yǔ)詞典”一一分類(lèi)表、詞表、代碼表。
情報(bào)檢索語(yǔ)言的編制可以說(shuō)是術(shù)語(yǔ)整理(規(guī)范化、統(tǒng)一化、標(biāo)準(zhǔn)化)工作成果的諸多應(yīng)用領(lǐng)域之一。術(shù)語(yǔ)整理工作的原則,要求術(shù)語(yǔ)具有:?jiǎn)瘟x性、標(biāo)準(zhǔn)化術(shù)語(yǔ)的字面意義同它所表達(dá)的概念的一致性、系統(tǒng)性(術(shù)語(yǔ)應(yīng)盡可能反映概念之間實(shí)際存在的、在系統(tǒng)化過(guò)程中確定下來(lái)的關(guān)系)、穩(wěn)定性和普遍性、簡(jiǎn)潔性、語(yǔ)言的正確性、借用外來(lái)語(yǔ)的不可取性等,這些要求與情報(bào)檢索語(yǔ)言的選詞、規(guī)范化處理和顯示概念關(guān)系等的要求都是一致的。所以,術(shù)語(yǔ)整理工作成果(術(shù)語(yǔ)標(biāo)準(zhǔn)、推薦術(shù)語(yǔ)集、術(shù)語(yǔ)詞典等,特別是有術(shù)語(yǔ)定義和分類(lèi)體系的術(shù)語(yǔ)文獻(xiàn))是情報(bào)檢索語(yǔ)言選詞的主要來(lái)源和進(jìn)行規(guī)范化處理及建立概念間關(guān)系的重要依據(jù)。情報(bào)檢索語(yǔ)言編制中的失誤,有很多是忽視對(duì)術(shù)語(yǔ)整理工作成果的利用所造成的。
所以,術(shù)語(yǔ)學(xué)與情報(bào)語(yǔ)言學(xué)有著極為密切的關(guān)系,情報(bào)語(yǔ)言學(xué)研究者對(duì)術(shù)語(yǔ)學(xué)的研究必定會(huì)獲益匪淺。
5 自然語(yǔ)言檢索
近10多年,隨著自然語(yǔ)言檢索的流行,圖書(shū)情報(bào)界議論自然語(yǔ)言檢索的文章很多,主流的論點(diǎn)是:①自然語(yǔ)言檢索是發(fā)展方向,信息檢索要走自然語(yǔ)言道路;②人工語(yǔ)言(情報(bào)檢索語(yǔ)言)不適應(yīng)網(wǎng)絡(luò)環(huán)境,自然語(yǔ)言不亞于人工語(yǔ)言;③目前自然語(yǔ)言雖有缺點(diǎn),但人工智能可使其達(dá)到完善,滿(mǎn)足一切檢索要求。
但是,如果仔細(xì)去看,可發(fā)現(xiàn):發(fā)表這些樂(lè)觀(guān)論點(diǎn)者幾乎都不是自然語(yǔ)言檢索的專(zhuān)門(mén)研究者,而專(zhuān)門(mén)研究自然語(yǔ)言檢索的學(xué)者中多數(shù)雖然也認(rèn)同以上某些觀(guān)點(diǎn),但他們所發(fā)表的文章比較平和、審慎,不下如此斷言。
自然語(yǔ)言在文獻(xiàn)(或日信息、情報(bào)、知識(shí))檢索中的應(yīng)用大體可歸納為下列幾個(gè)方面:①關(guān)鍵詞索引及以關(guān)鍵詞為檢索標(biāo)識(shí)的文獻(xiàn)數(shù)據(jù)庫(kù)(數(shù)據(jù)庫(kù)中的關(guān)鍵詞檢索標(biāo)識(shí)來(lái)自人工自由標(biāo)引,或略加人工輔助的計(jì)算機(jī)抽詞,或藉助于詞典的自動(dòng)抽詞);②全文數(shù)據(jù)庫(kù);③搜索引擎及由搜索引擎自動(dòng)建立的網(wǎng)絡(luò)資源數(shù)據(jù)庫(kù);④自動(dòng)甄別(知識(shí)本體語(yǔ)言);⑤自動(dòng)標(biāo)引(自動(dòng)抽取主題概念詞標(biāo)引);⑥自動(dòng)分類(lèi)。
以上6個(gè)主要方面,只有關(guān)鍵詞索引及數(shù)據(jù)庫(kù)、全文檢索、搜索引擎已進(jìn)入實(shí)用。其實(shí),這三個(gè)方面的實(shí)質(zhì)都是關(guān)鍵詞檢索。所以可以說(shuō),自然語(yǔ)言檢索目前僅在關(guān)鍵詞檢索的層次上已經(jīng)實(shí)現(xiàn)(但還不是非常成熟,不是無(wú)可指摘)。至于自動(dòng)甄別、自動(dòng)標(biāo)引和自動(dòng)分類(lèi),嚴(yán)格地說(shuō)都還沒(méi)有走出實(shí)驗(yàn)室進(jìn)入廣泛應(yīng)用。自然語(yǔ)言檢索的研究已有半個(gè)多世紀(jì)的歷史,進(jìn)展如 此緩慢,可見(jiàn)難度極大。
自然語(yǔ)言在情報(bào)檢索中的應(yīng)用,面臨著以下兩個(gè)難題:一是如何從自然語(yǔ)言文本中抽出(或者說(shuō)確認(rèn))最能準(zhǔn)確、充分地表達(dá)文獻(xiàn)有價(jià)值內(nèi)容的詞以及這些詞與檢索課題有效匹配的問(wèn)題。這個(gè)問(wèn)題的復(fù)雜性在于文獻(xiàn)作者的用詞無(wú)明顯的規(guī)律性,并且作為人類(lèi)社會(huì)現(xiàn)象的自然語(yǔ)言不可能用純自然科學(xué)的方法去研究解決。這個(gè)問(wèn)題同機(jī)器翻譯的性質(zhì)類(lèi)似。如果去追求百分之百的自動(dòng)化,至少在短期內(nèi)是無(wú)希望解決的(當(dāng)然,自然語(yǔ)言自動(dòng)處理現(xiàn)有的一些中間成果還是有實(shí)用價(jià)值的)。如果采用人機(jī)結(jié)合的方法,則可以較為容易一些。二是克服自然語(yǔ)言由于不規(guī)范和缺乏語(yǔ)義關(guān)聯(lián)性而對(duì)檢索不利的問(wèn)題?朔@個(gè)難題也是不能完全用自動(dòng)化方法的。除此以外,對(duì)中文來(lái)說(shuō)還有一個(gè)漢語(yǔ)分詞的問(wèn)題。漢語(yǔ)分詞的研究已取得很大進(jìn)展。但這個(gè)問(wèn)題的解決,只是達(dá)到了拼寫(xiě)文字國(guó)家的起點(diǎn)水平,拼寫(xiě)文字中未解決的上述兩個(gè)問(wèn)題仍有待我們?nèi)ソ鉀Q。
有不止一位作者說(shuō),自然語(yǔ)言檢索是情報(bào)檢索用語(yǔ)言發(fā)展的最高階段。他們說(shuō):從自然語(yǔ)言,到人工語(yǔ)言,再回到自然語(yǔ)言,或者說(shuō),從不控制,到控制,再到不控制,這是“否定之否定”,是情報(bào)檢索用語(yǔ)言的“發(fā)展規(guī)律”。
我認(rèn)為,這種理解是似是而非的。沒(méi)有任何控制的檢索用語(yǔ)言是不可思議的。至今還沒(méi)有找到在計(jì)算機(jī)環(huán)境下不加控制地利用自然語(yǔ)言的十分有效的方法。如果有,一定會(huì)被檢索網(wǎng)站立即用高價(jià)收買(mǎi)而付諸應(yīng)用。但至今在網(wǎng)絡(luò)上沒(méi)有發(fā)現(xiàn)那樣的方法,說(shuō)明那樣的方法至少現(xiàn)在還不存在,將來(lái)也未必會(huì)出現(xiàn)。
自然語(yǔ)言到底會(huì)走向何方?我認(rèn)為,自然語(yǔ)言的未來(lái)與情報(bào)檢索語(yǔ)言的未來(lái)在某種意義上可以說(shuō)是同一個(gè)問(wèn)題。從一方面看,自然語(yǔ)言不可能全面取代情報(bào)檢索語(yǔ)言、淘汰情報(bào)檢索語(yǔ)言,情報(bào)檢索語(yǔ)言還將繼續(xù)發(fā)展;但從另一方面看,在計(jì)算機(jī)檢索的條件下,自然語(yǔ)言有許多重要的優(yōu)點(diǎn),故它也必然會(huì)更進(jìn)一步得到發(fā)展?傊,網(wǎng)絡(luò)檢索不能唯一地使用自然語(yǔ)言。自然語(yǔ)言的前途仍然要走向控制、規(guī)范,當(dāng)然,控制的方法會(huì)與過(guò)去人工語(yǔ)言所采用的方法有所不同。
其實(shí),自然語(yǔ)言檢索系統(tǒng)與情報(bào)檢索語(yǔ)言檢索系統(tǒng)并不是絕然對(duì)立的。既然兩者各有優(yōu)點(diǎn)而不可能互相取代,為什么不可以使兩者結(jié)合或融合呢?自然語(yǔ)言或情報(bào)檢索語(yǔ)言的未來(lái)將是自然語(yǔ)言的情報(bào)檢索語(yǔ)言化或情報(bào)檢索語(yǔ)言的自然語(yǔ)言化。
情報(bào)檢索語(yǔ)言的自然語(yǔ)言化、自然語(yǔ)言的情報(bào)檢索語(yǔ)言化,這是兩者發(fā)展的大趨勢(shì),走兩者結(jié)合之路是大方向。在兩者完全融合的新型情報(bào)檢索語(yǔ)言普及以前的趨勢(shì)可能是下列三種情況并存:①情報(bào)檢索語(yǔ)言與自然語(yǔ)言在一個(gè)檢索系統(tǒng)中并用;②情報(bào)檢索語(yǔ)言增加自然語(yǔ)言成分;③自然語(yǔ)言適當(dāng)引進(jìn)情報(bào)檢索語(yǔ)言的原理與方法和增加情報(bào)檢索語(yǔ)言成分。
既然人工語(yǔ)言和自然語(yǔ)言都起著不可取代的作用,因而對(duì)兩者的研究不可偏廢。目前,亟待從情報(bào)語(yǔ)言學(xué)的角度來(lái)深入研究自然語(yǔ)言檢索中存在的問(wèn)題(這是自然語(yǔ)言檢索研究中的薄弱環(huán)節(jié)),把情報(bào)語(yǔ)言學(xué)的原理和方法引進(jìn)自然語(yǔ)言檢索的研究,并要重視利用情報(bào)檢索語(yǔ)言已往所積累的成果(例如分類(lèi)表和詞表對(duì)概念和術(shù)語(yǔ)的整理成果)。也要積極研究情報(bào)檢索語(yǔ)言在網(wǎng)絡(luò)環(huán)境下應(yīng)用中所遇到的新問(wèn)題,尋找改進(jìn)方法,特別是吸取自然語(yǔ)言的優(yōu)點(diǎn)來(lái)彌補(bǔ)情報(bào)檢索語(yǔ)言的不足之處。這兩方面的研究,應(yīng)朝著并且必然會(huì)朝著從兩者的初步結(jié)合到完全融合。
總之,我對(duì)僅僅借助于計(jì)算機(jī)技術(shù)的純粹自然語(yǔ)言檢索(或者說(shuō)不利用情報(bào)語(yǔ)言學(xué)原理控制的自然語(yǔ)言檢索)在短期內(nèi)(例如10年、20年)能完滿(mǎn)實(shí)現(xiàn)并不抱樂(lè)觀(guān)的態(tài)度。我越來(lái)越覺(jué)得亟需從情報(bào)語(yǔ)言學(xué)角度深入研究自然語(yǔ)言檢索方法,把情報(bào)語(yǔ)言學(xué)的原理和方法引進(jìn)自然語(yǔ)言檢索的研究。正是這樣,我近年的研究重點(diǎn),轉(zhuǎn)移到了自然語(yǔ)言在情報(bào)檢索中的應(yīng)用方面。
在自然語(yǔ)言在情報(bào)檢索中的應(yīng)用(包括網(wǎng)絡(luò)資源檢索工具)的研究方面,我曾寫(xiě)過(guò)不少文章,如:
?《關(guān)于自然語(yǔ)言檢索問(wèn)題》(《圖書(shū)館論壇》2004年第6期);
?《自然語(yǔ)言檢索中各種因素對(duì)檢索效率的影響》(《情報(bào)理論與實(shí)踐》1997年第5期);
?《人一機(jī)結(jié)合的題內(nèi)關(guān)鍵詞索引可回避漢語(yǔ)分詞難題》(《圖書(shū)館雜志》1993年第4期);
《題名關(guān)鍵詞與正文關(guān)鍵詞檢索性能的差別》(《中國(guó)索引》2004年第4期);
《自動(dòng)抽詞與自動(dòng)分詞》(《圖書(shū)館雜志》2002年第3期);
《文獻(xiàn)題名自動(dòng)抽詞一分類(lèi)標(biāo)引系統(tǒng)》(《圖書(shū)館雜志》1998年第4期);
?《自然語(yǔ)言與人工語(yǔ)言的對(duì)應(yīng)轉(zhuǎn)換一隋報(bào)檢索語(yǔ)言走向自動(dòng)化之路》(《中國(guó)圖書(shū)館學(xué)報(bào)》1996年第1期);
?《積極為自然語(yǔ)言與情報(bào)檢索語(yǔ)言的結(jié)合創(chuàng)造務(wù)件――建議大量編制自然語(yǔ)言詞袁》(《圖書(shū)館雜志》1999年第9期);
?《走向自然語(yǔ)言與情報(bào)檢索語(yǔ)言結(jié)合之路》(《圖書(shū)館理論與實(shí)踐》2001年第2期);
《人工語(yǔ)言與自然語(yǔ)言、先控制與后控制的界限在計(jì)算機(jī)系統(tǒng)中可淡化或取消》(《圖書(shū)館雜志》1997年第5期);
?《分類(lèi)語(yǔ)言、主題語(yǔ)言、自然語(yǔ)言一體化檢索系統(tǒng)》(《現(xiàn)代圖書(shū)情報(bào)技術(shù)》2002年第1期);
?《論后控制詞表》(《圖書(shū)情報(bào)工作》1994年第1期);
《充分利用入口詞原理》(《圖書(shū)館論叢》1992年試刊號(hào));
《論自由標(biāo)引》(《圖書(shū)館學(xué)刊》1995年第5期);
?《概念分面組配型自動(dòng)分類(lèi)系統(tǒng)》(《圖書(shū)館學(xué)刊》2002年第6期);
《全文數(shù)據(jù)庫(kù)、全文檢索與全文標(biāo)引》(《圖書(shū)館理論與實(shí)踐》2002年第6期);
《全文檢索系統(tǒng)較好的模式》(《圖書(shū)館理論與實(shí)踐》2002年第5期);
《全文檢索系統(tǒng)的檢索性能》(《江西圖書(shū)館學(xué)刊》2004年第3期);
《字面相似聚類(lèi)法輔助構(gòu)造詞族表、分面類(lèi)表和自動(dòng)標(biāo)引》(《圖書(shū)館論壇》2002年第5期);
《文獻(xiàn)題名初步研究》(《江西圖書(shū)館學(xué)刊》2006年第3期);
?《關(guān)于我國(guó)網(wǎng)絡(luò)信息檢索工具開(kāi)發(fā)與改進(jìn)的思考》(《2000年理論學(xué)術(shù)年刊》);
(下轉(zhuǎn)第29頁(yè))
?《網(wǎng)絡(luò)信息檢索工具增強(qiáng)關(guān)鍵詞檢索功能的措施》(《圖書(shū)館雜志》2001年第1期);
?《網(wǎng)絡(luò)信息檢索工具的分類(lèi)體系》(《江蘇圖書(shū)館學(xué)報(bào)》2002年第4期);
?《因特網(wǎng)大眾分類(lèi)法若干問(wèn)題的探討》(《圖書(shū)館論壇》2005年第6期);
《因特網(wǎng)大眾分類(lèi)法的本質(zhì)屬性》(《圖書(shū)館雜志》2002年第11期);
《因特網(wǎng)大眾分類(lèi)法是獨(dú)立創(chuàng)造而不是對(duì)傳統(tǒng)分類(lèi)法的改進(jìn)和發(fā)展》(《江西圖書(shū)館學(xué)刊》2005年第1期);
《因特網(wǎng)大眾分類(lèi)法的標(biāo)準(zhǔn)化問(wèn)題》(《中國(guó)索引》2004年第l期);
《分類(lèi)瀏覽型網(wǎng)絡(luò)信息檢索工具的主要缺陷》(《中國(guó)索引》2005年第1期);
《專(zhuān)業(yè)型檢索工具與導(dǎo)航庫(kù)在發(fā)掘網(wǎng)絡(luò)信息資源中的重要作用》(《圖書(shū)館理論與實(shí)踐》2002年第6期);
?《網(wǎng)絡(luò)信息檢索用語(yǔ)言的發(fā)展趨勢(shì)》(《圖書(shū)館雜志》2001年第3期)。
在以上文章中,帶“?”號(hào)的文章,我認(rèn)為是比較重要的。
至于我在研究索引學(xué)方面的心得和收獲,因限于篇幅,不再作介紹了。
以上心得中的不正確、不完善之處,請(qǐng)不吝指正。
相關(guān)熱詞搜索:語(yǔ)言學(xué) 情報(bào) 收獲 情報(bào)語(yǔ)言學(xué)的若干研究心得和收獲 試論情報(bào)語(yǔ)言學(xué)的研究方法 情報(bào)語(yǔ)言學(xué)常用的研究方法
熱點(diǎn)文章閱讀