中文信息處理 [基于中文信息處理的古籍整理研究評(píng)述]
發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄 點(diǎn)擊:
[摘要]隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,基于中文信息處理的古籍整理已成為近年來(lái)的研究熱點(diǎn),并且取得一些可喜的成績(jī)。在搜集整理當(dāng)前研究與應(yīng)用成果的基礎(chǔ)上,從古籍的自動(dòng)錄入、自動(dòng)斷句、自動(dòng)編纂以及自動(dòng)翻譯等方面對(duì)基于中文信息處理技術(shù)的古籍整理的研究現(xiàn)狀進(jìn)行概述,同時(shí)分別探討這幾個(gè)方面仍然存在的問(wèn)題,并展望其今后的研究工作。
[關(guān)鍵詞]古籍整理 中文信息處理 古籍研究
[分類號(hào)]G252.7
1 引言
在人類幾千年的歷史發(fā)展中,我們的先祖利用文言撰寫(xiě)了大量的作品,例如:史書(shū)、筆記、方志、字書(shū)、詩(shī)詞、雜考等等。這些浩如煙海的古籍記載了華夏民族的歷史和輝煌,是極其珍貴的文化遺產(chǎn)。因此如何對(duì)它們進(jìn)行有效地整理和深入地研究是我們當(dāng)代科研工作者責(zé)無(wú)旁貸的任務(wù)。傳統(tǒng)古籍整理的方式一般都是人為的手工方式,這是一項(xiàng)極艱難極復(fù)雜的工作,需要大量的時(shí)間和耐心。但當(dāng)計(jì)算機(jī)出現(xiàn)以后,人們就期盼能用計(jì)算機(jī)來(lái)進(jìn)行古籍整理研究,而中文信息處理技術(shù)就是實(shí)現(xiàn)這一美好愿望的有效手段。
現(xiàn)在對(duì)中文信息處理通常的理解是:用計(jì)算機(jī)來(lái)加工處理中文的信息,屬于涉及計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、語(yǔ)言學(xué)、信息學(xué)、數(shù)學(xué)、聲學(xué)等多種學(xué)科的一門(mén)綜合性交叉學(xué)科。中文信息處理包含漢字輸入、文字識(shí)別、語(yǔ)音識(shí)別、漢語(yǔ)分詞、語(yǔ)義分析、語(yǔ)言翻譯、信息檢索等多個(gè)分支。漢字輸入就是指將漢字信息輸入到計(jì)算機(jī),常見(jiàn)的輸入方法有鍵盤(pán)輸入和聯(lián)機(jī)手寫(xiě)輸入;文字識(shí)別是指用計(jì)算機(jī)自動(dòng)地識(shí)別出寫(xiě)在介質(zhì)上的漢字,文字識(shí)別一般可分為印刷體識(shí)別和手寫(xiě)體識(shí)別兩種;語(yǔ)音識(shí)別是計(jì)算機(jī)通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的信息處理技術(shù),具有代表性的方法主要有隱馬爾可夫法和神經(jīng)網(wǎng)絡(luò)法;漢語(yǔ)分詞就是指利用計(jì)算機(jī)自動(dòng)地將一個(gè)句子中的每個(gè)詞分開(kāi),即類似于英語(yǔ)中用空格將每個(gè)單詞隔開(kāi),目前的分詞方法歸納起來(lái)有三種類型:機(jī)械分詞法、語(yǔ)義分詞法和人工智能法;語(yǔ)義分析指的是在分析句子的句法結(jié)構(gòu)和辨析句中每個(gè)詞詞義的基礎(chǔ)上,推導(dǎo)句義的形式化表示;語(yǔ)言翻譯就是用計(jì)算機(jī)來(lái)實(shí)現(xiàn)不同語(yǔ)言之間的翻譯,被翻譯的語(yǔ)言通常稱作源語(yǔ)言,翻譯成的結(jié)果語(yǔ)言稱作目標(biāo)語(yǔ)言;信息檢索是指計(jì)算機(jī)通過(guò)特定的算法或模型從各種信息文檔中搜索有價(jià)值的信息或知識(shí)的一種高技術(shù)。當(dāng)前越來(lái)越多的研究者將這些中文信息處理技術(shù)應(yīng)用于古籍整理研究中,尤其是在古籍的錄入、標(biāo)點(diǎn)、編纂等方面獲得了顯著的成果。
2 古籍自動(dòng)錄入
傳統(tǒng)的古籍錄入方式多采用手工的形式,通過(guò)人為的鍵盤(pán)輸入或是聯(lián)機(jī)手寫(xiě)輸入的方式將古籍中的文字輸入計(jì)算機(jī),這種方法要花費(fèi)大量的人力和時(shí)間,而且容易出錯(cuò)。因此要實(shí)現(xiàn)古籍中的文字信息高速、自動(dòng)輸入到計(jì)算機(jī),目前多采用光學(xué)字符識(shí)別(OCR)技術(shù)來(lái)進(jìn)行古籍的錄入。OCR技術(shù)可以高速地辨別紙張上的文字,并將其轉(zhuǎn)化為可編輯的文字。古籍自動(dòng)錄入大致要經(jīng)過(guò)圖像掃描、預(yù)處理、版面分析、文字區(qū)域提取、文字識(shí)別、后處理等幾個(gè)步驟,具體過(guò)程如圖1所示:
古籍自動(dòng)錄入技術(shù)運(yùn)用比較成功的例子是“數(shù)碼翰林”軟件,該軟件已經(jīng)制作了保持原書(shū)排版風(fēng)格的《四庫(kù)全書(shū)》及《四部叢刊》等電子圖書(shū)。古籍自動(dòng)錄入技術(shù)最主要體現(xiàn)在古籍的數(shù)字化工作中,而到目前為止古籍?dāng)?shù)字化已經(jīng)取得了豐碩的成果,大量的古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)不斷涌現(xiàn),例如北京大學(xué)的《全唐詩(shī)》和《全宋詩(shī)》電子檢索系統(tǒng)、陜西師范大學(xué)的《二十五史》全文檢索系統(tǒng)以及臺(tái)灣大學(xué)的中華電子佛典線上藏經(jīng)閣大正藏全文檢索系統(tǒng)等等。
盡管已經(jīng)有了成功應(yīng)用的實(shí)例,但是當(dāng)前古籍的自動(dòng)錄入依然面臨著如下問(wèn)題:
?古籍自動(dòng)錄入的優(yōu)劣依賴于文字識(shí)別的質(zhì)量,然而文字識(shí)別本身就存在著諸如漢字類別較大、漢字結(jié)構(gòu)復(fù)雜且相似字較多等困難。
?現(xiàn)在的計(jì)算機(jī)漢字字庫(kù)中缺少古籍中經(jīng)常出現(xiàn)的冷僻字和異體字,例如漢字的賦中,作家為了炫耀自己的才能,往往羅列很多生僻字,有“字林”之譏,如《上林賦》、《子虛賦》,等等。
?經(jīng)常會(huì)由于儀器硬件設(shè)備的問(wèn)題或古籍中的字跡不清晰,造成圖像掃描質(zhì)量差且存在大量噪聲,從而使得文字識(shí)別率低。
針對(duì)上述問(wèn)題,今后研究工作的重心應(yīng)該放在提高文字識(shí)別的效率和完善漢字字庫(kù)上來(lái),尤其是前者,魯棒性更強(qiáng)的文字識(shí)別技術(shù)對(duì)于古籍的自動(dòng)識(shí)別是至關(guān)重要的。
3 古籍自動(dòng)斷句
與現(xiàn)代人不同,古人寫(xiě)文章是不用標(biāo)點(diǎn)符號(hào)的,因此要正確理解古籍中文章的詞義或句義,就需要斷句。斷句就是指把沒(méi)有標(biāo)點(diǎn)符號(hào)的文字,整理成為清晰可讀的句子。傳統(tǒng)的方式多為人工斷句,這種方式費(fèi)時(shí)費(fèi)力,因此最近很多研究者開(kāi)始嘗試?yán)糜?jì)算機(jī)來(lái)實(shí)現(xiàn)古籍的自動(dòng)斷句。古籍自動(dòng)斷句的,大致要經(jīng)過(guò)文本預(yù)處理、文本斷句、結(jié)果反饋等幾個(gè)步驟,如圖2所示:
近年來(lái),古籍的自動(dòng)斷句開(kāi)始成為研究的熱點(diǎn)。文獻(xiàn)中不僅給出了農(nóng)業(yè)古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖,而且還給出了一種基于模式匹配的斷句方法;該方法首先采用句法特征詞法、同義語(yǔ)標(biāo)志詞法來(lái)進(jìn)行初步斷句,然后利用反義復(fù)合詞、引書(shū)標(biāo)志、時(shí)序、數(shù)量詞、重疊詞、動(dòng)名結(jié)構(gòu)及比較句法進(jìn)一步進(jìn)行斷句,最后使用農(nóng)業(yè)用語(yǔ)和禁用模式來(lái)提高農(nóng)業(yè)古籍?dāng)嗑涞臏?zhǔn)確性。文獻(xiàn)提出了一種基于前后N-gram模型的古漢語(yǔ)斷句算法;N-gram模型又稱作N元語(yǔ)法模型,它是一種基于統(tǒng)計(jì)的文本模型,其基本思想是將文本內(nèi)容按字節(jié)流進(jìn)行大小為N的滑動(dòng)窗口操作,形成長(zhǎng)度為N的字節(jié)片段序列,每個(gè)字節(jié)片段稱為gram,對(duì)全部gram的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),并根據(jù)統(tǒng)計(jì)結(jié)果和預(yù)先設(shè)定的閾值對(duì)文本建立模型。文獻(xiàn)提出了一種以兩個(gè)統(tǒng)計(jì)量互信息和測(cè)試差為特征的條件隨機(jī)場(chǎng)模型,并將該模型應(yīng)用于古文的自動(dòng)斷句;條件隨機(jī)場(chǎng)模型是一種對(duì)數(shù)線性判別模型,它最早由Lafferty等人提出,目的是為了解決當(dāng)時(shí)各種序列標(biāo)注模型存在的標(biāo)注偏置等問(wèn)題,該模型在中文信息處理領(lǐng)域有著非常廣泛的應(yīng)用。
盡管目前古籍自動(dòng)斷句的研究取得了一定的成績(jī),但是仍然存在著如下的問(wèn)題:
?當(dāng)前的一些方法獲得的古籍?dāng)嗑涞臏?zhǔn)確率很低,例如:文獻(xiàn)中的準(zhǔn)確率大概為48%,而文獻(xiàn)中的準(zhǔn)確率則為52%。
?自動(dòng)斷句方法僅僅在少量的古籍中進(jìn)行驗(yàn)證,因此方法缺乏較好的泛化性,例如:文獻(xiàn)和文獻(xiàn)中的實(shí)驗(yàn)只在《論語(yǔ)》和《史記》進(jìn)行。
正是由于上述問(wèn)題的存在,古籍自動(dòng)斷句的研究才急切地呼喚著更多性能卓越的新方法的出現(xiàn),漢語(yǔ)分詞技術(shù)則可能是在今后會(huì)成為實(shí)現(xiàn)古籍自動(dòng)斷句的重要手段,而最近的文獻(xiàn)中就已經(jīng)給出了相關(guān)的古漢語(yǔ)分詞方法。
4 古籍自動(dòng)編纂
古籍的編纂就是指按照相關(guān)的主題來(lái)編輯古籍文獻(xiàn)。與錄入和斷句一樣,傳統(tǒng)的手工編纂,勞動(dòng)量巨大,且繁瑣乏味的機(jī)械工作帶來(lái)更多的是低效率和高成本,因此利用計(jì)算機(jī)自動(dòng)編纂古籍已成為大勢(shì)所趨。 古籍自動(dòng)編纂需要確定編纂主題、文檔分析、文檔編纂等步驟,一般流程如圖3所示:
到目前為止與古籍自動(dòng)編纂相關(guān)的文獻(xiàn)也有不少,文獻(xiàn)中介紹了一種農(nóng)業(yè)古籍自動(dòng)編纂方法,該方法的主要原理是:如果兩個(gè)句子包含相同的單詞越多,那么它們的關(guān)系越密切,然后根據(jù)句子間的密切關(guān)系劃分出句群,如果發(fā)現(xiàn)某一句群包含編纂的主題,則將其摘錄出來(lái),在實(shí)際應(yīng)用中,文獻(xiàn)通過(guò)提取子句關(guān)鍵詞、計(jì)算緊湊度和深度值等方式來(lái)最終實(shí)現(xiàn)農(nóng)業(yè)古籍的自動(dòng)編纂。此外,文獻(xiàn)中以《道德經(jīng)》語(yǔ)詞索引自動(dòng)編纂為例探討了古籍索引機(jī)編的相關(guān)問(wèn)題。文獻(xiàn)中給出了一種基于N-gram模型、詞頻統(tǒng)計(jì)等算法的古籍文本抽詞方法,該方法的功能是從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞,主要的應(yīng)用場(chǎng)合包括各種詞表的編制以及索引的編制等等。
古籍的自動(dòng)編纂是古籍整理的基礎(chǔ),高質(zhì)量的編纂對(duì)于古籍的研究具有非常重要的意義。然而目前古籍自動(dòng)編纂的研究尚處于起步階段,因此這項(xiàng)工作還有更多需要解讀的技術(shù)難題,例如:文檔的分割、子句的劃分等等。盡管文獻(xiàn)中認(rèn)為古籍自動(dòng)編纂與中文信息處理中的自動(dòng)文摘技術(shù)既有聯(lián)系又有區(qū)別,兩者并不通用。但是筆者認(rèn)為隨著中文信息處理技術(shù)的發(fā)展以及古籍自動(dòng)整理研究工作的深入,在今后自動(dòng)文摘算法的思想是可以為古籍自動(dòng)編纂所吸收和借鑒的,例如:基于統(tǒng)計(jì)的自動(dòng)文摘技術(shù)就可以通過(guò)改進(jìn)用于古籍的自動(dòng)編纂,而且有理由相信隨著未來(lái)用戶需求的變化,基于理解的自動(dòng)文摘技術(shù)和基于信息抽取的自動(dòng)文摘技術(shù)也將會(huì)對(duì)古籍自動(dòng)編纂研究的發(fā)展起到巨大的推動(dòng)作用。
5 古籍自動(dòng)翻譯
由于語(yǔ)言習(xí)慣的逐漸發(fā)展,現(xiàn)代人如果不經(jīng)過(guò)專業(yè)訓(xùn)練,如果沒(méi)有古漢語(yǔ)知識(shí)的積累,那么在面對(duì)古代文獻(xiàn)時(shí),總會(huì)感覺(jué)生澀難懂,而這些珍貴的古代文獻(xiàn)中不僅記載著中華民族的悠久歷史和燦爛的文化,而且凝聚著古代千千萬(wàn)萬(wàn)勞動(dòng)人民的智慧與經(jīng)驗(yàn),因此要讓更多的中國(guó)人認(rèn)識(shí)和理解古籍文獻(xiàn)、學(xué)習(xí)和傳播古籍知識(shí),古籍的翻譯是至關(guān)重要的前提。對(duì)于汗牛充棟的古籍。人工翻譯顯然是不現(xiàn)實(shí)的做法,而與計(jì)算機(jī)相結(jié)合的古籍自動(dòng)翻譯則更為切實(shí)可行。簡(jiǎn)單流程如圖4所示:
目前有關(guān)古籍自動(dòng)翻譯的文獻(xiàn)非常少,僅文獻(xiàn)和文獻(xiàn)有涉及這方面的內(nèi)容。文獻(xiàn)中采用相對(duì)比較成熟的規(guī)則翻譯方法和實(shí)例庫(kù)相結(jié)合,利用中文信息處理技術(shù)的一些研究成果,初步構(gòu)造了一個(gè)古文自動(dòng)翻譯系統(tǒng)。文獻(xiàn)中設(shè)計(jì)與實(shí)現(xiàn)了古今漢語(yǔ)自動(dòng)句對(duì)齊及相似古文句子檢索算法,并且提出從大量的古今互譯實(shí)例中檢索與輸入句子最相似的源句子是基于實(shí)例的古今漢語(yǔ)機(jī)器翻譯必須解決的首要問(wèn)題。
盡管當(dāng)前鮮有人進(jìn)行古籍自動(dòng)翻譯的研究,但是并不表示這項(xiàng)工作沒(méi)有可研究之處,在今后,古籍自動(dòng)翻譯的研究可以在如下方面做出初步的嘗試:
?將最新的實(shí)用機(jī)器翻譯技術(shù)用于古籍的翻譯。機(jī)器翻譯簡(jiǎn)單地說(shuō)就是用計(jì)算機(jī)將一種自然語(yǔ)言在沒(méi)有人參與的情況下翻譯為另一種自然語(yǔ)言,目前機(jī)器翻譯方法主要包括:基于規(guī)則的機(jī)器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法和統(tǒng)計(jì)機(jī)器翻譯方法。使用機(jī)器翻譯技術(shù)可以對(duì)古籍自動(dòng)翻譯的研究產(chǎn)生重要的推動(dòng)作用。
?設(shè)計(jì)古籍自動(dòng)翻譯的評(píng)價(jià)方法。當(dāng)計(jì)算機(jī)翻譯了一段古文或一本古籍以后,翻譯的質(zhì)量如何是需要有一個(gè)衡量尺度的,因此研究古籍自動(dòng)翻譯的評(píng)價(jià)方法有著非常重要的意義,當(dāng)前其評(píng)價(jià)方法可以采納或借鑒英漢機(jī)器翻譯的評(píng)價(jià)方法,例如:基于句法結(jié)構(gòu)的評(píng)價(jià)方法和基于測(cè)試集的評(píng)價(jià)方法等等。
?古文的英譯,即將文言文翻譯成英語(yǔ)。隨著社會(huì)的不斷發(fā)展,古文英譯可以更好地向西方展現(xiàn)輝煌的中華文明,促進(jìn)中西方文化的交流。
6 其他方面
基于中文信息處理的古籍整理除了古籍錄入、斷句、編纂和翻譯之外,還有如下方面值得今后進(jìn)一步的研究:
?古籍自動(dòng)?。一個(gè)古籍可能又有多個(gè)版本,各版本之間由于傳抄、印刻中出現(xiàn)的差錯(cuò),而造成內(nèi)容差別很大,因此需要對(duì)古籍進(jìn)行校勘。古籍自動(dòng)?笔侵咐糜(jì)算機(jī)自動(dòng)發(fā)現(xiàn)并標(biāo)記出古籍不同版本之間的文字差異,并提供各種輔助工具幫助專家勘誤。盡管文獻(xiàn)中開(kāi)發(fā)了古籍自動(dòng)校勘系統(tǒng),但是其屬于實(shí)驗(yàn)系統(tǒng),缺乏實(shí)用性,并且自動(dòng)校勘算法也有待改進(jìn)。
?古籍自動(dòng)箋注。箋注工作的目的是通過(guò)注釋古籍中的一些冷僻字詞、典故出處等等來(lái)增強(qiáng)古籍的可讀性。文獻(xiàn)和中提出用計(jì)算機(jī)來(lái)完成古籍的箋注是行之有效的方法。
?輔助古典文學(xué)的研究。文獻(xiàn)中運(yùn)用了大量的篇幅來(lái)說(shuō)明將中文信息處理中的信息檢索和語(yǔ)義分析等技術(shù)用于古典文學(xué)研究的重要性與可行性,而文獻(xiàn)則更是設(shè)計(jì)了一個(gè)對(duì)聯(lián)應(yīng)對(duì)程序。
7 結(jié)語(yǔ)
基于中文信息處理的古籍整理研究還處于初級(jí)階段,當(dāng)前僅僅在使用古籍自動(dòng)錄入技術(shù)的古籍?dāng)?shù)字化工作上取得了豐富的實(shí)際成果,其他方面均缺少實(shí)用性和通用性強(qiáng)的成果,更多的只是在論文上見(jiàn)到的實(shí)驗(yàn)性結(jié)果,因此許多相關(guān)工作亟待科研工作者深入的研究和實(shí)踐。此外,現(xiàn)階段既精通信息處理技術(shù),又熟悉文言知識(shí)的人才非常缺乏,因此急需大力培養(yǎng)相關(guān)人才。盡管尚待解決的問(wèn)題還很多,但是相信經(jīng)過(guò)眾多研究者的通力合作與不懈努力,新的基于中文信息處理古籍自動(dòng)整理的方法將不斷涌現(xiàn),計(jì)算機(jī)代替手工來(lái)進(jìn)行古籍整理的美好愿望必將實(shí)現(xiàn)。
相關(guān)熱詞搜索:評(píng)述 古籍 中文 基于中文信息處理的古籍整理研究評(píng)述 古籍整理研究學(xué)刊目錄 古籍整理研究學(xué)刊2014
熱點(diǎn)文章閱讀