[語義檢索研究綜述] 語義分割綜述
發(fā)布時間:2020-03-07 來源: 日記大全 點擊:
摘要 隨著語義網(wǎng)技術(shù)的發(fā)展,語義檢索已成為研究熱點,其旨在克服傳統(tǒng)網(wǎng)絡(luò)檢索技術(shù)的局限性,支持知識檢索。在對現(xiàn)有研究與應(yīng)用調(diào)研的基礎(chǔ)上,對當(dāng)前語義檢索研究進行綜述,詳細(xì)分析兩類語義檢索研究:語義支持的檢索及語義網(wǎng)資源檢索,并進一步分析后者三種不同的研究方向:語義網(wǎng)文檔檢索,實例檢索和關(guān)系檢索。
關(guān)鍵詞 語義檢索 語義網(wǎng) 本體 信息檢索
分類號 TP391
1 網(wǎng)絡(luò)信息檢索的局限與語義檢索
目前網(wǎng)絡(luò)檢索的實現(xiàn)技術(shù)主要有兩種:一種是依賴于編碼處理,通過分類模式來描述信息資源,從而實現(xiàn)檢索;另一種是通過全文檢索,查找文本中含有用戶指定詞語的信息源。其應(yīng)用的體現(xiàn)分別為基于分類目錄的搜索引擎和全文搜索引擎。前者雖然基于人工處理,準(zhǔn)確性較高,但它更適合用于網(wǎng)絡(luò)信息資源的瀏覽和導(dǎo)航;后者實現(xiàn)較為方便,適應(yīng)了對迅速增長的海量網(wǎng)絡(luò)信息資源進行自動處理的需要,成為網(wǎng)絡(luò)信息檢索的主要途徑。但是用戶在檢索中始終面臨不少困難,如:檢索結(jié)果的過載和低查準(zhǔn)率,用戶負(fù)擔(dān)重;檢索結(jié)果及其排序不一致,且與用戶使用的查詢詞匯形式及其組合形式高度相關(guān)等。究其原因,統(tǒng)計意義上的詞型匹配難以支持對網(wǎng)絡(luò)信息資源的有效檢索利用。因此研究者們將目光投向了對詞形背后的意義的挖掘上,探索實現(xiàn)基于概念匹配的檢索技術(shù)和方法。
早在上世紀(jì)80年代對語義檢索的討論就出現(xiàn)在SIGIR會議論文中,但語義檢索研究始終受制于語義信息處理發(fā)展水平的局限。隨著自然語言處理、人工智能的發(fā)展,尤其是語義網(wǎng)技術(shù)的興起與發(fā)展,語義檢索研究自上世紀(jì)末以來得以迅速發(fā)展。盡管到目前為止對語義檢索在概念上仍沒有統(tǒng)一的界定,但不同的研究卻有著共同之處,就是基于對信息資源的語義處理實現(xiàn)效率更高的檢索。語義信息的提取和處理可以是基于語義網(wǎng)方法與技術(shù)的,也可以是基于自然語言處理技術(shù)的。目前,前者在語義檢索研究中相對更為普遍。事實上,正是由于語義網(wǎng)的出現(xiàn)與發(fā)展,才使語義檢索的研究更加得以明確并發(fā)展如此迅速。
2 基于本體的信息資源檢索
本體是語義網(wǎng)技術(shù)的核心部分,承擔(dān)著語義表達的關(guān)鍵任務(wù)。本體在傳統(tǒng)信息檢索中的應(yīng)用可促進從詞型匹配到概念匹配的轉(zhuǎn)變。從處理環(huán)節(jié)來看,它體現(xiàn)在兩個方面:查詢處理與文檔標(biāo)注及索引。
2.1 基于本體的查詢處理
基于本體的查詢處理包括查詢消歧與查詢擴展。通過消歧,明確查詢的確切所指,準(zhǔn)確反映用戶的信息意圖,繼而通過加入與其語義相關(guān)的其他概念來實施擴展。許多研究中利用了語言本體(如WordNet),通過其所提供的詞的不同義項來實現(xiàn)查詢消歧,通過其所蘊含的同義、整分、上下位等詞匯關(guān)系來實現(xiàn)查詢擴展。支持兩種處理模式:查詢消歧和擴展、檢索結(jié)果后分類控制。前者是系統(tǒng)在查詢消歧的基礎(chǔ)上將某義項的上位詞或下位詞加入以擴展查詢;后者則是系統(tǒng)先以常規(guī)方式處理用戶查詢,再對檢索結(jié)果基于用戶指定的查詢義項進行分析和加權(quán)。則在詞義消歧的基礎(chǔ)上,利用WordNet根據(jù)查詢詞義抽取子概念圖來實現(xiàn)查詢擴展。子概念圖作為查詢的上下文信息用于支持對由普通搜索引擎返回的初次結(jié)果的過濾,以選出相關(guān)文檔。提出的查詢消歧方法包括三步:首先用WordNet中的義項及同義詞簇,對查詢用詞進行兩兩配對,即在固定其中一詞的情況下,與另一詞的所有義項進行組合,得到若干種不同的組合情況,反之亦然其次將這些組合作為提問通過AltaVista進行搜索,并根據(jù)命中數(shù)對它們進行排序;最后,以WordNet中對相關(guān)義項的注釋為上下文,計算排序在前的配對詞間不同義項組合的語義密度,從而決定查詢用詞所指的確切概念。國內(nèi)基于WordNet漢化而建設(shè)的中文概念詞典(CCD)也在信息檢索研究中得到了應(yīng)用。
此外,各種自建的領(lǐng)域本體也被應(yīng)用于查詢處理。以一個有關(guān)人、地、事件、組織等的本體為基礎(chǔ)來實現(xiàn)查詢消歧,為每一個初始查詢結(jié)果提供一個特別鏈接,用戶通過點擊這些鏈接來向系統(tǒng)確認(rèn)該結(jié)果代表的概念符合其查詢意圖。構(gòu)建了一個三層本體模型,分別為概念層(即按等級層次組織起來的概念)、語言層(即與概念對應(yīng)的表達形式)、出現(xiàn)層(即對應(yīng)于表達形式的具體字串)。在其可視化本體瀏覽提問接口中,用戶可在本體層級體系中點擊選擇合適的概念。系統(tǒng)會自動執(zhí)行查詢擴展,將用戶指定層級范圍內(nèi)的下位概念以及相關(guān)關(guān)聯(lián)概念增加進來。擴展后的查詢通過上述三層本體模型從抽象到具體被依次轉(zhuǎn)換,最終變?yōu)橛晌臋n中實際出現(xiàn)的具體詞匯構(gòu)成的查詢式。
2.2 語義標(biāo)注文檔的檢索
語義標(biāo)注文檔檢索的一種普遍思路是在對文檔進行語義標(biāo)注與索引的基礎(chǔ)上,先進行實例檢索,再據(jù)此返回所有以檢出實例標(biāo)注的文檔信息。此外,也有其他不同方案。引入了向量空間模型,采用了基于概念級的向量空間文檔表達,還設(shè)計了文檔排序算法。在進行標(biāo)注時以文檔為單位,將其作為一個概念類的實例來進行處理。它設(shè)計了一種獨特的索引和檢索方法,以從文檔全文和其語義標(biāo)注數(shù)據(jù)中抽出的內(nèi)容描述符(詞)來代表文檔,并建立索引記錄。這樣的索引可支持基于關(guān)鍵詞或語義標(biāo)注信息的檢索。根據(jù)自建的歷史領(lǐng)域本體對文檔進行實例標(biāo)注以構(gòu)成其語義上下文信息(含概念與時間信息),并認(rèn)為用戶瀏覽的當(dāng)前資源的上下文信息可代表其真實查詢意圖。檢索時,用戶首先通過傳統(tǒng)的全文檢索獲得一個初始資源或自行提供一個初始資源。然后系統(tǒng)據(jù)此反饋該資源的上下文信息,并以嵌入文檔中的鏈接供用戶選擇。當(dāng)用戶點擊鏈接時,系統(tǒng)即將當(dāng)前上下文信息作為新的查詢,對其進行基于本體和規(guī)則的查詢擴展,在對系統(tǒng)全部文檔先進行過濾之后,再進行最終的檢索匹配。
3 語義網(wǎng)資源檢索
語義網(wǎng)是一個基于某種知識表達語言(如RFD(S)、OWL等)的、機器可處理的語義網(wǎng)文檔集合。從邏輯上看,它不再僅是一個普通文檔的網(wǎng)絡(luò),而是一個資源(可以是各種媒介資源和現(xiàn)實世界中的其實對象,如人、地方、組織、事件等)及其語義關(guān)系的網(wǎng)絡(luò),表現(xiàn)為本體文檔,實例數(shù)據(jù)和各種語義關(guān)系。
3.1 本體文檔檢索
本體文檔檢索旨在找到含有特定類或?qū)傩缘谋倔w文檔。普通搜索引擎,如Google,可以通過指定文檔類型為RDF等方法來搜索本體文檔,但其根本問題是不能識別本體文檔中的結(jié)構(gòu)化語義標(biāo)注信息,因而也無法將它們與普通文本信息區(qū)別對待。所以在檢索的過程中無法將真正符合需要的本體文檔與那些只是含有檢索詞的本體文檔區(qū)分開來。這正是對本體文檔進行檢索需要解決的問題。
解決問題的一種思路就是對本體文檔進行適用于普通搜索引擎的改造處理。就是基于這種思路,通過對RDF文檔進行一定處理使其可被普通搜索引擎索引和檢索,而同時又能在某種意義上發(fā)揮其語義信息的作用。它的關(guān)鍵技術(shù)Swangling能將語義信息編碼成普通文本,并將其作為新的陳 述加入到原RDF文檔中(對于以三元組表示的查詢,也以相同編碼方法處理,將其變?yōu)槠胀ㄎ谋?。這樣提問與文檔的匹配就可以按傳統(tǒng)的方式進行。
另一種思路則是探索新的本體搜索方法和技術(shù)。使用了本體注冊的方法。注冊服務(wù)器并不實際存儲任何本體文檔,只保存由本體服務(wù)器提供的元數(shù)據(jù)信息。同時,系統(tǒng)通過將本體中的元素與WordNet中的詞進行匹配來構(gòu)建本體摘要,并將其也放入元數(shù)據(jù)信息。這樣,用戶就可以從WordNet中選詞來對注冊服務(wù)器進行檢索。采用基于Google Web Service構(gòu)建的Google crawler來進行本體搜索。在此基礎(chǔ)上,基于向量空間模型,采用一種概念一權(quán)重向量匹配方法來進行本體索引與匹配。也進行基于Googlecrawler的本體搜索,不同的是,系統(tǒng)沒有獨立的索引和匹配過程,而是將Google搜索與本地倉庫結(jié)合起來,后者專門用于存儲已搜索到的本體文檔,并保存檢索歷史。對于已經(jīng)執(zhí)行過的同類查詢,系統(tǒng)直接從本地倉庫中提供查詢結(jié)果,只有當(dāng)一定時間內(nèi)無相同查詢被執(zhí)行過時,才啟動新的一次Google搜索。還另開發(fā)了針對某個特定網(wǎng)站的搜索器以及基于JENA2的搜索器。系統(tǒng)將從搜集到的語義網(wǎng)文檔中抽取的元數(shù)據(jù)與原結(jié)構(gòu)信息一起存入數(shù)據(jù)庫。它們支持對含有某一特定類或?qū)傩缘谋倔w的查詢。同時還通過定制的索引與檢索引擎Sire對語義文檔進行基于傳統(tǒng)檢索技術(shù)的處理。提出了另一種匹配方法,它通過Google搜索獲取一批與用戶查詢域相關(guān)的文檔,然后從這些文檔中抽取一批詞,并用這個詞集合取代原始查詢與本體文檔進行檢索匹配。在結(jié)果排序方面,主要有兩種方法:一種是跨本體鏈接分析方法(cross-ontology link-analysis);另一種則是圖分析方法(graph-analysis method)。從效果上看,前者是讓更流行的本體文檔排序在前,而后者則是讓更相關(guān)的本體文檔排序在前。
3.2 實例檢索
除了本體文檔外,語義網(wǎng)資源還有表征各類對象的實例數(shù)據(jù)。對于大多數(shù)一般用戶來說,對實例數(shù)據(jù)檢索的需求更為普遍。實例檢索的目的是在基于本體的知識庫中發(fā)現(xiàn)和搜集關(guān)于某一指定類的所有實例信息。盡管傳統(tǒng)檢索技術(shù)在其中也有不同應(yīng)用,但實例檢索主要是基于結(jié)構(gòu)化查詢與推理的;赗DF(S)、OWL等底層知識模型的圖遍歷(graph-traversal)與圖模式(graph patterns)得到了廣泛的應(yīng)用。用語義網(wǎng)數(shù)據(jù)來補充傳統(tǒng)檢索結(jié)果的這一部分就屬于實例檢索。其“語義網(wǎng)”資源包括正式的語義網(wǎng)文檔和語義標(biāo)注信息。在執(zhí)行傳統(tǒng)檢索的同時,系統(tǒng)會針對查詢概念在RDF知識庫中通過圖遍歷搜索所有相關(guān)的數(shù)據(jù)信息。相對復(fù)雜的是將一種認(rèn)知模型加入到搜索過程中,它支持用戶用自然語言輸入一段文字,從中抽出概念并將其作為關(guān)鍵詞概念的上下文信息以用于檢索過程。在傳統(tǒng)關(guān)鍵詞檢索的基礎(chǔ)上,結(jié)合了擴展激活算法,通過圖遍歷進一步擴展搜索與初始結(jié)果相關(guān)的更多實例信息(即使其不含查詢中的關(guān)鍵詞甚至與初始結(jié)果不是直接相關(guān)聯(lián))。在此基礎(chǔ)上還提出了一個特別的實例相似性計算方法,并將其用于擴展激活過程中。提出了一種面向RDF(S)倉庫的可視的語義檢索途徑。系統(tǒng)為用戶提供可視的語義檢索與語義瀏覽服務(wù),其基礎(chǔ)是底層的本體及基于本體映射得到的概念分面。在多分面視圖中,用戶可對系統(tǒng)資源有一個概括的了解,并通過點擊各分面中的不同范疇概念來提交查詢。語義搜索引擎通過圖遍歷等方法來進行查詢構(gòu)建與查詢擴展。系統(tǒng)接受用戶的自然語言提問,并將其解析為一組元素(包括類、屬性、實例等),構(gòu)建基于這些元素的圖模式以作為復(fù)雜提問。隱式查詢擴展也是基于類層次關(guān)系與規(guī)則而實現(xiàn)的。為了更好地結(jié)合傳統(tǒng)信息檢索技術(shù)與結(jié)構(gòu)化查詢及推理,充分利用普通文本信息與語義標(biāo)注信息,一種增強的語義檢索模型,基于自由文本的關(guān)鍵詞搜索與基于語義信息的結(jié)構(gòu)化查詢與推理被緊密地融合在一起來實現(xiàn)檢索目標(biāo),這種檢索有利于解決集中了模糊關(guān)鍵詞概念與結(jié)構(gòu)化查詢要素的混合查詢問題,如“請查找由研究語義網(wǎng)檢索的教授撰寫的論文”。
3.3 語義關(guān)系檢索
盡管在上述本體文檔檢索與實例檢索中運用了各種語義關(guān)系,但畢竟沒有直接以這些語義關(guān)系為檢索處理對象。而概念、文檔等之間的語義關(guān)系也應(yīng)是語義網(wǎng)資源檢索的重要內(nèi)容之一。目前,一些研究已開始關(guān)注針對語義關(guān)系的檢索問題,進行的有關(guān)語義關(guān)聯(lián)檢索(Semanticassociation search)的研究。它所關(guān)注的不僅是簡單的屬性鏈關(guān)系,更是概念間的各種復(fù)雜關(guān)聯(lián)關(guān)系。研究的主要貢獻是分析了語義關(guān)系檢索所面臨的三大主要挑戰(zhàn)(即對關(guān)系的理解不夠通用和全面、缺少以關(guān)系而非概念為對象的查詢語言和系統(tǒng)、檢索結(jié)果排序問題),并提出了相應(yīng)的解決方法(將關(guān)系分為語義關(guān)聯(lián)和語義相似性兩類并形式化、設(shè)計了p-query以支持關(guān)系查詢、基于用戶指定的上下文來進行結(jié)果排序)。為檢驗這些解決思路,在相關(guān)研究的基礎(chǔ)上,還在國家安全領(lǐng)域?qū)崿F(xiàn)了一個名為SemDIS的檢索系統(tǒng)。
4 結(jié)語
語義檢索較之于傳統(tǒng)網(wǎng)絡(luò)檢索的進步主要在于能表達和處理信息的語義內(nèi)容以實現(xiàn)基于語義的匹配和推理。此外,傳統(tǒng)網(wǎng)絡(luò)檢索仍屬文獻檢索而非信息檢索、知識檢索,其結(jié)果僅提供相關(guān)文檔的鏈接。但通常用戶所需的信息是分散在多個文檔中的,需要對多次查詢所得的相關(guān)文檔進行遍歷、信息抽取與組合以滿足需要。而語義檢索則能為實現(xiàn)從文獻檢索到信息與知識檢索的轉(zhuǎn)變提供支持。
在語義檢索的發(fā)展中本體處于非常重要的位置,它承擔(dān)著知識表達的核心任務(wù),對檢索中基于語義的文檔與提問處理以及實現(xiàn)智能推理都起著支撐作用。因而在自然語言處理、人工智能還不能支持完全自動化處理的情況下,本體構(gòu)建始終是語義檢索的主要問題之一。在這方面,經(jīng)過長期發(fā)展積累的受控語言因其包含著豐富的語義資源,有待在語義檢索中被挖掘利用。此外,語義檢索中面臨的問題還有如語義標(biāo)注、充分利用語義標(biāo)注信息與全文信息、檢索結(jié)果排序以及提供友好用戶接口等方面。
相關(guān)熱詞搜索:語義 綜述 檢索 語義檢索研究綜述 語義檢索 谷歌語義檢索
熱點文章閱讀