語義Web環(huán)境下的搜索引擎功能分析|語義搜索引擎研究
發(fā)布時(shí)間:2020-03-10 來源: 感恩親情 點(diǎn)擊:
[摘要]探討當(dāng)前搜索引擎存在的問題以及搜索引擎的語義功能需求,然后基于Web搜索引擎和語義Web,提出語義Web環(huán)境下的搜索引擎功能流圖,并針對(duì)crawler、本體與知識(shí)庫、語義注釋、篩選與推理、語義索引、語義檢索等對(duì)搜索引擎的功能進(jìn)行分析。語義Web環(huán)境下的搜索引擎將促進(jìn)信息、知識(shí)需求得到更好、更精確的語義表述和滿足,推動(dòng)高效的信息和知識(shí)管理。
[關(guān)鍵詞]語義Web 搜索引擎 功能 語義檢索
[分類號(hào)]G203
1 引言
搜索引擎如Google和百度極大地改變了人們存取信息的方式。在用戶眼里,搜索引擎為他們提供了一個(gè)友好的檢索入口,用戶只需提供檢索式(關(guān)鍵詞列表)便能搜尋到包含或者不包含這些關(guān)鍵詞的相關(guān)網(wǎng)頁。但是,當(dāng)前Web內(nèi)容的含義不是機(jī)器可處理的,雖然一些工具可以檢索文本、分割文本、檢查拼寫、計(jì)算詞頻,但在解釋句子和抽取有用的信息方面,當(dāng)前的軟件能力還是非常有限的,如搜索引擎只返回排序的檢索結(jié)果列表,提供極少甚至不提供文檔間的語義關(guān)系,檢索結(jié)果在語義上難以滿足用戶的需求。
Web上分布著大量重要而有價(jià)值的信息和知識(shí)。但是,Web內(nèi)容是按照供人類理解的形式設(shè)計(jì)的。面對(duì)Web上的信息,知識(shí)工作者不得不花費(fèi)大量的時(shí)間進(jìn)行瀏覽、檢索、比較和分析,以便找出文檔間是如何相互關(guān)聯(lián)。只有當(dāng)知識(shí)工作者開始在不同的信息間找出相似與不同時(shí),他們才有可能構(gòu)建關(guān)系以創(chuàng)造新的知識(shí)。隨著Web上信息內(nèi)容的劇增,這種基于人力理解的Web信息處理和開發(fā)利用已難以適應(yīng)高效率的網(wǎng)絡(luò)信息和知識(shí)管理的需要,人們對(duì)Web信息索引、檢索、知識(shí)共享和處理等提出了更多更高的功能需求。
在技術(shù)上如何提高Web信息和知識(shí)管理效率方面,目前存在兩種方案:一種方案是繼續(xù)基于目前Web內(nèi)容的表示形式,不斷地開發(fā)出基于人工智能和計(jì)算語言的處理這種表示形式的更加復(fù)雜的技術(shù);另一種方案是增加一種更容易讓機(jī)器處理的Web內(nèi)容的形式化表示,并讓智能技術(shù)充分利用這種形式化表示。后一種方案已具體體現(xiàn)在語義Web的產(chǎn)生和發(fā)展之中。語義Web是當(dāng)前Web的擴(kuò)展,它按照某種語義方式進(jìn)行結(jié)構(gòu)化設(shè)計(jì),以便Web內(nèi)容不僅被人類所理解,同時(shí)也為計(jì)算機(jī)所理解。語義Web將促使機(jī)器能夠像人一樣具有智能,能夠從信息間找出相似與不同,并且構(gòu)建關(guān)系以創(chuàng)造新的知識(shí)。語義Web為搜索引擎的語義功能實(shí)現(xiàn)提供了一個(gè)全新的渠道和嶄新的平臺(tái)。
2 語義Web及相關(guān)標(biāo)準(zhǔn)
語義Web的內(nèi)容是按照某種語義方式進(jìn)行結(jié)構(gòu)化設(shè)計(jì),以便該內(nèi)容不僅被人類所理解,同時(shí)也為計(jì)算機(jī)所理解。語義Web不是一個(gè)獨(dú)立的Web,而是當(dāng)前Web的擴(kuò)展。在當(dāng)前Web基礎(chǔ)上增加一個(gè)語義(知識(shí))層,便形成語義Web。語義Web方法應(yīng)當(dāng)開發(fā)出以機(jī)器可處理(machine processable)的形式表示信息的語言。在語義Web中,信息被賦予描述良好的含義,這有利于促進(jìn)計(jì)算機(jī)和人類的相互合作。
從某種意義上說,將本體(Ontology)應(yīng)用到Web促進(jìn)了語義Web的發(fā)展。領(lǐng)域本體對(duì)本領(lǐng)域描述和表達(dá)的對(duì)象、對(duì)象間關(guān)系及對(duì)象屬性進(jìn)行了規(guī)定,具體的描述和表達(dá)構(gòu)成了知識(shí)庫。本體和知識(shí)庫能夠促進(jìn)信息間相互關(guān)系的更有效發(fā)現(xiàn)。所選信息間相互關(guān)系的發(fā)現(xiàn)能夠?qū)⒎指舳铝⒌男畔⒆兂捎幸饬x的上下文,所揭示出的隱含結(jié)構(gòu)將幫助用戶更有效地利用和管理信息。這種從語義上鏈接不同數(shù)據(jù)源(文本、圖像、人、概念等)的思想非常重要。有了這個(gè),人們能夠從當(dāng)前具有簡(jiǎn)單鏈接的Web轉(zhuǎn)向更具語義表示的豐富的Web,在這個(gè)Web中,人們能夠逐漸增加含義,并在資源間表達(dá)一個(gè)全新的關(guān)系集,使得當(dāng)前Web中隱含的特殊上下文關(guān)系變得更加清晰。
將語義Web融入當(dāng)前Web結(jié)構(gòu)之中的步伐已經(jīng)邁出,語義Web構(gòu)件的相應(yīng)標(biāo)準(zhǔn)在W3C(World WideWeb)、學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力下已在全世界范圍內(nèi)得到認(rèn)可和一定范圍的應(yīng)用。XML為語義Web的發(fā)展帶來了希望。在語義Web中,XML Schema作為基礎(chǔ)構(gòu)件,與XML一起,盡管缺少語義約束,但對(duì)具有語義約束力的RDF(Resouree Description Framework)、RDF Schema和OWL(Ontology Web Language)起到很好的語法、結(jié)構(gòu)與數(shù)據(jù)類型上的支撐作用。RDF是一種對(duì)Web資源進(jìn)行信息表達(dá)的語言,其目的在于表達(dá)Web資源的元數(shù)據(jù),如標(biāo)題、作者、Web頁面更改日期、Web文檔的版權(quán)和注冊(cè)信息、語言、格式、內(nèi)容條目等。RDF Schema并不直接提供特定應(yīng)用類以及屬性的詞匯,而是提供描述這些類和屬性的工具,并顯示哪些類和屬性在一起使用。OWL被設(shè)計(jì)成用于那些處理信息的內(nèi)容而不是僅向人類呈現(xiàn)信息的應(yīng)用,OWL通過提供更多具有形式化語義的詞匯,以便在Web內(nèi)容的機(jī)器可理解性方面強(qiáng)于XML Schema、RDF Schema等所能達(dá)到的程度。XML Schema、RDF Schema和OWL可看成是表示功能遞增的本體語言,它們逐漸具有更多的語義表示能力,并分別和不斷滿足了不同層次和不同時(shí)期信息和知識(shí)處理的需求。
3 搜索引擎的語義功能需求
3.1 當(dāng)前搜索引擎存在的問題
Web上當(dāng)前的信息檢索關(guān)注的是用戶需求和信息庫,而極少關(guān)注信息間的語義關(guān)系。Web上的信息不是機(jī)器可利用的形式,仍然需要人來區(qū)分信息的含義及其與需求間的關(guān)系。下面對(duì)當(dāng)前Web環(huán)境下的推理和檢索中存在的問題進(jìn)行分析:①當(dāng)前的Web搜索引擎不直接適合于語義標(biāo)記的索引和檢索。大多數(shù)的搜索引擎利用關(guān)鍵詞作為索引詞語。當(dāng)一個(gè)利用RDF書寫的文檔被索引時(shí),標(biāo)記會(huì)被許多搜索引擎簡(jiǎn)單地忽略;而語義Web的基礎(chǔ)是標(biāo)記語言且完全表達(dá)成標(biāo)記,因而對(duì)搜索引擎來說是不可見的,即使搜索引擎能夠探測(cè)和索引文檔內(nèi)含的標(biāo)記,但也并不以某種方式來處理這些標(biāo)記,而只是或者允許在檢索中使用標(biāo)記,或者能夠區(qū)分標(biāo)記和其他文本。②當(dāng)前的Web搜索技術(shù)不能利用語義標(biāo)記來改善文本檢索。Web搜索引擎基本依賴于簡(jiǎn)單的詞語統(tǒng)計(jì)來識(shí)別與檢索最相關(guān)的文檔。利用相關(guān)技術(shù)如辭典擴(kuò)展可以在檢索中集成一定的推理,但與利用語義標(biāo)記的情形相比,這樣的推理是簡(jiǎn)單的。在語義環(huán)境下,語義標(biāo)記可能出現(xiàn)在檢索式或索引文檔中。③文本在推理中沒有得到利用。如果有可能自動(dòng)地將文本轉(zhuǎn)換為語義表示,則所形成的語義表示可在推理中加以利用。
3.2語義功能需求
語義Web的目標(biāo)之一是提升人和軟件代理在Web上發(fā)現(xiàn)和處理文檔、信息和知識(shí)的能力。語義Web環(huán)境下的搜索引擎建立在Web搜索引擎、信息檢索技術(shù)和語義Web基礎(chǔ)之上。在本體和知識(shí)庫的基礎(chǔ)上,應(yīng)當(dāng)研究語義標(biāo)記的產(chǎn)生與處理問題。語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)將標(biāo)記看成是結(jié)構(gòu)化信 息,并能在RDF和OWL語義之后執(zhí)行推理。搜索引擎的語義功能需求具體表現(xiàn)如下:①本體與知識(shí)庫的支持。通過本體和知識(shí)庫,改善Web搜索的精確度,對(duì)網(wǎng)頁上的信息與相關(guān)知識(shí)結(jié)構(gòu)和推理規(guī)則進(jìn)行關(guān)聯(lián);②同時(shí)支持檢索驅(qū)動(dòng)和推理驅(qū)動(dòng)過程;③能夠利用單詞或語義標(biāo)記或同時(shí)利用單詞和語義標(biāo)記作為索引詞語;④索引和檢索應(yīng)當(dāng)與推理緊密關(guān)聯(lián),推理的改善應(yīng)當(dāng)導(dǎo)致索引和檢索的改善。
4 語義Web環(huán)境下搜索引擎的功能
基于當(dāng)前的Web搜索引擎和語義Web,本文提出語義Web環(huán)境下的搜索引擎功能流圖,如圖1所示:
語義Web包含兩種類型文檔,一類是通常的Web文本文檔(text documents)(暫不考慮多媒體資源和Web服務(wù)資源);另一類是與這些Web文本文檔平行的語義Web文檔。一方面,Web文本文檔通過語義Web文檔的注釋得到豐富,這些注釋提供元數(shù)據(jù)和機(jī)器解釋的捕獲Web文本文檔內(nèi)容含義的陳述;另一方面,語義Web文檔用來對(duì)Web文本文檔進(jìn)行語義描述,以便機(jī)器能夠理解與處理Web文本文檔中的知識(shí)。
語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)能夠運(yùn)行一些推理引擎以識(shí)別所需要的事實(shí)和規(guī)則,從而達(dá)到所期望的結(jié)論,如能夠在語義Web上篩選所需的事實(shí)和規(guī)則,并將篩選結(jié)果合并到推理過程之中。圖1中的功能針對(duì)語義Web環(huán)境,顯示了搜索引擎的語義推理、語義索引和語義檢索等功能。另外,語義Web環(huán)境下的搜索引擎還具有傳統(tǒng)搜索引擎功能,即基于關(guān)鍵詞的索引與檢索,這已具備了成熟的理論與實(shí)踐。下面結(jié)合圖1,對(duì)語義Web環(huán)境下的搜索引擎功能展開分析。
4.1 Crawler
URLs集和crawl模塊一起組成為基本crawler,控制并執(zhí)行所有的爬行過程。crawl模塊先從一個(gè)種子URLs集出發(fā)開始爬行,對(duì)爬回的靜態(tài)網(wǎng)頁,crawl模塊進(jìn)行以下兩個(gè)方面的處理:從網(wǎng)頁中抽取所有的由鏈接指向的URLs,并將這些URLs存入到URLs集中;將爬回的網(wǎng)頁保存在文本文檔數(shù)據(jù)集中(如果存在),或者保存在緩存中足夠長(zhǎng)的時(shí)間,旨在完成索引。URLs集為crawl提供將要爬行的靜態(tài)網(wǎng)頁地址,crawl從URLs集中選擇下一個(gè)將要爬行的URL地址重復(fù)前面的過程。crawl模塊爬行的網(wǎng)頁總數(shù)由存儲(chǔ)資源決定或事先由人為決定。
語義Web環(huán)境下的搜索引擎與傳統(tǒng)搜索引擎一樣,也是基于crawler。因此,當(dāng)前搜索引擎所面臨的爬行問題也同樣是語義Web環(huán)境下的搜索引擎必須面對(duì)與研究的,如動(dòng)態(tài)網(wǎng)頁爬行與并行爬行。
4.2本體與知識(shí)庫
語義Web包含Web文檔和與這些Web文檔平行并對(duì)它們進(jìn)行描述的語義Web文檔(Semantic Web Documents,SWDs)。語義Web文檔中擁有大量的本體與知識(shí)庫。本體與知識(shí)庫以及下面的語義注釋,構(gòu)成了語義Web的核心,為搜索引擎的語義功能實(shí)現(xiàn)提供了基礎(chǔ)。
本體構(gòu)建語言在W3C的努力下已得到標(biāo)準(zhǔn)化,相應(yīng)的工具也得到很好的開發(fā)和應(yīng)用,如Prot6g6平臺(tái)是一個(gè)集成的軟件工具,其最新版本是2010年3月8日發(fā)布的Prot6ge 3.4.4。Prot6g6平臺(tái)為越來越多的用戶提供一套利用本體構(gòu)建領(lǐng)域模型和基于知識(shí)庫應(yīng)用的工具,可供系統(tǒng)開發(fā)者和領(lǐng)域?qū)<议_發(fā)基于知識(shí)的系統(tǒng),以便構(gòu)建基于知識(shí)的工具和應(yīng)用,從而解決特定領(lǐng)域中的問題。但是,本體的構(gòu)建和標(biāo)準(zhǔn)化以及知識(shí)庫的構(gòu)建還有一個(gè)漫長(zhǎng)的路要走,它依賴于許多組織的關(guān)注和努力。與多媒體資源和Web服務(wù)資源相比,文本資源本體涉及人類知識(shí)體系的各個(gè)學(xué)科和領(lǐng)域。在語義Web文本本體構(gòu)建中,一方面,不論在哪個(gè)領(lǐng)域,本體構(gòu)建都需要可以使用的概念以及概念之間的關(guān)系表達(dá),強(qiáng)烈地依賴于特定領(lǐng)域的知識(shí)體系結(jié)構(gòu),因此,需要領(lǐng)域?qū)<业膮⒓雍徒槿;另一方面,本體構(gòu)建需要充分考慮標(biāo)準(zhǔn)本體語言如OWL的知識(shí)表示能力,以便利用標(biāo)準(zhǔn)本體語言來恰當(dāng)而合理地表示特定領(lǐng)域的知識(shí)體系。本體的構(gòu)建是其標(biāo)準(zhǔn)化的前提,圍繞特定領(lǐng)域本體的構(gòu)建已有一些研究,如客戶抱怨本體的構(gòu)建,合同本體的構(gòu)建,等等。
4.3語義注釋
語義注釋能夠在文本文檔中注釋和鏈接命名實(shí)體,將到語義描述的鏈接分配給文本中的實(shí)體,產(chǎn)生有關(guān)文本中實(shí)體、實(shí)體屬性和實(shí)體間關(guān)系的語義元數(shù)據(jù)標(biāo)記。應(yīng)當(dāng)說,手工獲得清晰的語義并不是一個(gè)可行的方法,從手工到自動(dòng)的轉(zhuǎn)變應(yīng)當(dāng)首先研究和開發(fā)完全自動(dòng)的語義注釋方法。因此,應(yīng)當(dāng)面對(duì)和解決必要的設(shè)計(jì)和建模問題,提供必需的資源和基礎(chǔ)設(shè)施。
語義元數(shù)據(jù)必須以一種允許進(jìn)行有效管理的格式加以存儲(chǔ),相關(guān)研究認(rèn)為,最有效的方法是對(duì)文本文檔、元數(shù)據(jù)(注釋)和形式化知識(shí)(本體和知識(shí)庫)進(jìn)行分開的表示和管理。
4.4篩選與推理
并非所有的語義標(biāo)記都是有價(jià)值的,因?yàn)橐恍?biāo)記可能來自于不適當(dāng)?shù)幕虿豢尚诺臋C(jī)構(gòu),一些標(biāo)記是多余的,一些標(biāo)記是不相關(guān)的。因此,抽取的語義標(biāo)記必須按照一定的規(guī)則進(jìn)行篩選和推理,所得的結(jié)果將是可信任的事實(shí)和規(guī)則集,新增加的事實(shí)和規(guī)則集添加到本體與知識(shí)庫中。不斷擴(kuò)展的本體與知識(shí)庫將進(jìn)一步促進(jìn)推理運(yùn)行。推理引擎利用在文本抽取中獲得的元數(shù)據(jù)信息可推理更多的語義關(guān)系,為搜索引擎系統(tǒng)的索引做好準(zhǔn)備,這些語義關(guān)系將直接決定檢索的范圍并提供更相關(guān)的響應(yīng)。
對(duì)于何時(shí)對(duì)語義Web標(biāo)記進(jìn)行推理可以進(jìn)行選擇,如在對(duì)文檔即將索引之前對(duì)標(biāo)記進(jìn)行推理,這將導(dǎo)致產(chǎn)生更多的三元組語義標(biāo)記,擴(kuò)大該文檔的語義檢索點(diǎn);對(duì)包含RDF三元組的檢索在處理和提交到檢索系統(tǒng)之前進(jìn)行推理,以提高檢索效率;為了完成檢驗(yàn)任務(wù)進(jìn)行推理。另外,在語義Web上發(fā)現(xiàn)的知識(shí)在信任度上將存在很大變化,正如當(dāng)前Web上發(fā)現(xiàn)的信息一樣。為了產(chǎn)生一致的知識(shí)庫,需要對(duì)語義Web上的信任模型環(huán)境進(jìn)行研究。在對(duì)語義Web上發(fā)現(xiàn)的事實(shí)和知識(shí)進(jìn)行抽取和推理時(shí),應(yīng)當(dāng)能夠從語義模型中去掉重復(fù)的事實(shí),能夠掌握信任模型并對(duì)每個(gè)事實(shí)的信任度做出更好的決策。
4.5語義索引
索引文檔包含RDF三元組和RDF三元組通配符,這為用戶提供了表達(dá)具有RDF三元組通配符檢索式的靈活性。語義標(biāo)記能夠捕獲詞語之間的語義關(guān)系,因而提供檢索式與相關(guān)詞語間更好的匹配。在一個(gè)索引文檔的表示中包含語義標(biāo)記能夠提高信息檢索效率,如果在索引前對(duì)文檔語義標(biāo)記運(yùn)行推理,將會(huì)獲得更好的效果。
4.6語義檢索
當(dāng)前的檢索技術(shù)是基于關(guān)鍵詞的,而許多用戶可能傾向于根據(jù)高層語義概念構(gòu)建檢索,這些概念是更標(biāo)準(zhǔn)的術(shù)語和隱含知識(shí)。開發(fā)在詞語之間抽出語義關(guān)系的檢索技術(shù)將促進(jìn)智能信息服務(wù)、個(gè)性化Web站點(diǎn)和語義強(qiáng)大的搜索引擎。
圖1中,語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)能夠通過定制的檢索界面進(jìn)行檢索,并接受自由文本以及結(jié)構(gòu)化的檢索。假設(shè)系統(tǒng)的輸入是某些類型的語義Web檢索式,如果用戶的目標(biāo)是檢索,則該檢索式可能是對(duì)正在檢索的概念進(jìn)行編碼的語義標(biāo)記;如果用戶的目標(biāo)是推理,則該檢索式可能是一個(gè)系統(tǒng)將要證實(shí)的陳述。在任何一種情況下,檢索式被提交給推理引擎。對(duì)于檢索,推理引擎可以利用用戶模塊、本體與知識(shí)庫產(chǎn)生新的語義標(biāo)記;對(duì)于檢驗(yàn),推理引擎將盡可能地利用本體與知識(shí)庫,產(chǎn)生部分檢驗(yàn)樹。
基于圖1功能流圖的語義Web環(huán)境下的搜索引擎應(yīng)具有更好的檢索效果:首先,Web搜索引擎應(yīng)很好地處理同義詞問題,如可以將“HK”和“H.K.”索引為特定的實(shí)體“Hong Kong”,就好像存在一個(gè)惟一的ID標(biāo)識(shí)符一樣,體現(xiàn)了對(duì)命名實(shí)體引用的清晰處理。相反,當(dāng)前的索引系統(tǒng)因?yàn)椴话瑢?shí)體識(shí)別,所以只能對(duì)“HK”、“H”和“K”分別進(jìn)行索引,這正是基于關(guān)鍵詞的搜索引擎存在的問題。其次,在對(duì)搜索引擎進(jìn)行檢索時(shí),可通過指定實(shí)體類型限制、名稱和其他屬性限制以及實(shí)體之間的關(guān)系限制檢索實(shí)體。例如,通過語義索引,能夠更有效地檢索到某個(gè)人,即使只知道該人在某機(jī)構(gòu)中擔(dān)任某職位、具有某些屬性如性別等。最后,搜索引擎能提供強(qiáng)大的推理功能。例如,“檢索包含在中國(guó)從事信息服務(wù)行業(yè)的企業(yè)的文檔”,則返回的文檔可能包含“清華同方股份有限公司”、“萬方數(shù)據(jù)股份有限公司”,或“維普資訊公司”,而不是簡(jiǎn)單地包含“中國(guó)”、“信息服務(wù)”或“企業(yè)”等文字。
5 結(jié)語
語義Web是一個(gè)全球分布的知識(shí)庫,這一點(diǎn)由Tim Bemers-Lee在Web開發(fā)中提出。Tim Bemers-Lee試圖最終創(chuàng)建出網(wǎng)絡(luò)化的知識(shí)庫,他將語義Web描述成:能夠從經(jīng)驗(yàn)中學(xué)習(xí),創(chuàng)建不同應(yīng)用環(huán)境下知識(shí)獲取、表示和利用的基礎(chǔ)設(shè)施;谡Z義Web的搜索引擎能夠?yàn)槊總(gè)文本中的實(shí)體引用同時(shí)提供到本體中特定類的鏈接和到知識(shí)庫中特定實(shí)例的鏈接;能夠基于實(shí)體對(duì)文本文檔進(jìn)行索引和檢索;允許用戶指定感興趣的命名實(shí)體,并通過命名實(shí)體的屬性和關(guān)系進(jìn)行限制。語義Web環(huán)境下的搜索引擎將促進(jìn)信息、知識(shí)需求得到更好、更精確的語義表述和滿足,推動(dòng)高效的信息資源開發(fā)利用以及高效的信息和知識(shí)管理。
相關(guān)熱詞搜索:語義 搜索引擎 功能 語義Web環(huán)境下的搜索引擎功能分析 語義分析的基本功能 簡(jiǎn)要說明語義分析的基本功能
熱點(diǎn)文章閱讀