語義Web環(huán)境下的搜索引擎功能分析|語義搜索引擎研究

發(fā)布時(shí)間:2020-03-10 來源: 感恩親情點(diǎn)擊：

　　[摘要]探討當(dāng)前搜索引擎存在的問題以及搜索引擎的語義功能需求，然后基于Web搜索引擎和語義Web，提出語義Web環(huán)境下的搜索引擎功能流圖，并針對(duì)crawler、本體與知識(shí)庫、語義注釋、篩選與推理、語義索引、語義檢索等對(duì)搜索引擎的功能進(jìn)行分析。語義Web環(huán)境下的搜索引擎將促進(jìn)信息、知識(shí)需求得到更好、更精確的語義表述和滿足，推動(dòng)高效的信息和知識(shí)管理。
　　[關(guān)鍵詞]語義Web　搜索引擎　功能　語義檢索
　　[分類號(hào)]G203
　　
　　1　引言
　　
　　搜索引擎如Google和百度極大地改變了人們存取信息的方式。在用戶眼里，搜索引擎為他們提供了一個(gè)友好的檢索入口，用戶只需提供檢索式(關(guān)鍵詞列表)便能搜尋到包含或者不包含這些關(guān)鍵詞的相關(guān)網(wǎng)頁。但是，當(dāng)前Web內(nèi)容的含義不是機(jī)器可處理的，雖然一些工具可以檢索文本、分割文本、檢查拼寫、計(jì)算詞頻，但在解釋句子和抽取有用的信息方面，當(dāng)前的軟件能力還是非常有限的，如搜索引擎只返回排序的檢索結(jié)果列表，提供極少甚至不提供文檔間的語義關(guān)系，檢索結(jié)果在語義上難以滿足用戶的需求。
　　Web上分布著大量重要而有價(jià)值的信息和知識(shí)。但是，Web內(nèi)容是按照供人類理解的形式設(shè)計(jì)的。面對(duì)Web上的信息，知識(shí)工作者不得不花費(fèi)大量的時(shí)間進(jìn)行瀏覽、檢索、比較和分析，以便找出文檔間是如何相互關(guān)聯(lián)。只有當(dāng)知識(shí)工作者開始在不同的信息間找出相似與不同時(shí)，他們才有可能構(gòu)建關(guān)系以創(chuàng)造新的知識(shí)。隨著Web上信息內(nèi)容的劇增，這種基于人力理解的Web信息處理和開發(fā)利用已難以適應(yīng)高效率的網(wǎng)絡(luò)信息和知識(shí)管理的需要，人們對(duì)Web信息索引、檢索、知識(shí)共享和處理等提出了更多更高的功能需求。
　　在技術(shù)上如何提高Web信息和知識(shí)管理效率方面，目前存在兩種方案：一種方案是繼續(xù)基于目前Web內(nèi)容的表示形式，不斷地開發(fā)出基于人工智能和計(jì)算語言的處理這種表示形式的更加復(fù)雜的技術(shù)；另一種方案是增加一種更容易讓機(jī)器處理的Web內(nèi)容的形式化表示，并讓智能技術(shù)充分利用這種形式化表示。后一種方案已具體體現(xiàn)在語義Web的產(chǎn)生和發(fā)展之中。語義Web是當(dāng)前Web的擴(kuò)展，它按照某種語義方式進(jìn)行結(jié)構(gòu)化設(shè)計(jì)，以便Web內(nèi)容不僅被人類所理解，同時(shí)也為計(jì)算機(jī)所理解。語義Web將促使機(jī)器能夠像人一樣具有智能，能夠從信息間找出相似與不同，并且構(gòu)建關(guān)系以創(chuàng)造新的知識(shí)。語義Web為搜索引擎的語義功能實(shí)現(xiàn)提供了一個(gè)全新的渠道和嶄新的平臺(tái)。
　　
　　2　語義Web及相關(guān)標(biāo)準(zhǔn)
　　
　　語義Web的內(nèi)容是按照某種語義方式進(jìn)行結(jié)構(gòu)化設(shè)計(jì)，以便該內(nèi)容不僅被人類所理解，同時(shí)也為計(jì)算機(jī)所理解。語義Web不是一個(gè)獨(dú)立的Web，而是當(dāng)前Web的擴(kuò)展。在當(dāng)前Web基礎(chǔ)上增加一個(gè)語義(知識(shí))層，便形成語義Web。語義Web方法應(yīng)當(dāng)開發(fā)出以機(jī)器可處理(machine processable)的形式表示信息的語言。在語義Web中，信息被賦予描述良好的含義，這有利于促進(jìn)計(jì)算機(jī)和人類的相互合作。
　　從某種意義上說，將本體(Ontology)應(yīng)用到Web促進(jìn)了語義Web的發(fā)展。領(lǐng)域本體對(duì)本領(lǐng)域描述和表達(dá)的對(duì)象、對(duì)象間關(guān)系及對(duì)象屬性進(jìn)行了規(guī)定，具體的描述和表達(dá)構(gòu)成了知識(shí)庫。本體和知識(shí)庫能夠促進(jìn)信息間相互關(guān)系的更有效發(fā)現(xiàn)。所選信息間相互關(guān)系的發(fā)現(xiàn)能夠?qū)⒎指舳铝⒌男畔⒆兂捎幸饬x的上下文，所揭示出的隱含結(jié)構(gòu)將幫助用戶更有效地利用和管理信息。這種從語義上鏈接不同數(shù)據(jù)源(文本、圖像、人、概念等)的思想非常重要。有了這個(gè)，人們能夠從當(dāng)前具有簡(jiǎn)單鏈接的Web轉(zhuǎn)向更具語義表示的豐富的Web，在這個(gè)Web中，人們能夠逐漸增加含義，并在資源間表達(dá)一個(gè)全新的關(guān)系集，使得當(dāng)前Web中隱含的特殊上下文關(guān)系變得更加清晰。
　　將語義Web融入當(dāng)前Web結(jié)構(gòu)之中的步伐已經(jīng)邁出，語義Web構(gòu)件的相應(yīng)標(biāo)準(zhǔn)在W3C(World WideWeb)、學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力下已在全世界范圍內(nèi)得到認(rèn)可和一定范圍的應(yīng)用。XML為語義Web的發(fā)展帶來了希望。在語義Web中，XML Schema作為基礎(chǔ)構(gòu)件，與XML一起，盡管缺少語義約束，但對(duì)具有語義約束力的RDF(Resouree Description Framework)、RDF Schema和OWL(Ontology Web Language)起到很好的語法、結(jié)構(gòu)與數(shù)據(jù)類型上的支撐作用。RDF是一種對(duì)Web資源進(jìn)行信息表達(dá)的語言，其目的在于表達(dá)Web資源的元數(shù)據(jù)，如標(biāo)題、作者、Web頁面更改日期、Web文檔的版權(quán)和注冊(cè)信息、語言、格式、內(nèi)容條目等。RDF Schema并不直接提供特定應(yīng)用類以及屬性的詞匯，而是提供描述這些類和屬性的工具，并顯示哪些類和屬性在一起使用。OWL被設(shè)計(jì)成用于那些處理信息的內(nèi)容而不是僅向人類呈現(xiàn)信息的應(yīng)用，OWL通過提供更多具有形式化語義的詞匯，以便在Web內(nèi)容的機(jī)器可理解性方面強(qiáng)于XML Schema、RDF Schema等所能達(dá)到的程度。XML Schema、RDF Schema和OWL可看成是表示功能遞增的本體語言，它們逐漸具有更多的語義表示能力，并分別和不斷滿足了不同層次和不同時(shí)期信息和知識(shí)處理的需求。
　　
　　3　搜索引擎的語義功能需求
　　
　　3.1　當(dāng)前搜索引擎存在的問題
　　Web上當(dāng)前的信息檢索關(guān)注的是用戶需求和信息庫，而極少關(guān)注信息間的語義關(guān)系。Web上的信息不是機(jī)器可利用的形式，仍然需要人來區(qū)分信息的含義及其與需求間的關(guān)系。下面對(duì)當(dāng)前Web環(huán)境下的推理和檢索中存在的問題進(jìn)行分析：①當(dāng)前的Web搜索引擎不直接適合于語義標(biāo)記的索引和檢索。大多數(shù)的搜索引擎利用關(guān)鍵詞作為索引詞語。當(dāng)一個(gè)利用RDF書寫的文檔被索引時(shí)，標(biāo)記會(huì)被許多搜索引擎簡(jiǎn)單地忽略；而語義Web的基礎(chǔ)是標(biāo)記語言且完全表達(dá)成標(biāo)記，因而對(duì)搜索引擎來說是不可見的，即使搜索引擎能夠探測(cè)和索引文檔內(nèi)含的標(biāo)記，但也并不以某種方式來處理這些標(biāo)記，而只是或者允許在檢索中使用標(biāo)記，或者能夠區(qū)分標(biāo)記和其他文本。②當(dāng)前的Web搜索技術(shù)不能利用語義標(biāo)記來改善文本檢索。Web搜索引擎基本依賴于簡(jiǎn)單的詞語統(tǒng)計(jì)來識(shí)別與檢索最相關(guān)的文檔。利用相關(guān)技術(shù)如辭典擴(kuò)展可以在檢索中集成一定的推理，但與利用語義標(biāo)記的情形相比，這樣的推理是簡(jiǎn)單的。在語義環(huán)境下，語義標(biāo)記可能出現(xiàn)在檢索式或索引文檔中。③文本在推理中沒有得到利用。如果有可能自動(dòng)地將文本轉(zhuǎn)換為語義表示，則所形成的語義表示可在推理中加以利用。
　　
　　3.2語義功能需求
　　語義Web的目標(biāo)之一是提升人和軟件代理在Web上發(fā)現(xiàn)和處理文檔、信息和知識(shí)的能力。語義Web環(huán)境下的搜索引擎建立在Web搜索引擎、信息檢索技術(shù)和語義Web基礎(chǔ)之上。在本體和知識(shí)庫的基礎(chǔ)上，應(yīng)當(dāng)研究語義標(biāo)記的產(chǎn)生與處理問題。語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)將標(biāo)記看成是結(jié)構(gòu)化信息，并能在RDF和OWL語義之后執(zhí)行推理。搜索引擎的語義功能需求具體表現(xiàn)如下：①本體與知識(shí)庫的支持。通過本體和知識(shí)庫，改善Web搜索的精確度，對(duì)網(wǎng)頁上的信息與相關(guān)知識(shí)結(jié)構(gòu)和推理規(guī)則進(jìn)行關(guān)聯(lián)；②同時(shí)支持檢索驅(qū)動(dòng)和推理驅(qū)動(dòng)過程；③能夠利用單詞或語義標(biāo)記或同時(shí)利用單詞和語義標(biāo)記作為索引詞語；④索引和檢索應(yīng)當(dāng)與推理緊密關(guān)聯(lián)，推理的改善應(yīng)當(dāng)導(dǎo)致索引和檢索的改善。
　　
　　4　語義Web環(huán)境下搜索引擎的功能
　　
　　基于當(dāng)前的Web搜索引擎和語義Web，本文提出語義Web環(huán)境下的搜索引擎功能流圖，如圖1所示：
　　
　　語義Web包含兩種類型文檔，一類是通常的Web文本文檔(text documents)(暫不考慮多媒體資源和Web服務(wù)資源)；另一類是與這些Web文本文檔平行的語義Web文檔。一方面，Web文本文檔通過語義Web文檔的注釋得到豐富，這些注釋提供元數(shù)據(jù)和機(jī)器解釋的捕獲Web文本文檔內(nèi)容含義的陳述；另一方面，語義Web文檔用來對(duì)Web文本文檔進(jìn)行語義描述，以便機(jī)器能夠理解與處理Web文本文檔中的知識(shí)。
　　語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)能夠運(yùn)行一些推理引擎以識(shí)別所需要的事實(shí)和規(guī)則，從而達(dá)到所期望的結(jié)論，如能夠在語義Web上篩選所需的事實(shí)和規(guī)則，并將篩選結(jié)果合并到推理過程之中。圖1中的功能針對(duì)語義Web環(huán)境，顯示了搜索引擎的語義推理、語義索引和語義檢索等功能。另外，語義Web環(huán)境下的搜索引擎還具有傳統(tǒng)搜索引擎功能，即基于關(guān)鍵詞的索引與檢索，這已具備了成熟的理論與實(shí)踐。下面結(jié)合圖1，對(duì)語義Web環(huán)境下的搜索引擎功能展開分析。
　　
　　4.1　Crawler
　　URLs集和crawl模塊一起組成為基本crawler，控制并執(zhí)行所有的爬行過程。crawl模塊先從一個(gè)種子URLs集出發(fā)開始爬行，對(duì)爬回的靜態(tài)網(wǎng)頁，crawl模塊進(jìn)行以下兩個(gè)方面的處理：從網(wǎng)頁中抽取所有的由鏈接指向的URLs，并將這些URLs存入到URLs集中；將爬回的網(wǎng)頁保存在文本文檔數(shù)據(jù)集中(如果存在)，或者保存在緩存中足夠長(zhǎng)的時(shí)間，旨在完成索引。URLs集為crawl提供將要爬行的靜態(tài)網(wǎng)頁地址，crawl從URLs集中選擇下一個(gè)將要爬行的URL地址重復(fù)前面的過程。crawl模塊爬行的網(wǎng)頁總數(shù)由存儲(chǔ)資源決定或事先由人為決定。
　　語義Web環(huán)境下的搜索引擎與傳統(tǒng)搜索引擎一樣，也是基于crawler。因此，當(dāng)前搜索引擎所面臨的爬行問題也同樣是語義Web環(huán)境下的搜索引擎必須面對(duì)與研究的，如動(dòng)態(tài)網(wǎng)頁爬行與并行爬行。
　　
　　4.2本體與知識(shí)庫
　　語義Web包含Web文檔和與這些Web文檔平行并對(duì)它們進(jìn)行描述的語義Web文檔(Semantic Web Documents，SWDs)。語義Web文檔中擁有大量的本體與知識(shí)庫。本體與知識(shí)庫以及下面的語義注釋，構(gòu)成了語義Web的核心，為搜索引擎的語義功能實(shí)現(xiàn)提供了基礎(chǔ)。
　　本體構(gòu)建語言在W3C的努力下已得到標(biāo)準(zhǔn)化，相應(yīng)的工具也得到很好的開發(fā)和應(yīng)用，如Prot6g6平臺(tái)是一個(gè)集成的軟件工具，其最新版本是2010年3月8日發(fā)布的Prot6ge 3.4.4。Prot6g6平臺(tái)為越來越多的用戶提供一套利用本體構(gòu)建領(lǐng)域模型和基于知識(shí)庫應(yīng)用的工具，可供系統(tǒng)開發(fā)者和領(lǐng)域?qū)＜议_發(fā)基于知識(shí)的系統(tǒng)，以便構(gòu)建基于知識(shí)的工具和應(yīng)用，從而解決特定領(lǐng)域中的問題。但是，本體的構(gòu)建和標(biāo)準(zhǔn)化以及知識(shí)庫的構(gòu)建還有一個(gè)漫長(zhǎng)的路要走，它依賴于許多組織的關(guān)注和努力。與多媒體資源和Web服務(wù)資源相比，文本資源本體涉及人類知識(shí)體系的各個(gè)學(xué)科和領(lǐng)域。在語義Web文本本體構(gòu)建中，一方面，不論在哪個(gè)領(lǐng)域，本體構(gòu)建都需要可以使用的概念以及概念之間的關(guān)系表達(dá)，強(qiáng)烈地依賴于特定領(lǐng)域的知識(shí)體系結(jié)構(gòu)，因此，需要領(lǐng)域?qū)＜业膮⒓雍徒槿�；另一方面，本體構(gòu)建需要充分考慮標(biāo)準(zhǔn)本體語言如OWL的知識(shí)表示能力，以便利用標(biāo)準(zhǔn)本體語言來恰當(dāng)而合理地表示特定領(lǐng)域的知識(shí)體系。本體的構(gòu)建是其標(biāo)準(zhǔn)化的前提，圍繞特定領(lǐng)域本體的構(gòu)建已有一些研究，如客戶抱怨本體的構(gòu)建，合同本體的構(gòu)建，等等。
　　
　　4.3語義注釋
　　語義注釋能夠在文本文檔中注釋和鏈接命名實(shí)體，將到語義描述的鏈接分配給文本中的實(shí)體，產(chǎn)生有關(guān)文本中實(shí)體、實(shí)體屬性和實(shí)體間關(guān)系的語義元數(shù)據(jù)標(biāo)記。應(yīng)當(dāng)說，手工獲得清晰的語義并不是一個(gè)可行的方法，從手工到自動(dòng)的轉(zhuǎn)變應(yīng)當(dāng)首先研究和開發(fā)完全自動(dòng)的語義注釋方法。因此，應(yīng)當(dāng)面對(duì)和解決必要的設(shè)計(jì)和建模問題，提供必需的資源和基礎(chǔ)設(shè)施。
　　語義元數(shù)據(jù)必須以一種允許進(jìn)行有效管理的格式加以存儲(chǔ)，相關(guān)研究認(rèn)為，最有效的方法是對(duì)文本文檔、元數(shù)據(jù)(注釋)和形式化知識(shí)(本體和知識(shí)庫)進(jìn)行分開的表示和管理。
　　
　　4.4篩選與推理
　　并非所有的語義標(biāo)記都是有價(jià)值的，因?yàn)橐恍?biāo)記可能來自于不適當(dāng)?shù)幕虿豢尚诺臋C(jī)構(gòu)，一些標(biāo)記是多余的，一些標(biāo)記是不相關(guān)的。因此，抽取的語義標(biāo)記必須按照一定的規(guī)則進(jìn)行篩選和推理，所得的結(jié)果將是可信任的事實(shí)和規(guī)則集，新增加的事實(shí)和規(guī)則集添加到本體與知識(shí)庫中。不斷擴(kuò)展的本體與知識(shí)庫將進(jìn)一步促進(jìn)推理運(yùn)行。推理引擎利用在文本抽取中獲得的元數(shù)據(jù)信息可推理更多的語義關(guān)系，為搜索引擎系統(tǒng)的索引做好準(zhǔn)備，這些語義關(guān)系將直接決定檢索的范圍并提供更相關(guān)的響應(yīng)。
　　對(duì)于何時(shí)對(duì)語義Web標(biāo)記進(jìn)行推理可以進(jìn)行選擇，如在對(duì)文檔即將索引之前對(duì)標(biāo)記進(jìn)行推理，這將導(dǎo)致產(chǎn)生更多的三元組語義標(biāo)記，擴(kuò)大該文檔的語義檢索點(diǎn)；對(duì)包含RDF三元組的檢索在處理和提交到檢索系統(tǒng)之前進(jìn)行推理，以提高檢索效率；為了完成檢驗(yàn)任務(wù)進(jìn)行推理。另外，在語義Web上發(fā)現(xiàn)的知識(shí)在信任度上將存在很大變化，正如當(dāng)前Web上發(fā)現(xiàn)的信息一樣。為了產(chǎn)生一致的知識(shí)庫，需要對(duì)語義Web上的信任模型環(huán)境進(jìn)行研究。在對(duì)語義Web上發(fā)現(xiàn)的事實(shí)和知識(shí)進(jìn)行抽取和推理時(shí)，應(yīng)當(dāng)能夠從語義模型中去掉重復(fù)的事實(shí)，能夠掌握信任模型并對(duì)每個(gè)事實(shí)的信任度做出更好的決策。
　　
　　4.5語義索引
　　索引文檔包含RDF三元組和RDF三元組通配符，這為用戶提供了表達(dá)具有RDF三元組通配符檢索式的靈活性。語義標(biāo)記能夠捕獲詞語之間的語義關(guān)系，因而提供檢索式與相關(guān)詞語間更好的匹配。在一個(gè)索引文檔的表示中包含語義標(biāo)記能夠提高信息檢索效率，如果在索引前對(duì)文檔語義標(biāo)記運(yùn)行推理，將會(huì)獲得更好的效果。
　　
　　4.6語義檢索
　　當(dāng)前的檢索技術(shù)是基于關(guān)鍵詞的，而許多用戶可能傾向于根據(jù)高層語義概念構(gòu)建檢索，這些概念是更標(biāo)準(zhǔn)的術(shù)語和隱含知識(shí)。開發(fā)在詞語之間抽出語義關(guān)系的檢索技術(shù)將促進(jìn)智能信息服務(wù)、個(gè)性化Web站點(diǎn)和語義強(qiáng)大的搜索引擎。
　　圖1中，語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)能夠通過定制的檢索界面進(jìn)行檢索，并接受自由文本以及結(jié)構(gòu)化的檢索。假設(shè)系統(tǒng)的輸入是某些類型的語義Web檢索式，如果用戶的目標(biāo)是檢索，則該檢索式可能是對(duì)正在檢索的概念進(jìn)行編碼的語義標(biāo)記；如果用戶的目標(biāo)是推理，則該檢索式可能是一個(gè)系統(tǒng)將要證實(shí)的陳述。在任何一種情況下，檢索式被提交給推理引擎。對(duì)于檢索，推理引擎可以利用用戶模塊、本體與知識(shí)庫產(chǎn)生新的語義標(biāo)記；對(duì)于檢驗(yàn)，推理引擎將盡可能地利用本體與知識(shí)庫，產(chǎn)生部分檢驗(yàn)樹。
　　基于圖1功能流圖的語義Web環(huán)境下的搜索引擎應(yīng)具有更好的檢索效果：首先，Web搜索引擎應(yīng)很好地處理同義詞問題，如可以將“HK”和“H.K.”索引為特定的實(shí)體“Hong Kong”，就好像存在一個(gè)惟一的ID標(biāo)識(shí)符一樣，體現(xiàn)了對(duì)命名實(shí)體引用的清晰處理。相反，當(dāng)前的索引系統(tǒng)因?yàn)椴话瑢?shí)體識(shí)別，所以只能對(duì)“HK”、“H”和“K”分別進(jìn)行索引，這正是基于關(guān)鍵詞的搜索引擎存在的問題。其次，在對(duì)搜索引擎進(jìn)行檢索時(shí)，可通過指定實(shí)體類型限制、名稱和其他屬性限制以及實(shí)體之間的關(guān)系限制檢索實(shí)體。例如，通過語義索引，能夠更有效地檢索到某個(gè)人，即使只知道該人在某機(jī)構(gòu)中擔(dān)任某職位、具有某些屬性如性別等。最后，搜索引擎能提供強(qiáng)大的推理功能。例如，“檢索包含在中國(guó)從事信息服務(wù)行業(yè)的企業(yè)的文檔”，則返回的文檔可能包含“清華同方股份有限公司”、“萬方數(shù)據(jù)股份有限公司”，或“維普資訊公司”，而不是簡(jiǎn)單地包含“中國(guó)”、“信息服務(wù)”或“企業(yè)”等文字。
　　
　　5　結(jié)語
　　
　　語義Web是一個(gè)全球分布的知識(shí)庫，這一點(diǎn)由Tim Bemers-Lee在Web開發(fā)中提出。Tim Bemers-Lee試圖最終創(chuàng)建出網(wǎng)絡(luò)化的知識(shí)庫，他將語義Web描述成：能夠從經(jīng)驗(yàn)中學(xué)習(xí)，創(chuàng)建不同應(yīng)用環(huán)境下知識(shí)獲取、表示和利用的基礎(chǔ)設(shè)施�；谡Z義Web的搜索引擎能夠?yàn)槊總€(gè)文本中的實(shí)體引用同時(shí)提供到本體中特定類的鏈接和到知識(shí)庫中特定實(shí)例的鏈接；能夠基于實(shí)體對(duì)文本文檔進(jìn)行索引和檢索；允許用戶指定感興趣的命名實(shí)體，并通過命名實(shí)體的屬性和關(guān)系進(jìn)行限制。語義Web環(huán)境下的搜索引擎將促進(jìn)信息、知識(shí)需求得到更好、更精確的語義表述和滿足，推動(dòng)高效的信息資源開發(fā)利用以及高效的信息和知識(shí)管理。

东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

語義Web環(huán)境下的搜索引擎功能分析|語義搜索引擎研究

熱點(diǎn)文章閱讀