【元搜索引擎研究綜述評】 地圖搜索引擎研究綜述
發(fā)布時間:2020-03-07 來源: 散文精選 點擊:
[摘要]介紹元搜索引擎的起源與發(fā)展、基本原理和分類,重點從元搜索引擎關鍵技術的實現上闡述元搜索引擎研究的主要內容與進展,最后分析現有元搜索引擎存在的各種局限性,歸納出未來值得研究和探討的若干方向。
[關鍵詞]元搜索引擎 個性化 信息檢索
[分類號]G353
1 元搜索引擎的起源與發(fā)展
Internet自誕生以來不斷成長,信息容量呈爆炸性趨勢增長。這一方面方便了人們獲取信息;但另一方面也給人們查詢信息帶來了麻煩,常常使用戶陷入“信息過載”和“資源迷向”的困境。搜索引擎的出現大大增強了人們收集信息的能力,但隨著Web內容的飛速發(fā)展,信息膨脹速度遠遠超過了搜索引擎檢索范圍,一個搜索引擎通常不能找到用戶所需的全部信息,用戶在進行檢索時需要在多個搜索引擎間進行切換,找到自己真正需要的信息仍如同大海撈針般困難。在這種情況下,一個能集合多個搜索引擎檢索結果并能對此做出整合處理的檢索工具――元搜索引擎出現了,它有效解決了獨立搜索引擎信息覆蓋率不足和查準率不高的問題。
自1995年第一個元搜索引擎MetaCrawler推出以來,國外元搜索引擎技術迅速發(fā)展,目前網絡中已經有上百個元搜索引擎,其中不乏優(yōu)秀的元搜索引擎,如Mamma、MetaCrawler、SavvySearch等。國內的中文元搜索引擎發(fā)展較為緩慢且數目不多,如萬緯、MetaFisher、北斗星等,其檢索效果也不理想,未來發(fā)展空間很大。
2 元搜索引擎的研究現狀
2.1 元搜索引擎的原理及其分類
元搜索引擎(meta-search engine)是一種基于搜索引擎的搜索引擎,亦稱“搜索引擎之母”。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將各獨立搜索引擎返回的所有查詢結果集中處理后再返回給用戶。因此,元搜索引擎可根據檢索的目標搜索引擎、檢索提問處理方式以及如何編譯與顯示結果等的不同而劃分為:集中羅列式元搜索引擎(又稱“集成搜素引擎”或“all-in-one式搜索引擎”)和統(tǒng)一入口式元搜索引擎(又稱“多線索式搜索引擎”);桌面型元搜索引擎和基于Web的元搜索引擎(也可稱為“在線元搜索引擎”);并行處理式元搜索引擎和串行處理式元搜索引擎。
2.2 元搜索引擎研究的主要內容與進展
目前,元搜索引擎研究活動主要集中在以下幾個關鍵技術的實現上:
2.2.1 成員引擎的調度策略 提出了若干成員引擎的調度算法,典型的有:①普通法,即不考慮各個成員搜索引擎的特性,只是將元搜索引擎的查詢請求簡單地發(fā)送給自己的每個成員搜索引擎,用戶可自由選擇其成員引擎,如萬緯搜索引擎;②定性法,如ALIWEB方法、NetSerf方法、D-WISE方法、gGLoss方法。它跟據一定的評分函數預測每個成員搜索引擎的質量;③定量法,根據一些比定性方法使用的衡量標準更易理解的標準來衡量成員搜索引擎的有用性,如估計有用文件的數量或估計最相似文件的相似度;④基于學習的方法,根據以往檢索成員搜索引擎的經驗預測各引擎對新查詢的有用性。檢索經驗可能來自多方面,如靜態(tài)學習方法MRDD方法、動態(tài)學習方法SavvySarch和混合學習方法ProFusion方法。在成員引擎的調度策略方面,國內的一些學者也提出了幾種比較有特色的調度算法,如張衛(wèi)豐等提出了一種基于遺傳算法的調度算法來實現成員引擎的調度。
通過詳細分析多種調度策略的優(yōu)點與不足,我們認為普通法比較簡單,但查準率不高。定性法可提供一些有關成員搜索引擎數據庫內容的信息,能提高查準率,但不能有效和精確地估計成員引擎數據庫的有效性,因而也容易遺漏或忽略一些潛在有用的成員搜索引擎數據庫,比如一篇有用的文檔在某個成員搜索引擎數據庫中出現頻度非常低,利用定性法就可能忽略掉該成員搜索引擎數據庫。定量法根據給定的查詢請求計算數據的有用性,如,它試圖估計成員搜索引擎數據庫有用文件的數量,并以這個標準來選擇數據庫或者估算比較每個庫中最有用文件的相關度高低,以此選出最能滿足查詢請求的數據庫,則其衡量標準更易理解;趯W習的方法中,靜態(tài)學習方法可實現元搜索引擎在實際查詢中利用訓練收集的分布向量選擇合適的成員數據庫和需要抽取的結果數目,實現查詢精度最大化,但其訓練收集的分布向量很難適應未來查詢的變化;動態(tài)學習方法可始終更新訓練結果集合以適應多變的查詢任務,但搜索引擎用戶有檢查排在最前面文件的傾向,其結果很有可能出現成員數據庫的關鍵詞權值不能充分反映成員數據庫對于該查詢關鍵詞的真實響應,所以綜合靜態(tài)學習與動態(tài)學習的混合學習方法在實際中用得較多。
2.2.2 搜索結果的合成 元搜索引擎在結果顯示過程中,需要將與用戶查詢相關度高的結果放在前面,但是由于不同搜索引擎所采用的技術不盡相同,所以很難按照一個統(tǒng)一的標準去排列這些結果。通常,每個成員搜索引擎返回的文檔根據局部相似度或全局相似度來對文檔進行降序排列,代表性的結果合成算法主要方法如下:①J.P.Callana針對搜索引擎返回結果的排序、相關性分值的不同,給出了三種典型的合成算法――間隔排列合成法、分值合成法、加權分值法;②Krisch提出通過修改下層搜索引擎以獲得更多信息,進行合成處理;③元搜索引擎系統(tǒng)MetaCrawler引入概念可信度來決定文檔與檢索請求的相關程度;④Profusion集成規(guī)范相關度合成法和加權分值法;⑤Inquirus認為單憑這些信息不足以客觀評價搜索結果與用戶檢索請求的相關性,因而采用先下載搜索結果中的文檔后重新計算相關性的客戶端重新計算相關性的排序策略來對文檔排序;⑥M,Elena等將聚類方法用于查詢結果的合成”;⑦國內張衛(wèi)豐將摘要作為相關度分析的依據納入搜索結果的合成。
總結現有搜索結果合成算法,我們發(fā)現主要有兩類:局部相似度調整算法和全局相似度調整算法。局部相似度調整算法,如MetaCrawler和Profusion中采用的,它根據成員搜索引擎所具有的特點來調整文檔的局部相似度,使來自不同成員搜索引擎的文檔的相似度歸一化到一個較為統(tǒng)一的值域,再進行比較和排序,評估值高的成員引擎中的文檔將獲得較高的全局評估值,評估值的獲取也較簡單。全局相似度估算算法,如Inquires方法,需要計算或估計各個返回文檔的全局相似度,其實現通常需要借助搜索引擎返回文檔的URL或一些額外的附加信息(如一段綜述或文檔開頭的幾句話或整個文檔),計算出關鍵詞在文檔中的頻率,并需要從網上下載該文檔。這一方面可在文檔下載時確定文檔的URL是否有效(無效的可從結果集合中刪去),同時還可以通過分析下載文檔,可以利用其內容對文檔重新排序,因為有可能文檔的局部相似度是根 據文檔的早期版本計算的;但另一方面搜索引擎必須花大量時間來下載文檔,因此該方法要以帶寬、計算時間為代價,很難獲得實際應用。
2.2.3 個性化搜索 個性化搜索是一種個性化信息服務,旨在幫助用戶更快、更準確地找到所需信息。它主要通過收集和分析用戶信息來學習用戶興趣和搜索行為,從中識別用戶的需求偏好,并且能夠根據用戶對搜索結果的評價,自覺調整搜索策略,對于同一檢索請求,不同用戶能夠得到各自所需的信息。在國內外搜索引擎巨頭,如Google、雅虎、AOL等紛紛推出個性化搜索服務的形勢下,元搜索引擎的個性化搜索也備受關注。元搜索引擎?zhèn)性化搜索服務實現的核心在于用戶興趣模型的建立和獲取。用戶模型不僅僅是用戶的興趣描述信息,而且是一種面向算法的、具有特定數據結構的、形式化的用戶描述。相應地,用戶建模是指從有關用戶興趣和行為的信息(如瀏覽內容、瀏覽行為、背景知識等)中歸納出可計算的用戶模型的過程。近年來,有關用戶建模技術的研究開始被作為個性化信息服務的基礎技術來進行研究,國外的代表性研究主要有:①Syskill&Webert是加州大學的Pazzani等人開發(fā)的一個輔助用戶瀏覽的導航工具,它可以搜集用戶對當前瀏覽頁面的評價,逐漸學習用戶的興趣模型;②Morin E.等在文獻中提出一種基于特征詞表示法的用戶興趣模型,在模型中還存放特征詞之間的語義關聯關系,但這種模型只是簡單的特征詞集合,沒有對特征詞按語義進行層次分類;③Navigli R.等在文獻中提出基于本體論的用戶興趣模型,概念按本體論的知識分類體系進行表示,通過學習擴展概念之間的語義聯系。國內對用戶建模也展開了研究:①文獻根據用戶提供的各種示例文檔,通過考察特征和類別的表達能力來構建用戶模型;②文獻將個體用戶的興趣分為長期模型和短期模型,并引入時間因素來模擬用戶興趣隨時間的變化,通過對用戶Web緩沖區(qū)的頁面進行Web挖掘特征詞來更新用戶的興趣模型;③文獻按本體論建立用戶興趣模型,通過Web挖掘來得到概念之間的語義聯系;④文獻提出一種加權特征詞的用戶興趣模型,通過強化學習更新用戶模型。
總的來說,用戶建模技術的研究還處于起步階段,還沒形成成熟的技術體系,存在以下幾個方面的問題:①只以單個用戶為基點建立用戶個體模型,而忽略了用戶群體模型;②注重用戶查詢興趣模型,而忽略用戶對成員搜索引擎偏好、用戶收藏和用戶好友等與社會化搜索相關的用戶興趣信息;③為了力求準確表達用戶特性,所建的用戶模型過于復雜,導致搜索效率降低。因此各種用戶模型離實用還有距離,還有許多關鍵技術尚待解決。
3 總結與展望
3.1 目前研究的局限
通過上述分析可以發(fā)現元搜索引擎的功能受成員搜索引擎和元搜索技術的雙重制約:一方面,成員搜索引擎各具特色的強大功能在元搜索引擎中受到限制而不能充分體現;另一方面,任何一種元搜索技術都不能發(fā)掘和利用成員搜索引擎的全部功能,它的局限性主要包括以下幾個方面:
3.1.1 調用搜索引擎上的局限性一般的元搜索引擎只是調用如Google,AltaVisa等幾個主要的搜索引擎,即使某些元搜索引擎提供了讓用戶選擇搜索引擎的選項,但也只能在其提供的為數不多的幾個搜索引擎中進行選擇。
3.1.2 查詢請求上的局限性 元搜索引擎在查詢語法轉換方面的局限性限制了許多高級的查詢語法。因為元搜索引擎的查詢語法要考慮到它所調用的所有搜索引擎的查詢語法,這種復雜性使得大多數元搜索引擎只能提供一些簡單的查詢語法。
3.1.3 查詢結果數量上的局限性 由于網絡資源的急速膨脹,單個獨立搜索引擎搜集就往往會返回成千上萬的搜索結果。元搜索引擎需要對多個獨立搜索引擎的結果進行處理,考慮到系統(tǒng)運行的效率與響應時間,大多數元搜索引擎只取每個搜索引擎返回的前幾條搜索結果,這樣必定影響了信息的覆蓋面。
3.1.4 查詢結果排序上的局限性 由于不同的搜索引擎之間存在搜索信息的數量、搜集信息的范圍、采用的索引方法、使用的相似度評價等方面的巨大差異,再加上元搜索引擎的設計者不能獲取這些搜索引擎的很多技術細節(jié),對不同搜索引擎返回的大額結果不能很好地進行排序。
3.1.5 搜索結果個性化上的局限性 現有元搜索引擎基本上都采用“一個搜索適用于所有用戶”的搜索模型(不同的用戶提交相同的關鍵字查詢請求時,搜索引擎返回相同的搜索結果),然而,搜索本身是一項個性化的活動,不同的用戶對所需要的信息要求不同,因此,現有的元搜索引擎無法滿足用戶的個性化需求。
3.2 未來發(fā)展方向
各種局限性使得元搜索引擎在具體應用方面搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位,它還有很多值得研究和探討的領域,歸納起來主要有以下幾個方向:
3.2.1 智能化 一個智能檢索系統(tǒng)應該能充分利用分詞詞典、同義詞典、同音詞典改善檢索效果,甚至進一步還可在知識層面或概念層面上輔助查詢,可通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,給予用戶智能知識提示,最終可幫助用戶獲得最佳的檢索效果。
3.2.2 個性化 在輸入方面,使用自然語言輸入,更加方便用戶使用,更易于用戶與搜索引擎的交互,更能貼近地表達用戶查詢需求,從而有利于提高查詢的精度。在返回結果方面,應該充分發(fā)揮預處理和搜索結果集成方面的能力,考慮人的性別、年齡、地域等方面的差別而給出個性化的搜索結果。同時,按照語言的不同將用戶的查詢請求發(fā)送到對應的獨立搜索引擎,以提供多語言的搜索功能。
3.2.3 專業(yè)化 專業(yè)元搜索引擎是個很好的概念,不但網絡資源可以比普通元搜索引擎挖得更深更多,搜索負擔還小得多,應該是很符合網絡發(fā)展方向的。
3.2.4 中文元搜索引擎 漢語分詞是其實現的關鍵,中文元搜索引擎研究目前還處于起步階段,發(fā)展余地非常大。
相關熱詞搜索:綜述 搜索引擎 研究 元搜索引擎研究綜述評 搜索引擎評價研究綜述 元搜索引擎研究綜述
熱點文章閱讀