东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        [基于知識圖譜的國際網(wǎng)絡搜索引擎研究現(xiàn)狀與前沿分析]知識圖譜 搜索引擎

        發(fā)布時間:2020-03-10 來源: 短文摘抄 點擊:

          [摘要]運用知識圖譜方法對國際網(wǎng)絡搜索引擎領(lǐng)域1999~2010年的相關(guān)文獻進行多角度的定量定性分析,描繪該領(lǐng)域近年來的研究現(xiàn)狀及熱點。結(jié)果表明:目前該領(lǐng)域的文獻量穩(wěn)步增長,高校是核心的研究力量。同時識別核心作者群,并發(fā)現(xiàn)目前的研究主要集中于搜索引擎的基本理論研究、檢索效率研究、用戶行為研究、語義網(wǎng)研究、醫(yī)學引擎研究等。
          [關(guān)鍵詞]網(wǎng)絡搜索引擎 知識圖譜 研究現(xiàn)狀研究 前沿
          [分類號]G350
          
          1 引言
          
          因特網(wǎng)信息爆炸性增長在給使用者帶來便利的同時,也帶來了麻煩。在浩如煙海的信息海洋中快速準確地尋找所需信息猶如大海撈針般困難,網(wǎng)絡搜索引擎的出現(xiàn)緩解了這一矛盾。搜索引擎是一種用于幫助因特網(wǎng)用戶在互聯(lián)網(wǎng)上查詢信息的搜索工具,它以一定的策略在因特網(wǎng)中發(fā)現(xiàn)、搜集信息,并對搜集的信息進行加工整理和組織存貯,為用戶提供檢索服務,從而起到信息導航的作用。1994年創(chuàng)建的Lycos被認為是第一個現(xiàn)代意義上的搜索引擎。網(wǎng)絡搜索引擎發(fā)展至今雖只有十余年的歷史,卻在商界、學術(shù)界掀起了巨大波瀾。著名因特網(wǎng)網(wǎng)站排名公司Alexa提供的數(shù)據(jù)顯示,搜索引擎公司谷歌于2009年1月5日首次在Alexa日流量排名中占據(jù)第一,成為世界頭號網(wǎng)站。comScore在2009年9月發(fā)布的全球10大因特網(wǎng)資產(chǎn)也顯示谷歌排名第二,排在第九、第十位的也均是搜索引擎公司,分別為百度和Lycos。學術(shù)界對于網(wǎng)絡搜索引擎的基礎理論研究、比較研究、技術(shù)研究、質(zhì)量性能研究等均有大量報道,但鮮有涉足現(xiàn)狀及前沿分析,即使涉足一般也以定性研究為主。為了解該領(lǐng)域近年來的研究現(xiàn)狀及熱點,筆者擬用知識圖譜方法對國際網(wǎng)絡搜索引擎領(lǐng)域的相關(guān)文獻進行以定量分析為主、定性分析為輔的研究,希冀得出一些有益的結(jié)論,為該領(lǐng)域的研究提供借鑒。
          
          2 數(shù)據(jù)來源、理論基礎和研究思路
          
          2.1 數(shù)據(jù)來源
          本文使用的數(shù)據(jù)均來源于美國科學信息研究所的WoS數(shù)據(jù)庫平臺中的SCI-Expanded數(shù)據(jù)庫。以“WebSearch Engine”或“Web Search Engines”為主題詞進行檢索,在相關(guān)題錄信息下載過程中,文獻類型選為“Artide”,語種為“English”,入庫年份為“1999-2010”,下載日期為2010年04月30日,共檢索到1268篇文獻和36 804條引文題錄數(shù)據(jù)。
          
          2.2 理論基礎
          科學知識圖譜是顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一種圖形,是近年來國際上興起的一種科學計量學研究方法。知識圖譜以引文分析、共現(xiàn)分析、詞頻分析等文獻計量方法為基礎,綜合了計算機科學、圖形學、信息可視化、數(shù)據(jù)挖掘、數(shù)學等學科理論和方法,可以以圖像圖形的形式形象地展現(xiàn)科學領(lǐng)域的發(fā)展歷程、研究現(xiàn)狀及熱點前沿,并揭示科學知識之間的聯(lián)系與知識的發(fā)展規(guī)律,為科學研究提供有價值的參考。德雷賽爾大學陳超美博士開發(fā)的CitespaeelI可視化軟件為研究提供了極大便利,是知識圖譜方面一款非常優(yōu)秀的軟件。對于一個研究領(lǐng)域的表示,陳超美認為,可以用“研究前沿”和“知識基礎”兩者之間的時變映射來表示。研究前沿代表了一個領(lǐng)域的思想狀況,研究前沿的引文和共被引軌跡則構(gòu)成了相應的知識基礎,Citespaeell使用的光譜聚類算法可以對共現(xiàn)和共被引網(wǎng)絡進行自動聚類及標引,采用的Kleinberg突變檢測算法可以用于檢測一個學科內(nèi)研究興趣的突然增長。本文擬用“關(guān)鍵詞聚類”和“突變詞檢測”算法來確定某研究領(lǐng)域的研究熱點和研究前沿。
          
          2.3 研究思路
          本文首先采用文獻計量方法對相關(guān)文獻的數(shù)量、著者、主要研究機構(gòu)進行分析以揭示研究現(xiàn)狀,然后繪制這1268篇文獻的高頻關(guān)鍵詞的共現(xiàn)聚類圖譜、高被引文獻的共被引網(wǎng)絡知識圖譜,從而描繪出該領(lǐng)域的研究熱點及知識基礎。使用到的軟件主要有書目共現(xiàn)分析系統(tǒng)、Excel、CitespaeeII可視化軟件等。
          
          3 研究現(xiàn)狀描述
          
          3.1 文獻信息量統(tǒng)計
          發(fā)表文獻的數(shù)量在一定程度上代表了某個領(lǐng)域的研究水平與發(fā)展趨勢。圖1所示的是1999~2010年12年間的文獻量,其中2010年的數(shù)據(jù)只統(tǒng)計到4月份。從圖中可以看出,文獻量除2003、2005年略有下降外,其他年份均呈穩(wěn)步增長之勢。
          
          3.2 論文著者統(tǒng)計分析
          3.2.1 作者總體狀況統(tǒng)計表明這1268篇文獻來自于1045位著者,具體數(shù)據(jù)如表1所示:
          這與經(jīng)典的描述科學生產(chǎn)率的洛特卡定律并不符合。洛特卡定律描述的是寫一篇文章的作者大約占作者總數(shù)的60%,而寫n篇作者的人數(shù)約為寫一篇作者人數(shù)的1/n2。但從表中發(fā)現(xiàn),寫一篇文獻的作者人數(shù)所占的比例高達89.5%,遠高于60%。
          3.2.2 核心作者狀況 對于作者發(fā)文量和被引頻次的統(tǒng)計分析可以識別某研究領(lǐng)域的高產(chǎn)作者及學術(shù)影響力。本文選取發(fā)文量5篇以上的作者作為高產(chǎn)作者,被引頻次超過125次的作者作為高被引作者,分別如表2、表3所示:
          Thelwall、Jansen、Spink、Chau、Bar-Ilan的發(fā)文量都在10篇以上,是該領(lǐng)域的高產(chǎn)作者。來自英國胡佛漢頓大學的著名計算機學家、情報學家、網(wǎng)絡計量學家Thelwall教授的總被引頻次排在第三,他對鏈接分析等搜索引擎的核心技術(shù)有著比較深入的研究,具有廣泛學術(shù)影響力。與Thelwall一樣具有廣泛學術(shù)影響力的高產(chǎn)作者還有來自馬里蘭大學的Jansen和匹茲堡大學的Spink,這兩位教授曾在賓州州立大學共事過,撰寫過很多經(jīng)典文獻。他們曾經(jīng)為擁有Dogpile、Metaeraw[,er、Webcrawle等知名元搜索引擎公司lnfoSpaee和Vivisimo做過研究,主要從事理論及應用研究、用戶行為研究。以色列巴伊蘭大學的情報學家Bar-llan也是該領(lǐng)域的核心作者,她的研究領(lǐng)域主要涉及信息計量學、信息檢索、用戶行為等。Chau來自香港大學,主要致力于知識管理、信息檢索數(shù)字圖書館、文本挖掘well挖掘等,是該領(lǐng)域的高產(chǎn)作者。供職于谷歌的Lawrence發(fā)表過幾篇相當經(jīng)典的文獻,因此具有極高的被引頻次,是該領(lǐng)域極為知名的專家,他的主要研究興趣包括信息檢索、數(shù)字圖書館、機器學習。被譽為現(xiàn)代搜索技術(shù)之父Salton雖已過世,但他的很多經(jīng)典文獻仍在被大量引用,總被引頻次排到了第五,他提出的向量空間模型、逆文檔頻率、術(shù)語頻率、術(shù)語偏離值等概念和相關(guān)反饋機制,極大地促進了信息檢索領(lǐng)域的發(fā)展。限于篇幅,對其他核心作者不具體介紹。
          
          3.3 機構(gòu)狀況
          3.3.1 高產(chǎn)機構(gòu)分析統(tǒng)計表明,這1268篇文獻來自893個不同的研究機構(gòu),發(fā)表論文在9篇以上的高產(chǎn)機構(gòu)如表4所示:
          從論文數(shù)量上看,賓州州立大學以37篇的數(shù)量排 在第一位,前面提到的Jansen和Spink兩位作者就曾在此校做過研究。排在第二的是胡佛漢頓大學,其中Thelwall教授一人就發(fā)文26篇,占了該機構(gòu)三分之二以上的發(fā)文量,是該機構(gòu)的絕對核心研究人員。其他排名比較靠前的還有威斯康星大學、匹茲堡大學、西安大略大學等。
          從地區(qū)上看,美國(10所)占了一半以上的席位,顯示出美國在該領(lǐng)域的強大學術(shù)影響力。香港、英國、加拿大、土耳其、新加坡、以色列、澳大利亞也均存在高產(chǎn)機構(gòu),說明該領(lǐng)域的高產(chǎn)機構(gòu)主要分布在發(fā)達國家和地區(qū)。同時也可以看到這些機構(gòu)主要是高校,一些商業(yè)機構(gòu)諸如IBM、微軟、谷歌的排名都比較靠后,這對技術(shù)的商業(yè)化運作并非很有利。
          3.3.2 機構(gòu)研究領(lǐng)域
          利用CitespacelI對這些機構(gòu)進行聚類分析,可以發(fā)現(xiàn)其研究興趣分布在22個領(lǐng)域。按聚類成員的多寡,排在第一的是語義網(wǎng)(#16)。語義網(wǎng)是通過改變現(xiàn)有互聯(lián)網(wǎng)依靠文字信息來共享資源的模式,通過本體來描述語義信息,達到語義級的共現(xiàn),提高網(wǎng)絡服務的智能化自動化;谡Z義網(wǎng)技術(shù)的搜索引擎能大大改善查全率和查準率,是智能搜索引擎的前進方向,有多達87個研究機構(gòu)對此進行研究,包括胡佛漢頓大學、南洋理工大學、西安大略大學等。賓州州立大學在探索性研究(#12)方面具有建樹,這個研究方向還吸引了斯坦福大學和昆士蘭理工大學這樣的技術(shù)強校。相關(guān)內(nèi)容分析方法(#0)這個聚類也聚集了不少機構(gòu),值得注意的是這里面的機構(gòu)都大多來自中國,包括上海交通大學、香港理工大學和微軟亞洲研究院。其他排名靠前的聚類還有交互式網(wǎng)絡搜索(#2)、蛋白質(zhì)信息資源(#7)、測量網(wǎng)絡搜索引擎質(zhì)量(#8)、瀏覽技術(shù)(#9)、內(nèi)容分析(#21)等,具體情況如圖2所示:
          
          4 知識基礎和研究前沿
          
          4.1 研究熱點和前沿
          關(guān)鍵詞所占篇幅雖小,卻是文章的核心和精髓,是作者對文章主題的精煉,具有很強的代表性,因此高頻的關(guān)鍵詞往往被用來考查一個領(lǐng)域的研究熱點。將相關(guān)題錄數(shù)據(jù)導人CitespaceII中,網(wǎng)絡節(jié)點的類型選為關(guān)鍵詞(keyword),時區(qū)分割(time slicing)選擇為1,即將12年的數(shù)據(jù)以年為單位切為12片,閾值選為出現(xiàn)頻次最高的50個字(top50),運行軟件得到如圖3所示的關(guān)鍵詞共現(xiàn)圖譜,共有278個不同的關(guān)鍵詞節(jié)點和1271條連線:
          節(jié)點向外延伸的不同顏色的環(huán)代表了不同年份的出現(xiàn),環(huán)的厚度與出現(xiàn)頻次正相關(guān),表5列出的是出現(xiàn)頻次排在前十的關(guān)鍵詞及中心度
          通過計算節(jié)點中心度的大小可以挖掘出在整個知識圖譜中具有戰(zhàn)略地位的關(guān)鍵點。中心度反映了一個節(jié)點(如關(guān)鍵詞或引文)在整個網(wǎng)絡中作為“媒介”的能力,也就足占據(jù)其他兩個節(jié)點之間最短路徑的能力,具有較高中介中心度的節(jié)點意味著更多的節(jié)點之間的聯(lián)絡需要通過它來充當媒介。圖3中具有較高中介中心度(大于0.1)的點用紫色的圈圈出來,這樣的關(guān)鍵詞包括萬維網(wǎng)、因特網(wǎng)、搜索引擎、信息檢索、信息、檢索,都是與主題很相關(guān)的詞,是很多其他研究的基礎。
          節(jié)點的大小揭示該領(lǐng)域的研究熱點。萬維網(wǎng)和因特網(wǎng)是圖中最大、最突出的兩個節(jié)點。萬維網(wǎng)是無數(shù)個網(wǎng)絡站點和網(wǎng)頁的集合,它們在一起構(gòu)成了因特網(wǎng)最主要的部分,是依靠著因特網(wǎng)運行的一項服務,在很多場合不明顯區(qū)分這兩個詞。搜索引擎處理的是因特網(wǎng)上的信息,因特網(wǎng)的迅速發(fā)展與普及也帶動了搜索引擎的發(fā)展。因特網(wǎng)上的信息具有的龐大性、動態(tài)性、異構(gòu)性和半結(jié)構(gòu)化等特點對搜索引擎來說是個挑戰(zhàn),這勢必引起很多專家學者來對此進行研究。因此,這是該領(lǐng)域的熱點之一。
          排在第三的關(guān)鍵詞是搜索引擎,同樣具有極高的中介中心度,這是本文的檢索詞,自然處于圖的中心位置,也是本研究的基礎所在。
          排名四、五、六的是信息檢索、信息、檢索、網(wǎng)絡檢索這幾個相關(guān)的莢鍵詞,這些都是與搜索引擎運行相關(guān)的。搜索引擎的基本思想是:使用Robot來遍歷Web,將Web上分布的信息下載到本地文檔庫,然后對文檔內(nèi)容進行自動分析并建立索引,對于用戶提出的檢索請求,搜索引擎通過檢查索引找出匹配的文檔返回給用戶,信息檢索技術(shù)是搜索引擎發(fā)展的基礎,該領(lǐng)域的發(fā)展離不開基礎研究,因此也是目前的熱點。
          排名第七的是質(zhì)量一詞,在谷歌學術(shù)中檢索研究搜索引擎質(zhì)量的文獻,檢索結(jié)果高達30000萬條以上,研究者從不同的角度來提高搜索引擎的檢索質(zhì)量。如對網(wǎng)頁的重要性、用戶的反饋信息、大規(guī)模日志、用戶的點擊行、頁面排序算法等進行研究。這些措施都大大增加了搜索引擎檢索結(jié)果的準確性。搜索引擎返回結(jié)果的質(zhì)量直接導致用戶體驗效果的不同,因此是目前該領(lǐng)域研究非常活躍的方向。
          排在第八的是健康資訊。隨著物質(zhì)生活水平的提高,人們越來越重視與健康相關(guān)的信息,因特網(wǎng)的迅猛發(fā)展提供了這種便利。如今世界各地的人們越來越多的使用搜索引擎來尋找相關(guān)病癥,藥物,治療信息,但對這些過載信息的不恰當使用往往會適得其反。同時對于一些醫(yī)療信息,包括學術(shù)醫(yī)療信息的呈現(xiàn)問題等也是關(guān)注的焦點。因此如何使搜索引擎成為溝通這些寶貴的醫(yī)療資源與用戶的橋梁是面臨的一大難題。下文列出的前九的經(jīng)典文獻中有兩篇是跟這方面相關(guān)的,說明對健康資訊、醫(yī)學搜索引擎領(lǐng)域的研究是一個熱點。排名比較靠前的還有設計、用戶研究。
          為了確定該領(lǐng)域目前的研究前沿,選用突變檢測算法來檢測該領(lǐng)域的突變專業(yè)術(shù)語(環(huán)內(nèi)呈紅色的點),同時選擇時間線索(timeline)聚類視圖,生成圖4所示的聚類知識圖譜:
          這樣的詞頻變化較高的、代表研究前沿的突變專業(yè)術(shù)語有語義網(wǎng)、數(shù)據(jù)庫、日志、網(wǎng)絡搜索等。
          
          4.2 知識基礎
          對知識基礎的共被引分析,有利于進一步明確研究熱點的本質(zhì)。利用Citespacell提供的共被引分析功能,對該領(lǐng)域的文獻繪制了共被引知識圖譜。除去節(jié)點類型選為參考文獻(cited conference),閩值選為top40外,其他參數(shù)與關(guān)鍵詞的一致。運行生成圖5所示的知識圖譜,共生成了246個不同的文獻節(jié)點及1545條連線。
          表6列出的是被引頻次50次以上的高被引文獻,括號中給出的是相應文獻在谷歌學術(shù)中檢索到的被引頻次(截至2010年5月4日),這些高被引的經(jīng)典文獻構(gòu)成了搜索引擎領(lǐng)域的知識基礎,具有極高的學術(shù)價值。中心度的大小則顯示出了相關(guān)文獻對于搜索引擎研究的轉(zhuǎn)折意義跟樞紐作用。
          按被引頻次排序,Lawrence的《因特網(wǎng)上信息的可獲取性》一文具有最高的被引頻次。該文通過對當時主流搜索引擎進行比較分析,提出這些搜索引擎的不足,比如對網(wǎng)頁的標引。當時的搜索引擎依據(jù)網(wǎng)頁的受歡迎程度以及網(wǎng)頁之間的鏈接進行標引,但這會導致對許多包含重要信息的新網(wǎng)頁的標引、檢索產(chǎn)生時滯。同時,針對當時搜索引擎覆蓋率不足的問題,作者 也提出許多見解。這些問題的提出,為以后搜索引擎的發(fā)展指明了方向。時至今日,這些問題得到了很大程度的改善,雖然網(wǎng)頁數(shù)量呈指數(shù)上升,但搜索引擎的覆蓋率還是有了長足的進步。而對于一些重要網(wǎng)頁比如新聞網(wǎng)頁的標引檢索也找到了一些對策。因此,該文是該領(lǐng)域最近十余年來具有里程碑意義的經(jīng)典文獻。
          Jansen的《真實的生活真實的用戶真實的需求:網(wǎng)上用戶需求研究和分析》一文排在第二。該文基于搜索引擎后臺的數(shù)據(jù)庫事物日志對搜索引擎用戶的使用習慣進行了分析,得出了一些有意義的結(jié)論。諸如:在檢索的時候用戶使用的關(guān)鍵詞很少,一半的用戶只有一個檢索詞;大約只有5%的人使用到了搜索引擎提供的相關(guān)反饋;而對于一些諸如布爾檢索等高級檢索技巧,使用者也是微乎其微等。Jansen的研究為搜索引擎的研究從純技術(shù)角度之外開辟了新的途徑。所以,現(xiàn)在很多搜索引擎廠商都非常注重后臺用戶數(shù)據(jù)庫的建設與使用,通過對這些數(shù)據(jù)挖掘得出一些富有成效的結(jié)論,同時與用戶保持互動,通過用戶的反饋來提高檢索的性能,增加用戶的體驗感。
          排在第三位的同樣是Lawrence的《搜索萬維網(wǎng)》,這篇發(fā)表在Science上的文章寫于1998年,《因特網(wǎng)上信息的可獲取性》一文是該文的后續(xù)研究。該文對萬維網(wǎng)搜索引擎的覆蓋率問題進行了研究。對于當時的搜索引擎覆蓋率過低問題,作者通過一系列的實驗證明使用元搜索引擎是一種比較好的解決途徑。對于科學家尋找學術(shù)信息困難的問題,也提出了一些方案,是一篇具有開拓意義的經(jīng)典文獻。
          《大型超文本網(wǎng)絡搜索引擎的剖析》是谷歌創(chuàng)始人布林與佩奇寫的文章。該文首次對大型網(wǎng)絡搜索引擎進行了深層次的介紹,同時還對利用超文本中的附加信息改善搜索結(jié)果進行了研究,是谷歌創(chuàng)立的基礎及原型。多次被Search Engine Watch評為“最杰出的搜索引擎”的谷歌的成功吸引了很多相關(guān)研究者對此文的關(guān)注,該文在谷歌學術(shù)中被引頻次達到了驚人的6477次,當仁不讓地成為了該領(lǐng)域的經(jīng)典文獻。
          康奈爾大學Kleinberg的《超鏈接環(huán)境中的權(quán)威資源》在谷歌學術(shù)上的被引頻次也高達4896。該文提出的中心問題是:對于某個檢索主題,會有很多的相關(guān)信息,那么如何從這么多的信息中準確定位對于用戶有用的信息呢?作者提出了一種基于互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)的“權(quán)威度”概念來大大縮小檢索范圍,同時提出一套行之有效的算法工具來鑒定這樣的資源。
          另外,這9篇經(jīng)典文獻中有2篇是發(fā)表在《美國醫(yī)學協(xié)會學報》這本醫(yī)學權(quán)威期刊上,主要探討了如何有效準確利用因特網(wǎng)上的醫(yī)學醫(yī)療信息,是相關(guān)醫(yī)學醫(yī)療搜索引擎研究的經(jīng)典文獻。
          
          5 結(jié)語
          
          本文對國際網(wǎng)絡搜索引擎領(lǐng)域十多年來的相關(guān)文獻從不同的角度作了比較細致的考察,生成了若干張圖表,明晰了目前的研究現(xiàn)狀,辨別出了該領(lǐng)域的核心作者與核心研究機構(gòu)。同時,通過對關(guān)鍵詞的分析,也把握了該領(lǐng)域的研究熱點,目前的研究主要集中于搜索引擎的基本理論、檢索效率質(zhì)量、用戶使用習慣、語義網(wǎng)技術(shù)、醫(yī)學搜索引擎等;并進一步對該領(lǐng)域的經(jīng)典文獻進行了分析以明晰研究熱點,這些文獻跟目前的研究熱點有很大的相關(guān)性并且是研究的基礎,很多文獻作出了開創(chuàng)性的貢獻,具有研究的風向標作用。但限于水平與篇幅,很多定性分析都未能深入,這是以后研究需要改進的地方。

        相關(guān)熱詞搜索:圖譜 現(xiàn)狀 搜索引擎 基于知識圖譜的國際網(wǎng)絡搜索引擎研究現(xiàn)狀與前沿分析 知識圖譜研究現(xiàn)狀和趨勢 國內(nèi)外知識圖譜

        版權(quán)所有 蒲公英文摘 smilezhuce.com