最早的網(wǎng)絡(luò)搜索引擎是( ) 網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎研究

發(fā)布時(shí)間:2020-03-07 來(lái)源: 歷史回眸點(diǎn)擊：

　　摘要　認(rèn)為搜索引擎是網(wǎng)絡(luò)信息計(jì)量研究中重要的數(shù)據(jù)收集工具，但也存在著覆蓋率低等不足之處，開(kāi)發(fā)專(zhuān)業(yè)搜索引擎將是未來(lái)的發(fā)展重點(diǎn)；另一方面，搜索引擎還是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究對(duì)象，其研究?jī)?nèi)容包括評(píng)價(jià)研究、應(yīng)用研究和改進(jìn)研究三個(gè)方面，所取得的研究成果可以有力地促進(jìn)搜索引擎的發(fā)展。
　　關(guān)鍵詞　網(wǎng)絡(luò)信息計(jì)量學(xué)　搜索引擎　數(shù)據(jù)收集
　　分類(lèi)號(hào)　G350
　　
　　隨著互聯(lián)網(wǎng)(Internet)的不斷擴(kuò)展和功能的不斷增強(qiáng)，搜索引擎(Search Engine)在網(wǎng)絡(luò)社會(huì)中的地位日益重要。對(duì)于科學(xué)工作者來(lái)說(shuō)，搜索引擎研究已成為諸多科學(xué)領(lǐng)域所關(guān)注的焦點(diǎn)。但是，在情報(bào)學(xué)領(lǐng)域，人們對(duì)“搜索引擎”的認(rèn)識(shí)始終停留在“工具”的層面。即使有所嘗試，也因?yàn)槿狈线m的切入點(diǎn)，而難以真正介入到這一熱門(mén)的研究領(lǐng)域中。本文的討論正是在這一背景下提出來(lái)的。我們認(rèn)為，搜索引擎既是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究工具，也是重要的研究?jī)?nèi)容，兩者之間存在著十分密切的聯(lián)系，對(duì)兩者進(jìn)行綜合研究具有十分重要的科學(xué)意義和廣闊的發(fā)展前景。
　　
　　1　搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用
　　
　　1.1　搜索引擎的重要作用
　　對(duì)于任何計(jì)量科學(xué)研究來(lái)說(shuō)，系統(tǒng)、全面地收集所需要的原始數(shù)據(jù)都是開(kāi)展研究的基本前提。因此，數(shù)據(jù)收集方法始終是網(wǎng)絡(luò)信息計(jì)量學(xué)重點(diǎn)研究的問(wèn)題。
　　目前用于網(wǎng)絡(luò)信息計(jì)量研究的原始數(shù)據(jù)主要有兩種來(lái)源：結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)資源，主要是連接到互聯(lián)網(wǎng)上的各種專(zhuān)用數(shù)據(jù)庫(kù)，包括各種聯(lián)機(jī)信息系統(tǒng)、引文索引、全文數(shù)據(jù)庫(kù)、專(zhuān)題網(wǎng)站等。這類(lèi)數(shù)據(jù)資源屬于高度組織化的信息資源，并配備有專(zhuān)用的信息檢索工具，使用方便，數(shù)據(jù)可靠，但數(shù)量有限，成本較高，而且其數(shù)據(jù)一般都不能直接用于網(wǎng)絡(luò)信息計(jì)量研究，需要進(jìn)一步挖掘；非結(jié)構(gòu)化數(shù)據(jù)：網(wǎng)上擁有大量的自然語(yǔ)言文本、圖像、聲音等數(shù)據(jù)，無(wú)法用統(tǒng)一的結(jié)構(gòu)表示，被稱(chēng)為“非結(jié)構(gòu)化數(shù)據(jù)”。這類(lèi)數(shù)據(jù)中隱含著許多非常有價(jià)值的信息，如能加以開(kāi)發(fā)利用，將產(chǎn)生巨大的效益。但是，由于具有內(nèi)容豐富、類(lèi)型多樣、數(shù)量巨大、結(jié)構(gòu)復(fù)雜、變化頻繁、質(zhì)量不一等特點(diǎn)，對(duì)其進(jìn)行開(kāi)發(fā)利用的難度很大。就目前來(lái)看，人們主要依靠各種商業(yè)“搜索引擎”來(lái)搜集這類(lèi)“非結(jié)構(gòu)化數(shù)據(jù)”。
　　網(wǎng)絡(luò)信息計(jì)量學(xué)作為一門(mén)以“網(wǎng)絡(luò)信息”為研究對(duì)象的計(jì)量學(xué)科，自其誕生之日起，就與搜索引擎結(jié)下了不解之緣。從最早的T.C.Almind和Peter Ingwersen所做的研究開(kāi)始，一直到今天，相當(dāng)多的網(wǎng)絡(luò)信息計(jì)量學(xué)研究者都依靠搜索引擎來(lái)收集數(shù)據(jù)。所用到的搜索引擎也是種類(lèi)繁多，特點(diǎn)各異，包括AltaVista、AUTheWeb、Northernlight、Google、Excite、Lvcos、HotBot、Infoseek等在內(nèi)的眾多知名搜索引擎都曾被應(yīng)用于數(shù)據(jù)搜集工作中�？梢哉f(shuō)，沒(méi)有搜索引擎，網(wǎng)絡(luò)信息計(jì)量學(xué)就失去了有效的研究手段，不可能得到如此迅速的發(fā)展，搜索引擎無(wú)疑是當(dāng)前網(wǎng)絡(luò)信息計(jì)量研究中最重要的數(shù)據(jù)收集工具之一。
　　應(yīng)用搜索引擎的首要問(wèn)題就是選擇合適的搜索引擎。互聯(lián)網(wǎng)上的搜索引擎數(shù)量眾多，且處于不斷增長(zhǎng)之中，但并非每個(gè)搜索引擎都適合于網(wǎng)絡(luò)信息計(jì)量研究。這就需要我們時(shí)刻關(guān)注搜索引擎的最新進(jìn)展情況，充分掌握各種搜索引擎的功能特點(diǎn)，在實(shí)踐中根據(jù)具體的研究目標(biāo)和研究對(duì)象，選擇最合適的搜索引擎。就目前而言，AltaVista(www.省略)由于其檢索功能強(qiáng)，檢索途徑多，能滿(mǎn)足多種計(jì)量的需要等優(yōu)點(diǎn)，成為迄今為止在網(wǎng)絡(luò)信息計(jì)量研究中應(yīng)用最多的搜集引擎。除了選擇合適的搜索引擎之外，恰當(dāng)?shù)厥褂盟瑯邮怯绊憯?shù)據(jù)收集效果的關(guān)鍵。其中最重要的環(huán)節(jié)就是檢索語(yǔ)句的編制。這要求我們要充分掌握搜索引擎的語(yǔ)法格式、指令功能及其正確的使用方法，最終確定高效率、高質(zhì)量的檢索語(yǔ)句來(lái)達(dá)到研究目的。例如，Ray R.Larson在其研究中就靈活使用了AltaVista的高級(jí)檢索式：“l(fā)ink：pubweb.parc.省略／map AND link：xtreme.gsfc.nasa.gov”，來(lái)獲取同時(shí)指向兩個(gè)網(wǎng)址的網(wǎng)頁(yè)。近年來(lái)，隨著搜索引擎技術(shù)的迅速發(fā)展，越來(lái)越多的搜索引擎也提供了強(qiáng)大的檢索功能，使研究者們有了更多的選擇。一般來(lái)講，搜索引擎的基本使用方法可查閱有關(guān)的參考書(shū)或者搜索引擎網(wǎng)站上的幫助文件。但是，更復(fù)雜的使用方法和對(duì)使用效果的評(píng)價(jià)則需要研究者的反復(fù)實(shí)驗(yàn)和系統(tǒng)總結(jié)。
　　
　　1.2　搜索引擎的不足之處
　　盡管搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中具有如此重要的地位，已成為不可或缺的數(shù)據(jù)收集工具。但與此同時(shí)，搜索引擎在實(shí)踐中也表現(xiàn)出了種種局限性，使其檢索效果一直深受質(zhì)疑，并直接影響到了整個(gè)網(wǎng)絡(luò)信息計(jì)量研究的可靠性和合理性。
　　簡(jiǎn)單地說(shuō)，搜索引擎的設(shè)計(jì)目標(biāo)可以用“全”、“準(zhǔn)”、“快”來(lái)概括，與之對(duì)應(yīng)的是評(píng)價(jià)搜索引擎性能的三個(gè)主要指標(biāo)：查全率(Recall Ratio)、查準(zhǔn)率(Precision Ratio)和響應(yīng)速度。對(duì)于一般的網(wǎng)絡(luò)用戶(hù)來(lái)說(shuō)，“查準(zhǔn)率”是上述指標(biāo)中最為重要的，這也使得近年來(lái)搜索引擎的進(jìn)步主要表現(xiàn)在“查準(zhǔn)率”的提高上。但是，對(duì)于以數(shù)理統(tǒng)計(jì)為基礎(chǔ)的計(jì)量學(xué)科來(lái)說(shuō)，數(shù)據(jù)的“查全率”無(wú)疑具有更加重要的意義。因此，我們?cè)诰W(wǎng)絡(luò)信息計(jì)量研究當(dāng)中所使用的搜索引擎，應(yīng)該覆蓋盡量大的網(wǎng)絡(luò)，這樣才能得到較為全面的研究數(shù)據(jù)。那么，搜索引擎到底覆蓋了多少網(wǎng)絡(luò)呢?
　　上世紀(jì)末，NEC美國(guó)研究所(NEC Research Institute.NE－CI)的Steve Lawrence和C，Lee Giles對(duì)AhaVista、Coogle、Hot－Bot、InfoSeek、Lycos、Northern Light、Snap、Yahoo!等主要商業(yè)搜索引擎的網(wǎng)絡(luò)空間覆蓋范圍進(jìn)行了全面而深入的研究，結(jié)果于1998年和1999年連續(xù)發(fā)表在Science和Nature上。他們的研究表明：盡管處于信息技術(shù)飛速發(fā)展的時(shí)代，單一搜索引擎的最大覆蓋率在兩年內(nèi)卻由34％降低到16％。這是因?yàn)�，盡管隨著網(wǎng)絡(luò)信息檢索技術(shù)不斷提高，搜索引擎所能檢索的信息量在絕對(duì)數(shù)量上不斷擴(kuò)展，但其增長(zhǎng)速度依然落后于網(wǎng)絡(luò)的增長(zhǎng)速度，這就導(dǎo)致搜索引擎原本就不高的覆蓋率繼續(xù)縮小。而事實(shí)上，情況還要糟糕得多。Lawrence等人在研究中引入了“可索引的萬(wàn)維網(wǎng)”(Indexable Web)的概念，將其測(cè)量范圍限定在“能被搜索引擎編入索引的萬(wàn)維網(wǎng)”。那么，“不可索引”的部分呢?2001年，以Michael K.省略)的研究者將網(wǎng)絡(luò)明確劃分為表層網(wǎng)絡(luò)(Surface Web)和深層網(wǎng)絡(luò)(Deep Web)。前者相當(dāng)于Lawrence和Giles所測(cè)量的“可索引的萬(wàn)維網(wǎng)”，后者就相當(dāng)于剩余的“不可索引的萬(wàn)維網(wǎng)”。他們采用交達(dá)分析(Overlap Analysis)估算出“深層網(wǎng)絡(luò)”的信息量是“表層網(wǎng)絡(luò)”的500倍，且前者的信息增長(zhǎng)速度大于后者。美國(guó)“How much information?”研究小組的報(bào)告進(jìn)一步表明：前者是后者的550倍，證實(shí)了BrightPlanet公司的結(jié)論。綜合以上研究成果，我們可以估算出一個(gè)令人沮喪的結(jié)論：最大覆蓋率的搜索引擎在1999年的時(shí)候僅僅覆蓋了0.03％(=0.16／550)的網(wǎng)絡(luò)信息資源(包括“表層網(wǎng)絡(luò)”與“深層網(wǎng)絡(luò)”)。而且，按照Lawrence等人的研究結(jié)果來(lái)推論，這一比例還在繼續(xù)縮小當(dāng)中。
　　搜索引擎的覆蓋率如此之低，其適用范圍自然大打折扣。正如龐景安所言：“由于通常搜索引擎對(duì)Web的覆蓋率有限，所以對(duì)這類(lèi)統(tǒng)計(jì)結(jié)果應(yīng)謹(jǐn)慎處理，避免產(chǎn)生荒謬的結(jié)論”。除此之外，搜索引擎還存在使用不便、效率低下、功能不足、穩(wěn)定性差、精度不高、缺乏客觀性等其他不足，同樣限制了其在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用。尤其是商業(yè)利益的驅(qū)動(dòng)，使得“商業(yè)搜索引擎的數(shù)據(jù)收集和排列，往往受到收費(fèi)的影響和支配，而導(dǎo)致數(shù)據(jù)的不可信”。Herbert Snyder等人更是一針見(jiàn)血地指出：“搜索引擎種種局限性的根源既不在于Web的固有屬性，也不在于網(wǎng)絡(luò)信息檢索的技術(shù)問(wèn)題，而在于商業(yè)搜索引擎的‘市場(chǎng)驅(qū)動(dòng)(market－driven)’本質(zhì)”。
　　
　　1.3　困境與展望
　　一方面，搜索引擎是網(wǎng)絡(luò)信息計(jì)量研究不可或缺的工具；另一方面，搜索引擎所具有的種種局限性，又使得網(wǎng)絡(luò)數(shù)據(jù)的搜集仍然缺乏普遍有效的方法，嚴(yán)重制約著網(wǎng)絡(luò)信息計(jì)量學(xué)的發(fā)展。多年來(lái)，研究者們?yōu)榱送黄七@一困境，一直進(jìn)行著不懈的努力。從目前來(lái)看，主要有以下幾個(gè)發(fā)展方向：
　　?開(kāi)發(fā)專(zhuān)用工具。為了提高數(shù)據(jù)收集效果，一些學(xué)者針對(duì)特定的研究對(duì)象和研究目的，開(kāi)發(fā)了專(zhuān)用的數(shù)據(jù)搜集工具，以實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)收集和篩選工作。例如。Alastair G Smith和Mike Thewall在研究中就使用了自己設(shè)計(jì)的“爬行器”�！皩�(zhuān)用工具”雖然具有“量身定做”的優(yōu)勢(shì)，但開(kāi)發(fā)周期過(guò)長(zhǎng)、投入過(guò)多、技術(shù)門(mén)檻過(guò)高使得這種方案難以推廣。
　　?利用網(wǎng)絡(luò)信息查詢(xún)平臺(tái)。近年來(lái)，網(wǎng)絡(luò)上出現(xiàn)了一些專(zhuān)門(mén)的信息統(tǒng)計(jì)網(wǎng)站，它們提供的統(tǒng)計(jì)數(shù)據(jù)類(lèi)似于傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的“二次文獻(xiàn)”，可以作為開(kāi)展網(wǎng)絡(luò)信息計(jì)量研究的數(shù)據(jù)來(lái)源。例如，“Alexa”(www.省略)就提供了關(guān)于網(wǎng)站統(tǒng)計(jì)(site Stats)、聯(lián)系方式(Contact Info)、流量細(xì)節(jié)(Traf－fic Details)、相關(guān)鏈接(Related Links)等方面的信息。再如，BrightPlanet公司開(kāi)發(fā)的DQM(Deep Query Manager)平臺(tái)就是一個(gè)集信息發(fā)現(xiàn)、收割(harrest)、管理和分析于一體的深層網(wǎng)絡(luò)信息查詢(xún)平臺(tái)，不僅可以對(duì)位于“深層網(wǎng)絡(luò)”數(shù)據(jù)庫(kù)進(jìn)行信息查詢(xún)，還可同時(shí)對(duì)網(wǎng)絡(luò)上成百上千個(gè)搜索引擎、目錄索引和聯(lián)網(wǎng)數(shù)據(jù)庫(kù)中的信息進(jìn)行自動(dòng)收割。但是，這些平臺(tái)有的還處于起步階段，技術(shù)水平較低，涵蓋范圍有限，難以推廣應(yīng)用；有的需要收費(fèi)，成本較高，利用困難。
　　?專(zhuān)業(yè)搜索引擎。搜索引擎作為IT行業(yè)中炙手可熱的投資領(lǐng)域和研究熱點(diǎn)，許多國(guó)家都投入巨大了資源進(jìn)行研究，由此產(chǎn)生的技術(shù)成果自然十分豐富。如果能夠擺脫“商業(yè)搜索引擎”這種通用工具的種種局限性，同時(shí)又能夠充分利用搜索引擎的技術(shù)優(yōu)勢(shì)，無(wú)疑是最理想的選擇。以此為出發(fā)點(diǎn)，人們開(kāi)始將注意力投入到“專(zhuān)業(yè)搜索引擎”的開(kāi)發(fā)中。這種搜索引擎將檢索范圍限定在一定的專(zhuān)業(yè)領(lǐng)域內(nèi)，提高了檢索結(jié)果的有效性。有些還依托特定的數(shù)據(jù)庫(kù)，使得“查全率”得到大幅度提高，對(duì)于某一領(lǐng)域的特定研究工作是很有效的工具。從總體上來(lái)看，開(kāi)發(fā)“專(zhuān)業(yè)搜索引擎”是最被看好的發(fā)展方向，受到許多搜索引擎廠商的重視。
　　
　　2　網(wǎng)絡(luò)信息計(jì)量學(xué)中的搜索引擎研究
　　
　　以上，我們探討了搜索引擎在網(wǎng)絡(luò)信息計(jì)量研究中的應(yīng)用，它作為數(shù)據(jù)收集工具，其重要性是顯而易見(jiàn)的。但在另一方面，卻很少有人意識(shí)到，搜索引擎同時(shí)是該領(lǐng)域重要的研究對(duì)象。事實(shí)上，針對(duì)搜索引擎的研究始終都滲透在各種網(wǎng)絡(luò)信息計(jì)量研究中，并取得了相當(dāng)多的有益成果。我們可以按照研究目的和內(nèi)容的不同，將這些成果大致分為評(píng)價(jià)研究、應(yīng)用研究和改進(jìn)研究等三個(gè)方面。
　　
　　2.1　搜索引擎評(píng)價(jià)研究
　　如前所述，選擇合適的搜索引擎是應(yīng)用搜索引擎收集數(shù)據(jù)的首要問(wèn)題。搜索引擎評(píng)價(jià)研究的目的正是通過(guò)對(duì)搜索引擎的各個(gè)性能指標(biāo)進(jìn)行比較分析，探討各種搜索引擎的功能特點(diǎn)和適用范圍，為研究人員選擇適合的搜索引擎提供依據(jù)。
　　對(duì)搜索引擎進(jìn)行時(shí)序跟蹤研究是研究者們最常采用的研究方法。這種方法按照一定間隔，在某些特定時(shí)間點(diǎn)上收錄搜索引擎檢索結(jié)果的數(shù)量、相關(guān)性及其結(jié)構(gòu)特征，以便觀察是否有大量的變化、不一致性或不規(guī)則的現(xiàn)象，探討搜索引擎的穩(wěn)定性問(wèn)題和成長(zhǎng)狀況。例如，Rousseau 于1999年對(duì)Altavista和NorthernLight進(jìn)行了21周的連續(xù)跟蹤研究。結(jié)果顯示，隨著網(wǎng)頁(yè)的成長(zhǎng)NorthernLight檢索的數(shù)據(jù)亦呈穩(wěn)步增長(zhǎng)，這與網(wǎng)絡(luò)發(fā)展的步調(diào)是一致的。而Altavista的結(jié)果在某一特定日期前始終處于很大的變化之中，檢索結(jié)果不穩(wěn)定，直到后來(lái)系統(tǒng)重建才進(jìn)入到一個(gè)相對(duì)穩(wěn)定階段。他建議利用中值篩選(Median Filtering)來(lái)降低這種不穩(wěn)定性對(duì)檢出結(jié)果的影響。再如，Judit Bar－Ilan 分別在1998年和1999年對(duì)當(dāng)時(shí)6個(gè)主要的搜索引擎進(jìn)行了連續(xù)幾個(gè)月的跟蹤研究，專(zhuān)門(mén)研究搜索引擎檢索結(jié)果的變化及其原因。MikeThelwaU 則通過(guò)對(duì)多個(gè)搜索引擎為期7個(gè)月的跟蹤研究，得出了Coogle實(shí)時(shí)勝最強(qiáng)，而AltaVista最穩(wěn)定的結(jié)論。2001年，夏旭等人對(duì)性能較好的10種醫(yī)學(xué)搜索引擎進(jìn)行檢索和比較分析，結(jié)果發(fā)現(xiàn)醫(yī)學(xué)搜索引擎的覆蓋范圍有限，而且檢索結(jié)果的相關(guān)性不如通用引擎。此外，還有的研究者致力于搜索引擎評(píng)價(jià)的方法研究上，探討如何對(duì)各種搜索引擎的性能進(jìn)行綜合評(píng)價(jià)。例如，1997年，Clarke和Willet 就提出了現(xiàn)實(shí)可行的搜索引擎評(píng)價(jià)方法，并對(duì)AltaVista、Excite以及Lycos三個(gè)搜尋引擎作了比較，結(jié)果發(fā)現(xiàn)AltaVista的性能明顯優(yōu)于Excite和Lycos。
　　
　　2.2　搜索引擎應(yīng)用研究
　　盡管目前的搜索引擎存在著種種局限性，但在相當(dāng)長(zhǎng)的時(shí)間內(nèi)，它們?nèi)詫⑹蔷W(wǎng)絡(luò)信息計(jì)量研究者們主要依靠的數(shù)據(jù)收集工具。那么，如何在現(xiàn)有條件下利用搜索引擎獲得盡量“優(yōu)質(zhì)”的研究數(shù)據(jù)就成為一項(xiàng)有意義的研究工作。為此，網(wǎng)絡(luò)信息計(jì)量學(xué)的研究者們也做了很多有益的嘗試。例如，Steve Lawrence和C.Lee Gilest就曾指出，為了克服單一引擎的局限性，可將幾個(gè)主要引擎結(jié)合起來(lái)使用，也可通過(guò)利用一些具有自動(dòng)抓取功能的研究型搜索引擎來(lái)獲得信息。他們的研究結(jié)果表明，多個(gè)搜索引擎的覆蓋范圍組合之和是估計(jì)總頁(yè)數(shù)的42％，遠(yuǎn)高于單一搜索引擎最大16％的覆蓋率。2001年，Alastair G Smith和Mike Thewall自己設(shè)計(jì)的爬行器和A1taVista進(jìn)行了比較，結(jié)果表明：A1taVista更便于做探索性研究，專(zhuān)門(mén)的爬行器在驗(yàn)證性的研究上要好一些。2005年，呂俊生等人對(duì)用于網(wǎng)絡(luò)鏈接關(guān)系檢索的搜索引擎進(jìn)行了系統(tǒng)的調(diào)研分析，提出了用于鏈接分析的搜索引擎的選擇方案。2006年，楊木容對(duì)國(guó)內(nèi)鏈接分析中使用的主要搜索引擎進(jìn)行了比較分析，明確指出需要進(jìn)一步開(kāi)發(fā)針對(duì)網(wǎng)絡(luò)鏈接分析研究的專(zhuān)門(mén)搜索引擎。
　　還有的學(xué)者提出通過(guò)對(duì)檢索結(jié)果的二次加工來(lái)提高檢索結(jié)果的有效性。例如，2003年，肖建華等人提出的二次搜索系統(tǒng)，就借助鏈接分析技術(shù)，對(duì)搜索引擎搜索結(jié)果進(jìn)行再次處理，為用戶(hù)提供一個(gè)高質(zhì)量的搜索結(jié)果。
　　
　　2.3　搜索引擎改進(jìn)研究
　　隨著搜索引擎的地位日益提高，如何利用信息科學(xué)技術(shù)的新成果、新方法、新工具改進(jìn)搜索引擎的搜索效果，提高搜索引擎的性能已成為互聯(lián)網(wǎng)行業(yè)乃至整個(gè)IT領(lǐng)域的關(guān)注焦點(diǎn)。一直以來(lái)，搜索引擎的開(kāi)發(fā)和改進(jìn)，似乎都是計(jì)算機(jī)、網(wǎng)絡(luò)、通訊、軟件工程等信息技術(shù)專(zhuān)業(yè)的專(zhuān)利。但事實(shí)上，網(wǎng)絡(luò)信息計(jì)量學(xué)作為研究網(wǎng)絡(luò)信息的數(shù)量特征和內(nèi)在規(guī)律的科學(xué)學(xué)科，它的許多研究成果同樣可用于搜索引擎的改進(jìn)當(dāng)中。下面，我們?cè)嚺e一例。
　　一個(gè)搜索引擎系統(tǒng)的核心是其所采用的“信息檢索模型”，包括文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結(jié)果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機(jī)制等諸要素。正如前文所述，“查詢(xún)結(jié)果的排序’’在很大程度上決定了搜索引擎的性能。在過(guò)去，搜索引擎主要采用人工判斷、競(jìng)價(jià)排名、檢索詞頻率、登錄時(shí)間、索引順序等方式來(lái)確定排序標(biāo)準(zhǔn)。但由于主觀性強(qiáng)、效率低下、商業(yè)因素的干擾等原因，這些排序方法的效果都不太理想。
　　近年來(lái)，許多研究者發(fā)現(xiàn)，網(wǎng)絡(luò)上的鏈接結(jié)構(gòu)是個(gè)非常豐富和重要的資源，通過(guò)對(duì)鏈接結(jié)構(gòu)進(jìn)行分析來(lái)確定網(wǎng)頁(yè)的重要性，作為檢索結(jié)果排序的依據(jù)，可以極大地提高檢索結(jié)果的質(zhì)量。其中最成功的例子莫過(guò)于“Google”。Google作為目前最好的搜索引擎之一，其體系結(jié)構(gòu)類(lèi)似于傳統(tǒng)的搜索引擎，但最大的不同處在于對(duì)網(wǎng)頁(yè)進(jìn)行了基于權(quán)威值的排序處理，使“最重要的”網(wǎng)頁(yè)出現(xiàn)在結(jié)果的最前面。這種重要的網(wǎng)頁(yè)被稱(chēng)為“權(quán)威(Authoritive)網(wǎng)頁(yè)”，其判斷依據(jù)是SergeyBrin和Lawrence Page創(chuàng)立的Pagerank算法。他們使用該算法計(jì)算出網(wǎng)頁(yè)的“Pagerank值”，其含義是：“假定用戶(hù)一開(kāi)始隨機(jī)訪(fǎng)問(wèn)網(wǎng)頁(yè)集合中的一個(gè)網(wǎng)頁(yè)，以后跟隨網(wǎng)頁(yè)的向外鏈接向前瀏覽網(wǎng)頁(yè)，不回退瀏覽，瀏覽下一個(gè)網(wǎng)頁(yè)的概率就是被瀏覽網(wǎng)頁(yè)的PageRank值”。簡(jiǎn)單而言，Pagerank算法的基本前提是：一個(gè)網(wǎng)頁(yè)被多次引用，則它可能是很重要的；一個(gè)網(wǎng)頁(yè)雖然沒(méi)有被多次引用，但是被重要的網(wǎng)頁(yè)引用，則它也可能是很重要的；一個(gè)網(wǎng)頁(yè)的重要性被平均的傳遞到它所引用的網(wǎng)頁(yè)。顯然，這一基本前提與傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的引文分析法的基本思想如出一轍，可以說(shuō)是網(wǎng)絡(luò)信息計(jì)量學(xué)特征方法的典型應(yīng)用。
　　
　　3　結(jié)語(yǔ)
　　
　　綜上所述，網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎之間存在著十分密切的聯(lián)系，兩個(gè)領(lǐng)域的研究工作是相輔相成、互相促進(jìn)的關(guān)系。一方面，過(guò)去和現(xiàn)階段的網(wǎng)絡(luò)信息計(jì)量研究主要依賴(lài)搜索引擎來(lái)獲取原始數(shù)據(jù)，搜索引擎的進(jìn)步將為網(wǎng)絡(luò)信息計(jì)量學(xué)提供更加有效的數(shù)據(jù)收集手段；另一方面，搜索引擎一直以來(lái)都是網(wǎng)絡(luò)信息計(jì)量學(xué)的重要研究對(duì)象，所取得的研究成果可以有力地促進(jìn)搜索引擎的發(fā)展。因此，我們有理由相信，把網(wǎng)絡(luò)信息計(jì)量學(xué)研究與搜索引擎研究結(jié)合起來(lái)，在這一交叉領(lǐng)域開(kāi)展綜合性、系統(tǒng)性的研究，將是一項(xiàng)十分有意義的研究工作。本文就這一問(wèn)題進(jìn)行了初步探討，權(quán)作引玉之磚，希望能為研究者們提供可咨借鑒的參考。

熱點(diǎn)文章閱讀

唐功紅被剝奪金牌【劉春紅：將 2020-03-11
歌頌新中國(guó)的詩(shī)詞及作者 2022-08-12
楊顯惠　揭開(kāi)夾邊溝事件真相 2020-04-11
王立軍:“打黑市長(zhǎng)”的英雄傳 2020-03-05
歌頌新中國(guó)的詩(shī)詞 2022-09-02
奇辱大恥:中國(guó)“頭號(hào)警花”淪 2020-03-05
中國(guó)教育部歷任部長(zhǎng)【中國(guó)教育 2020-03-17
億萬(wàn)富翁孫大午被捕之后 2020-04-10
“點(diǎn)子大王”何陽(yáng)的江湖人生 2020-03-05
[乙肝：向“治愈”挺進(jìn)]我國(guó)乙 2020-04-08

东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

最早的網(wǎng)絡(luò)搜索引擎是( ) 網(wǎng)絡(luò)信息計(jì)量學(xué)與搜索引擎研究

熱點(diǎn)文章閱讀