东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

        [網(wǎng)絡(luò)使用因子的缺陷及改進]遺傳缺陷因子

        發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:

          [摘要]網(wǎng)絡(luò)使用因子反映桌一國家或網(wǎng)站的網(wǎng)頁指向其他網(wǎng)頁能力的分布情況,可用于測度某一國家或網(wǎng)站的鏈接分布特征。網(wǎng)絡(luò)使用因子自誕生起就不可避免的存在一些缺陷,尤其是假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面。建議開發(fā)專業(yè)鏈接分析工具,構(gòu)建鏈接分類體系,對不同類型的鏈接進行加權(quán)得到“加權(quán)出鏈數(shù)”,并據(jù)此計算“加權(quán)網(wǎng)絡(luò)使用因子”。
          [關(guān)鍵詞]出鏈數(shù) 網(wǎng)絡(luò)使用因子 鏈接分析工具 加權(quán)網(wǎng)絡(luò)使用因子
          [分類號]G353.1
          
          在圖書情報領(lǐng)域,鏈接分析已成為學(xué)術(shù)研究熱點,從最初的介紹性研究到越來越多的實證研究,其研究日益深入實際應(yīng)用。在實證研究中,某些鏈接指標(biāo)備受爭議。鏈接分析計量指標(biāo)大體可分為4類:①鏈接數(shù)量特征計量指標(biāo):總鏈接數(shù)、出鏈數(shù);②鏈接分布特征計量指標(biāo):鏈接密度、頁面平均鏈接數(shù)、網(wǎng)絡(luò)使用因子;③網(wǎng)站影響力計量指標(biāo):入鏈數(shù)、網(wǎng)絡(luò)影響因子、鏈接傾向;④網(wǎng)頁重要性計量指標(biāo):Pagerank算法、HITS算法等。因為對鏈接的討論往往只涉及大學(xué)網(wǎng)站的入鏈數(shù),而較少涉及大學(xué)網(wǎng)站的出鏈數(shù),導(dǎo)致與出鏈數(shù)密切相關(guān)的網(wǎng)絡(luò)使用因子在應(yīng)用廣泛性、受關(guān)注度方面遜色于網(wǎng)絡(luò)影響因子(Web Impact Factors,WIF)。本文對網(wǎng)絡(luò)使用因子在鏈接分析中存在的缺陷進行探討,并提出一些改進意見。
          
          1 網(wǎng)絡(luò)使用因子簡介
          
          1.1 網(wǎng)絡(luò)使用因子的起源及概念
          網(wǎng)絡(luò)使用因子(Web Use Factors,WUF)是反映某一國家或網(wǎng)站的網(wǎng)頁指向其他網(wǎng)頁能力的分布情況的計量指標(biāo),可用來測度某一國家或網(wǎng)站的鏈接分布特征。長期以來,對鏈接的討論只涉及大學(xué)網(wǎng)站的入鏈數(shù),而沒有涉及大學(xué)網(wǎng)站的出鏈數(shù)。直到2003年Thelwall M.省略WUF可根據(jù)有.con域名的鏈接網(wǎng)頁來計算。對網(wǎng)絡(luò)不同區(qū)域在計算上的限制,要求對不同類型網(wǎng)頁如國內(nèi)、國際、教育、商業(yè)網(wǎng)頁進行比較。另外,解釋頂級域名如.tom、edu、uk的計算結(jié)果時必須謹(jǐn)慎,因為不能只從表面解釋頂級域名。例如,.省略域名,并且在現(xiàn)實中,.com域名包含了龐雜無章的各類信息;即使是.edu域名也不局限于美國的大學(xué)。
          
          1.2 網(wǎng)絡(luò)使用因子的算法
          出鏈數(shù)指從某個網(wǎng)頁出發(fā)的鏈接總數(shù)量。某一國家或網(wǎng)站的出鏈數(shù)除以網(wǎng)頁數(shù)、科研人員數(shù)或科研生產(chǎn)率便得到了網(wǎng)頁平均出鏈數(shù)、科研人員平均出鏈數(shù)或科研生產(chǎn)率平均出鏈數(shù),即WUF。如果一個國家的科研生產(chǎn)率數(shù)據(jù)很難獲得,并且有理由相信該國的大學(xué)在研究能力上相似,或者因為商業(yè)搜索引擎和專業(yè)網(wǎng)絡(luò)爬行工具覆蓋范圍的問題導(dǎo)致難以計算一個網(wǎng)站的網(wǎng)頁數(shù),則科研人員數(shù)就成為WUF的分母;但若科研人員數(shù)無法獲得,仍要用網(wǎng)頁數(shù)作分母。
          綜上所述,筆者用某一國家或網(wǎng)站的出鏈數(shù)作為分子,分別用該國家或網(wǎng)站的網(wǎng)頁數(shù)、科研人員數(shù)和科研生產(chǎn)率作為分母,得出WUF的不同算法,即:
          
          1.3 網(wǎng)絡(luò)使用因子的應(yīng)用
          其實,WUF在統(tǒng)計意義上的可信度并不比WIF低。WUF與平均科研生產(chǎn)率顯著相關(guān);科研生產(chǎn)率高的大學(xué)建立了更多出鏈,可能因為這些大學(xué)制作了數(shù)量更多、質(zhì)量更高的網(wǎng)頁。這與對入鏈原因的解釋也是密切相關(guān)的。
          WUF反映網(wǎng)站出鏈的平均量,通常WUF越高,說明網(wǎng)站利用其他網(wǎng)絡(luò)信息資源的程度越高,該網(wǎng)站的信息數(shù)量和質(zhì)量也就可能越高。某一網(wǎng)站可以通過WUF的計算知道該網(wǎng)站利用其他網(wǎng)絡(luò)信息資源的能力高低,以及利用其它網(wǎng)絡(luò)信息資源的迫切性,并促使該網(wǎng)站評估其網(wǎng)頁對其它網(wǎng)頁既往的鏈接中哪些是好的、需要繼續(xù)鏈接的,哪些是差的、需要終止鏈接的以及需要尋找并鏈向哪些新的、優(yōu)質(zhì)的網(wǎng)頁。雖然目前關(guān)于WUF應(yīng)用的專門的研究還很少,但WUF與WIF等計量指標(biāo)相結(jié)合,在網(wǎng)站建設(shè)和管理等方面有很大的應(yīng)用前景。
          
          2 網(wǎng)絡(luò)便用因子的缺陷
          
          2.1 假設(shè)前提方面存在的問題
          對鏈接的分析是基于一定假設(shè)前提的,不同假設(shè)基礎(chǔ)上的計量指標(biāo),其適用范圍不同。為了證明WUF賴以存在的假設(shè)前提難以成立,我們先看WIF成立的假設(shè)前提。李江在《鏈接分析工具》中將WIF的假設(shè)前提總結(jié)為:(A1)從網(wǎng)頁A指向網(wǎng)頁B的鏈接是網(wǎng)頁A對網(wǎng)頁B的推薦或認(rèn)可;(A2)所有鏈接都是等價的。該假設(shè)前提同樣適用于WUF,因為網(wǎng)頁A對網(wǎng)頁B網(wǎng)頁的出鏈就是網(wǎng)頁B對網(wǎng)頁A的入鏈。
          先從鏈接分類的角度來考查第一條假設(shè)前提是否合理。Smith A.G.將鏈接分為兩類:即實質(zhì)性鏈接和非實質(zhì)性鏈接,實質(zhì)性鏈接可理解為代表“推薦或認(rèn)可”,可用于WUF的計算,而非實質(zhì)性鏈接因為不代表“推薦或認(rèn)可”,不可用于計算WUF。文中,作者通過統(tǒng)計分析得出:所有鏈接中,實質(zhì)性鏈接約占20%;鏈接到大學(xué)網(wǎng)站的鏈接中,實質(zhì)性鏈接約占27%。Chu Heting將學(xué)術(shù)機構(gòu)網(wǎng)站的入鏈分為4類:即服務(wù)、主頁、研究、教學(xué),其中前兩類共占73%,后兩類占27%,并且僅有教學(xué)類的入鏈才可用作學(xué)術(shù)機構(gòu)的評估,能用于評價的人鏈不足27%。由此可見,盡管不同類型網(wǎng)站的鏈接類型不同和不同研究者從不同角度出發(fā)設(shè)立的分類體系迥異,但若把實質(zhì)性鏈接的比例看成WUF有效性的比例,則網(wǎng)WIJF的有效性比例僅為27%左右。
          第二條假設(shè)顯然也是不合理的,因為非實質(zhì)性鏈接對于WUF的計量是沒有價值的,即便同為實質(zhì)性鏈接,不同類型的實質(zhì)性鏈接也不可能具有同等的價值。其實,在WUF被提出之前,與WIF幾乎同時誕生的Pagerank算法在鏈接是否等價的問題上已提出更有說服力的表述:(B1)一個網(wǎng)頁盡管沒有被多次引用,但被一個重要網(wǎng)頁引用,則這個網(wǎng)頁很重要;(B2)一個網(wǎng)頁的重要性被均勻的分布并傳遞到它所引用的網(wǎng)頁。這個表述科學(xué)的多,但可惜的是,迄今為止,有關(guān)WUF的算法還沒有引入類似于Pagerank算法的表述。
          
          
          2.2 數(shù)據(jù)獲取方面存在的問題
          早期對出鏈數(shù)等指標(biāo)進行統(tǒng)計時,主要以商業(yè)搜索引擎Google、Altavista、Alltheweb等為工具。及至商 業(yè)搜索引擎的缺陷盡顯且無法避免,某些學(xué)者擇優(yōu)使用某些商業(yè)搜索引擎;另一些學(xué)者則嘗試使用自制的鏈接分析工具,但是自制鏈接分析工具也存在一定的缺陷。
          2.2.1 商業(yè)搜索引擎的覆蓋范圍有限眾所周知,動態(tài)性是網(wǎng)絡(luò)與生俱來的特性,每時每刻都有成千上萬的網(wǎng)頁出現(xiàn)或消失,因此任何一個搜索引擎都不可能覆蓋和采集到所有的網(wǎng)頁。有數(shù)據(jù)顯示(見表1),各搜索引擎收錄網(wǎng)頁的范圍各不相同,因而獲得的鏈接數(shù)據(jù)也不同。據(jù)估計,現(xiàn)在搜索引擎覆蓋網(wǎng)頁的數(shù)量只占總數(shù)的20%左右。袁毅認(rèn)為單個搜索引擎只能搜索到Web資源的16%,即使是幾個搜索引擎結(jié)合,也只能搜索到整個Web的30%~40%。伯克利信息管理系統(tǒng)的一項統(tǒng)計結(jié)果表明,2006年人類產(chǎn)生了約1000萬TB(不重復(fù))數(shù)據(jù),而搜索引擎覆蓋率最新調(diào)查顯示Google在2006年共組織了1085TB數(shù)據(jù),可見,Google僅僅組織了其中的0.02%。
          2.2.省略的網(wǎng)頁數(shù)量和反向鏈接數(shù)量進行檢索,發(fā)現(xiàn),各搜索引擎所得出的結(jié)果相差很大,如表2所示:
          
          其次,即使是同一搜索引擎,在不同時間段其檢索結(jié)果也有很大差異,通常,在高峰期的檢索結(jié)果,其可信度通常要低一些。
          再次,使用不同語法意義的檢索表達式,其檢索結(jié)果也不盡相同。對此,筆者在MltheWeb中進行了試驗,檢索結(jié)果如表3所示:
          2.2.3 自制鏈接分析工具功能簡單、使用范圍狹窄面對商業(yè)搜索引擎無法避免的缺陷,部分學(xué)者嘗試用自制鏈接分析工具取代商業(yè)搜索引擎或彌補其不足。其中較突出的有:Lei Cui等人參照引文分析法自制的“Checkweb”,用于分析鏈接狀況,為統(tǒng)計鏈接數(shù)量作準(zhǔn)備;Miekle Thelwall針對商業(yè)搜索引擎檢索結(jié)果的不一致性自制的“WIF web crawler”,用于測度WIF;段宇鋒自制的“Webstat”,用于鏈接分析的實證研究。但遺感的是,這些個人自制的鏈接分析工具因其專門性不可避免的具有功能簡單,使用范圍狹窄的缺陷。
          
          2.3 算法自身存在的問題
          2.3.1 分子存在的缺陷WIF借鑒JW算法的同時,陷入了JIF算法無法回避的缺陷,即無視入鏈的質(zhì)量差異,這也是WIF算法自身最大的缺陷。而WUF用出鏈數(shù)作分子,這與WIF很相近,因為網(wǎng)頁A對網(wǎng)頁B網(wǎng)頁的出鏈就是網(wǎng)頁B對網(wǎng)頁A的人鏈;因此,也存在與WIF類似的缺陷,即無視出鏈的質(zhì)量差異,這也是WUF在計量的準(zhǔn)確性方面存在的最大問題。
          2.3.2 分母存在的缺陷WUF算法的分母是該國家或網(wǎng)站的總網(wǎng)頁數(shù),但什么樣的內(nèi)容才能被當(dāng)作一個網(wǎng)頁并沒有公認(rèn)的標(biāo)準(zhǔn),一篇論文可以被視為一個網(wǎng)頁,該論文也可以被分為幾個網(wǎng)頁顯示從而被看作幾個網(wǎng)頁。舉個簡單的例子,某篇在線電子文檔向其它網(wǎng)站或網(wǎng)頁發(fā)出100個鏈接,若這篇電子文檔的內(nèi)容全部包含在一個頁面中,則其WUF為100,若其內(nèi)容被分成100個頁面顯示,則其WUF僅為1。這表明WUF會因電子文檔在Web上顯示形式的不同而迥異。
          2.3.3 整體存在的缺陷WUF不一定能反映網(wǎng)站真實的鏈接分布特征。假設(shè)有同樣主題的兩個網(wǎng)站:A和B。A網(wǎng)站有10個網(wǎng)頁,并在一定時期內(nèi)向其它網(wǎng)站或網(wǎng)頁發(fā)出了10次鏈接,而B網(wǎng)站有100個網(wǎng)頁,并在同一個時期內(nèi)向其它網(wǎng)站或網(wǎng)頁發(fā)出了100次鏈接,顯然,它們的WUF是一樣的,但這兩個網(wǎng)站的鏈接分布特征是否一樣呢?很明顯,雖然兩者的WUF一樣,但B網(wǎng)站指向其它網(wǎng)站或網(wǎng)頁的能力更大,不過是因為網(wǎng)站的高資源率和高鏈接率相互抵消導(dǎo)致計算出相同的WUF罷了。
          事實上,WUF的缺陷還存在于網(wǎng)站的語言差異、學(xué)科背景差異、專業(yè)影響范圍差異等方面。
          
          3 對網(wǎng)絡(luò)使用因子的改進意見
          
          3.1 對假設(shè)前提的改進意見
          針對“所有鏈接都是有實質(zhì)意義的”、“所有鏈接都是等價的”兩條假設(shè)前提,可以參考Pagerank算法在鏈接是否等價問題上的表述:(B1)一個網(wǎng)頁盡管沒有被多次引用,但被一個重要網(wǎng)頁引用,則這個網(wǎng)頁很重要;(B2)一個網(wǎng)頁的重要性被均勻的分布并傳遞到它所引用的網(wǎng)頁,即認(rèn)為不是所有的鏈接都是有推薦或認(rèn)可意義的,并且不同類型的鏈接是具有不同價值的。這就為在算法上對WUF的改進提供了理論依據(jù)。
          
          3.2 對數(shù)據(jù)獲取的改進意見
          盡管學(xué)者們試圖利用自制鏈接分析工具彌補商業(yè)搜索引擎的缺陷,且自制鏈接分析工具針對性比較強,但由于它是個人制作用于專業(yè)研究,因而功能簡單、適用范圍狹窄。這樣,WUF無論多科學(xué)、合理,都將因為沒有有效的工具提供準(zhǔn)確數(shù)據(jù)而難以得到廣泛應(yīng)用。因此,在鏈接分析研究中,很有必要開發(fā)專業(yè)鏈接分析工具,用來計算WUF等計量指標(biāo)。該專業(yè)鏈接分析工具應(yīng)以引文分析工具如CSSCI等為參照,兼顧覆蓋率、性能穩(wěn)定性、能有效識別鏈接類型的專業(yè)性等。
          
          3.3 對算法本身的改進意見
          可以設(shè)立一套針對特定類型網(wǎng)站的鏈接分類體系,例如,可在一級類目上將所有鏈接分為“實質(zhì)性鏈接”和“非實質(zhì)性鏈接”,并在多次試檢網(wǎng)站鏈接的過程中不斷修訂鏈接分類體系;在鏈接分類體系的基礎(chǔ)上采用層次分析法,對不同的鏈接類型賦予不同的權(quán)重。據(jù)此,筆者嘗試提出“加權(quán)出鏈數(shù)”,在將其用于計量WUF時得出“加權(quán)網(wǎng)絡(luò)使用因子”。于是:
          其中,分母也可以用該國家的科研生產(chǎn)率或科研人員數(shù)代替。
          
          4 結(jié)語
          
          WUF自誕生之初就不可避免的存在一些缺陷,尤其是在假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面問題較大,據(jù)此,建議開發(fā)專業(yè)的鏈接分析工具;構(gòu)建鏈接分類體系并對不同類型的鏈接進行加權(quán)得到“加權(quán)出鏈數(shù)”,然后在此基礎(chǔ)上計算“加權(quán)網(wǎng)絡(luò)使用因子”。這是一項任重而道遠的工作,我們已對此展開研究。即便如此,也不能保證計算出的WUF絕對準(zhǔn)確,因此,最好綜合使用包括WUF在內(nèi)的多個鏈接指標(biāo)進行網(wǎng)站評價、網(wǎng)絡(luò)信息資源管理以及時下方興的網(wǎng)站健康度檢驗等。

        相關(guān)熱詞搜索:因子 缺陷 改進 網(wǎng)絡(luò)使用因子的缺陷及改進 因子分析模型的改進與應(yīng)用 bp神經(jīng)網(wǎng)絡(luò)的缺點及改進

        版權(quán)所有 蒲公英文摘 smilezhuce.com