[網(wǎng)絡(luò)使用因子的缺陷及改進]遺傳缺陷因子

發(fā)布時間:2020-03-07 來源: 歷史回眸點擊：

　　[摘要]網(wǎng)絡(luò)使用因子反映桌一國家或網(wǎng)站的網(wǎng)頁指向其他網(wǎng)頁能力的分布情況，可用于測度某一國家或網(wǎng)站的鏈接分布特征。網(wǎng)絡(luò)使用因子自誕生起就不可避免的存在一些缺陷，尤其是假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面。建議開發(fā)專業(yè)鏈接分析工具，構(gòu)建鏈接分類體系，對不同類型的鏈接進行加權(quán)得到“加權(quán)出鏈數(shù)”，并據(jù)此計算“加權(quán)網(wǎng)絡(luò)使用因子”。
　　[關(guān)鍵詞]出鏈數(shù)　網(wǎng)絡(luò)使用因子　鏈接分析工具　加權(quán)網(wǎng)絡(luò)使用因子
　　[分類號]G353.1
　　
　　在圖書情報領(lǐng)域，鏈接分析已成為學(xué)術(shù)研究熱點，從最初的介紹性研究到越來越多的實證研究，其研究日益深入實際應(yīng)用。在實證研究中，某些鏈接指標(biāo)備受爭議。鏈接分析計量指標(biāo)大體可分為4類：①鏈接數(shù)量特征計量指標(biāo)：總鏈接數(shù)、出鏈數(shù)；②鏈接分布特征計量指標(biāo)：鏈接密度、頁面平均鏈接數(shù)、網(wǎng)絡(luò)使用因子；③網(wǎng)站影響力計量指標(biāo)：入鏈數(shù)、網(wǎng)絡(luò)影響因子、鏈接傾向；④網(wǎng)頁重要性計量指標(biāo)：Pagerank算法、HITS算法等。因為對鏈接的討論往往只涉及大學(xué)網(wǎng)站的入鏈數(shù)，而較少涉及大學(xué)網(wǎng)站的出鏈數(shù)，導(dǎo)致與出鏈數(shù)密切相關(guān)的網(wǎng)絡(luò)使用因子在應(yīng)用廣泛性、受關(guān)注度方面遜色于網(wǎng)絡(luò)影響因子(Web Impact Factors，WIF)。本文對網(wǎng)絡(luò)使用因子在鏈接分析中存在的缺陷進行探討，并提出一些改進意見。
　　
　　1　網(wǎng)絡(luò)使用因子簡介
　　
　　1.1　網(wǎng)絡(luò)使用因子的起源及概念
　　網(wǎng)絡(luò)使用因子(Web Use Factors，WUF)是反映某一國家或網(wǎng)站的網(wǎng)頁指向其他網(wǎng)頁能力的分布情況的計量指標(biāo)，可用來測度某一國家或網(wǎng)站的鏈接分布特征。長期以來，對鏈接的討論只涉及大學(xué)網(wǎng)站的入鏈數(shù)，而沒有涉及大學(xué)網(wǎng)站的出鏈數(shù)。直到2003年Thelwall M.省略WUF可根據(jù)有.con域名的鏈接網(wǎng)頁來計算。對網(wǎng)絡(luò)不同區(qū)域在計算上的限制，要求對不同類型網(wǎng)頁如國內(nèi)、國際、教育、商業(yè)網(wǎng)頁進行比較。另外，解釋頂級域名如．tom、edu、uk的計算結(jié)果時必須謹(jǐn)慎，因為不能只從表面解釋頂級域名。例如，.省略域名，并且在現(xiàn)實中，.com域名包含了龐雜無章的各類信息；即使是.edu域名也不局限于美國的大學(xué)。
　　
　　1.2　網(wǎng)絡(luò)使用因子的算法
　　出鏈數(shù)指從某個網(wǎng)頁出發(fā)的鏈接總數(shù)量。某一國家或網(wǎng)站的出鏈數(shù)除以網(wǎng)頁數(shù)、科研人員數(shù)或科研生產(chǎn)率便得到了網(wǎng)頁平均出鏈數(shù)、科研人員平均出鏈數(shù)或科研生產(chǎn)率平均出鏈數(shù)，即WUF。如果一個國家的科研生產(chǎn)率數(shù)據(jù)很難獲得，并且有理由相信該國的大學(xué)在研究能力上相似，或者因為商業(yè)搜索引擎和專業(yè)網(wǎng)絡(luò)爬行工具覆蓋范圍的問題導(dǎo)致難以計算一個網(wǎng)站的網(wǎng)頁數(shù)，則科研人員數(shù)就成為WUF的分母；但若科研人員數(shù)無法獲得，仍要用網(wǎng)頁數(shù)作分母。
　　綜上所述，筆者用某一國家或網(wǎng)站的出鏈數(shù)作為分子，分別用該國家或網(wǎng)站的網(wǎng)頁數(shù)、科研人員數(shù)和科研生產(chǎn)率作為分母，得出WUF的不同算法，即：
　　
　　1.3　網(wǎng)絡(luò)使用因子的應(yīng)用
　　其實，WUF在統(tǒng)計意義上的可信度并不比WIF低。WUF與平均科研生產(chǎn)率顯著相關(guān)；科研生產(chǎn)率高的大學(xué)建立了更多出鏈，可能因為這些大學(xué)制作了數(shù)量更多、質(zhì)量更高的網(wǎng)頁。這與對入鏈原因的解釋也是密切相關(guān)的。
　　WUF反映網(wǎng)站出鏈的平均量，通常WUF越高，說明網(wǎng)站利用其他網(wǎng)絡(luò)信息資源的程度越高，該網(wǎng)站的信息數(shù)量和質(zhì)量也就可能越高。某一網(wǎng)站可以通過WUF的計算知道該網(wǎng)站利用其他網(wǎng)絡(luò)信息資源的能力高低，以及利用其它網(wǎng)絡(luò)信息資源的迫切性，并促使該網(wǎng)站評估其網(wǎng)頁對其它網(wǎng)頁既往的鏈接中哪些是好的、需要繼續(xù)鏈接的，哪些是差的、需要終止鏈接的以及需要尋找并鏈向哪些新的、優(yōu)質(zhì)的網(wǎng)頁。雖然目前關(guān)于WUF應(yīng)用的專門的研究還很少，但WUF與WIF等計量指標(biāo)相結(jié)合，在網(wǎng)站建設(shè)和管理等方面有很大的應(yīng)用前景。
　　
　　2　網(wǎng)絡(luò)便用因子的缺陷
　　
　　2.1　假設(shè)前提方面存在的問題
　　對鏈接的分析是基于一定假設(shè)前提的，不同假設(shè)基礎(chǔ)上的計量指標(biāo)，其適用范圍不同。為了證明WUF賴以存在的假設(shè)前提難以成立，我們先看WIF成立的假設(shè)前提。李江在《鏈接分析工具》中將WIF的假設(shè)前提總結(jié)為：(A1)從網(wǎng)頁A指向網(wǎng)頁B的鏈接是網(wǎng)頁A對網(wǎng)頁B的推薦或認(rèn)可；(A2)所有鏈接都是等價的。該假設(shè)前提同樣適用于WUF，因為網(wǎng)頁A對網(wǎng)頁B網(wǎng)頁的出鏈就是網(wǎng)頁B對網(wǎng)頁A的入鏈。
　　先從鏈接分類的角度來考查第一條假設(shè)前提是否合理。Smith A.G.將鏈接分為兩類：即實質(zhì)性鏈接和非實質(zhì)性鏈接，實質(zhì)性鏈接可理解為代表“推薦或認(rèn)可”，可用于WUF的計算，而非實質(zhì)性鏈接因為不代表“推薦或認(rèn)可”，不可用于計算WUF。文中，作者通過統(tǒng)計分析得出：所有鏈接中，實質(zhì)性鏈接約占20％；鏈接到大學(xué)網(wǎng)站的鏈接中，實質(zhì)性鏈接約占27％。Chu Heting將學(xué)術(shù)機構(gòu)網(wǎng)站的入鏈分為4類：即服務(wù)、主頁、研究、教學(xué)，其中前兩類共占73％，后兩類占27％，并且僅有教學(xué)類的入鏈才可用作學(xué)術(shù)機構(gòu)的評估，能用于評價的人鏈不足27％。由此可見，盡管不同類型網(wǎng)站的鏈接類型不同和不同研究者從不同角度出發(fā)設(shè)立的分類體系迥異，但若把實質(zhì)性鏈接的比例看成WUF有效性的比例，則網(wǎng)WIJF的有效性比例僅為27％左右。
　　第二條假設(shè)顯然也是不合理的，因為非實質(zhì)性鏈接對于WUF的計量是沒有價值的，即便同為實質(zhì)性鏈接，不同類型的實質(zhì)性鏈接也不可能具有同等的價值。其實，在WUF被提出之前，與WIF幾乎同時誕生的Pagerank算法在鏈接是否等價的問題上已提出更有說服力的表述：(B1)一個網(wǎng)頁盡管沒有被多次引用，但被一個重要網(wǎng)頁引用，則這個網(wǎng)頁很重要；(B2)一個網(wǎng)頁的重要性被均勻的分布并傳遞到它所引用的網(wǎng)頁。這個表述科學(xué)的多，但可惜的是，迄今為止，有關(guān)WUF的算法還沒有引入類似于Pagerank算法的表述。
　　
　　
　　2.2　數(shù)據(jù)獲取方面存在的問題
　　早期對出鏈數(shù)等指標(biāo)進行統(tǒng)計時，主要以商業(yè)搜索引擎Google、Altavista、Alltheweb等為工具。及至商業(yè)搜索引擎的缺陷盡顯且無法避免，某些學(xué)者擇優(yōu)使用某些商業(yè)搜索引擎；另一些學(xué)者則嘗試使用自制的鏈接分析工具，但是自制鏈接分析工具也存在一定的缺陷。
　　2.2.1　商業(yè)搜索引擎的覆蓋范圍有限眾所周知，動態(tài)性是網(wǎng)絡(luò)與生俱來的特性，每時每刻都有成千上萬的網(wǎng)頁出現(xiàn)或消失，因此任何一個搜索引擎都不可能覆蓋和采集到所有的網(wǎng)頁。有數(shù)據(jù)顯示(見表1)，各搜索引擎收錄網(wǎng)頁的范圍各不相同，因而獲得的鏈接數(shù)據(jù)也不同。據(jù)估計，現(xiàn)在搜索引擎覆蓋網(wǎng)頁的數(shù)量只占總數(shù)的20％左右。袁毅認(rèn)為單個搜索引擎只能搜索到Web資源的16％，即使是幾個搜索引擎結(jié)合，也只能搜索到整個Web的30％～40％。伯克利信息管理系統(tǒng)的一項統(tǒng)計結(jié)果表明，2006年人類產(chǎn)生了約1000萬TB(不重復(fù))數(shù)據(jù)，而搜索引擎覆蓋率最新調(diào)查顯示Google在2006年共組織了1085TB數(shù)據(jù)，可見，Google僅僅組織了其中的0.02％。
　　2.2.省略的網(wǎng)頁數(shù)量和反向鏈接數(shù)量進行檢索，發(fā)現(xiàn)，各搜索引擎所得出的結(jié)果相差很大，如表2所示：
　　
　　其次，即使是同一搜索引擎，在不同時間段其檢索結(jié)果也有很大差異，通常，在高峰期的檢索結(jié)果，其可信度通常要低一些。
　　再次，使用不同語法意義的檢索表達式，其檢索結(jié)果也不盡相同。對此，筆者在MltheWeb中進行了試驗，檢索結(jié)果如表3所示：
　　2.2.3　自制鏈接分析工具功能簡單、使用范圍狹窄面對商業(yè)搜索引擎無法避免的缺陷，部分學(xué)者嘗試用自制鏈接分析工具取代商業(yè)搜索引擎或彌補其不足。其中較突出的有：Lei Cui等人參照引文分析法自制的“Checkweb”，用于分析鏈接狀況，為統(tǒng)計鏈接數(shù)量作準(zhǔn)備；Miekle Thelwall針對商業(yè)搜索引擎檢索結(jié)果的不一致性自制的“WIF web crawler”，用于測度WIF；段宇鋒自制的“Webstat”，用于鏈接分析的實證研究。但遺感的是，這些個人自制的鏈接分析工具因其專門性不可避免的具有功能簡單，使用范圍狹窄的缺陷。
　　
　　2.3　算法自身存在的問題
　　2.3.1　分子存在的缺陷WIF借鑒JW算法的同時，陷入了JIF算法無法回避的缺陷，即無視入鏈的質(zhì)量差異，這也是WIF算法自身最大的缺陷。而WUF用出鏈數(shù)作分子，這與WIF很相近，因為網(wǎng)頁A對網(wǎng)頁B網(wǎng)頁的出鏈就是網(wǎng)頁B對網(wǎng)頁A的人鏈；因此，也存在與WIF類似的缺陷，即無視出鏈的質(zhì)量差異，這也是WUF在計量的準(zhǔn)確性方面存在的最大問題。
　　2.3.2　分母存在的缺陷WUF算法的分母是該國家或網(wǎng)站的總網(wǎng)頁數(shù)，但什么樣的內(nèi)容才能被當(dāng)作一個網(wǎng)頁并沒有公認(rèn)的標(biāo)準(zhǔn)，一篇論文可以被視為一個網(wǎng)頁，該論文也可以被分為幾個網(wǎng)頁顯示從而被看作幾個網(wǎng)頁。舉個簡單的例子，某篇在線電子文檔向其它網(wǎng)站或網(wǎng)頁發(fā)出100個鏈接，若這篇電子文檔的內(nèi)容全部包含在一個頁面中，則其WUF為100，若其內(nèi)容被分成100個頁面顯示，則其WUF僅為1。這表明WUF會因電子文檔在Web上顯示形式的不同而迥異。
　　2.3.3　整體存在的缺陷WUF不一定能反映網(wǎng)站真實的鏈接分布特征。假設(shè)有同樣主題的兩個網(wǎng)站：A和B。A網(wǎng)站有10個網(wǎng)頁，并在一定時期內(nèi)向其它網(wǎng)站或網(wǎng)頁發(fā)出了10次鏈接，而B網(wǎng)站有100個網(wǎng)頁，并在同一個時期內(nèi)向其它網(wǎng)站或網(wǎng)頁發(fā)出了100次鏈接，顯然，它們的WUF是一樣的，但這兩個網(wǎng)站的鏈接分布特征是否一樣呢?很明顯，雖然兩者的WUF一樣，但B網(wǎng)站指向其它網(wǎng)站或網(wǎng)頁的能力更大，不過是因為網(wǎng)站的高資源率和高鏈接率相互抵消導(dǎo)致計算出相同的WUF罷了。
　　事實上，WUF的缺陷還存在于網(wǎng)站的語言差異、學(xué)科背景差異、專業(yè)影響范圍差異等方面。
　　
　　3　對網(wǎng)絡(luò)使用因子的改進意見
　　
　　3.1　對假設(shè)前提的改進意見
　　針對“所有鏈接都是有實質(zhì)意義的”、“所有鏈接都是等價的”兩條假設(shè)前提，可以參考Pagerank算法在鏈接是否等價問題上的表述：(B1)一個網(wǎng)頁盡管沒有被多次引用，但被一個重要網(wǎng)頁引用，則這個網(wǎng)頁很重要；(B2)一個網(wǎng)頁的重要性被均勻的分布并傳遞到它所引用的網(wǎng)頁，即認(rèn)為不是所有的鏈接都是有推薦或認(rèn)可意義的，并且不同類型的鏈接是具有不同價值的。這就為在算法上對WUF的改進提供了理論依據(jù)。
　　
　　3.2　對數(shù)據(jù)獲取的改進意見
　　盡管學(xué)者們試圖利用自制鏈接分析工具彌補商業(yè)搜索引擎的缺陷，且自制鏈接分析工具針對性比較強，但由于它是個人制作用于專業(yè)研究，因而功能簡單、適用范圍狹窄。這樣，WUF無論多科學(xué)、合理，都將因為沒有有效的工具提供準(zhǔn)確數(shù)據(jù)而難以得到廣泛應(yīng)用。因此，在鏈接分析研究中，很有必要開發(fā)專業(yè)鏈接分析工具，用來計算WUF等計量指標(biāo)。該專業(yè)鏈接分析工具應(yīng)以引文分析工具如CSSCI等為參照，兼顧覆蓋率、性能穩(wěn)定性、能有效識別鏈接類型的專業(yè)性等。
　　
　　3.3　對算法本身的改進意見
　　可以設(shè)立一套針對特定類型網(wǎng)站的鏈接分類體系，例如，可在一級類目上將所有鏈接分為“實質(zhì)性鏈接”和“非實質(zhì)性鏈接”，并在多次試檢網(wǎng)站鏈接的過程中不斷修訂鏈接分類體系；在鏈接分類體系的基礎(chǔ)上采用層次分析法，對不同的鏈接類型賦予不同的權(quán)重。據(jù)此，筆者嘗試提出“加權(quán)出鏈數(shù)”，在將其用于計量WUF時得出“加權(quán)網(wǎng)絡(luò)使用因子”。于是：
　　其中，分母也可以用該國家的科研生產(chǎn)率或科研人員數(shù)代替。
　　
　　4　結(jié)語
　　
　　WUF自誕生之初就不可避免的存在一些缺陷，尤其是在假設(shè)前提、數(shù)據(jù)獲取和算法本身等方面問題較大，據(jù)此，建議開發(fā)專業(yè)的鏈接分析工具；構(gòu)建鏈接分類體系并對不同類型的鏈接進行加權(quán)得到“加權(quán)出鏈數(shù)”，然后在此基礎(chǔ)上計算“加權(quán)網(wǎng)絡(luò)使用因子”。這是一項任重而道遠的工作，我們已對此展開研究。即便如此，也不能保證計算出的WUF絕對準(zhǔn)確，因此，最好綜合使用包括WUF在內(nèi)的多個鏈接指標(biāo)進行網(wǎng)站評價、網(wǎng)絡(luò)信息資源管理以及時下方興的網(wǎng)站健康度檢驗等。

东方亚洲欧a∨人在线观看|欧美亚洲日韩在线播放|日韩欧美精品一区|久久97AV综合

[網(wǎng)絡(luò)使用因子的缺陷及改進]遺傳缺陷因子

熱點文章閱讀