矩陣對角線元素之和 期刊共被引矩陣對角線問題的實證研究
發(fā)布時間:2020-03-07 來源: 日記大全 點擊:
[摘要]在共被引分析中,至關重要的一步是生成共被引矩陣。對共被引矩陣對角線的處理,學術界仍然存在爭議。在總結前人幾種對角線取值方法的基礎上,從社會網絡、共被引分析的原理和期刊動態(tài)變化的特點三個角度出發(fā),認為期刊共被引矩陣對角線的取值應為該期刊與自身的實際共被引次數(shù),并通過實證數(shù)據(jù)進行驗證。
[關鍵詞]期刊共被引 對角線取值 聚類分析 核心-邊緣結構分析
[分類號]G350
1 引 言
共被引分析方法是引文分析方法的一種,自從1973年分別由Small和I.V.Marshakova提出后,就備受研究者們關注。根據(jù)分析對象的不同,共被引分析方法主要分為文獻共被引、作者共被引、期刊共被引和專利共被引等幾種。
期刊共被引是以期刊為基本單元而建立的共被引關系。期刊共被引分析方法于1991年McCain首先引入并運用于期刊及學科領域的研究以來,理論與方法逐漸發(fā)展,運用領域也不斷擴大。隨著科學知識圖譜、可視化技術、社會網絡分析等逐漸成為科學計量學研究的熱門,期刊共被引分析越來越成為人們關注的熱點。
期刊共被引分析的步驟,學術界普遍采用1990年McCain對作者共被引技術總結的模式,其歸納為選擇作者、檢索共被引頻次、生成共被引矩陣、轉化為Pear.SOil相關系數(shù)矩陣、多元分析和解釋結果等幾個步驟。這幾個步驟中,生成共被引矩陣是基礎和關鍵的一步,后面的分析均基于該矩陣。
共被引矩陣是個對稱矩陣,非對角線上元素表示兩兩之間共被引的次數(shù)(也稱共被引強度),共被引強度越高,則說明關系越密切;然而,對共被引矩陣對角線取值的處理,學術界提出過多種觀點,但至今沒有統(tǒng)一的定論。由于不同的對角線取值,會造成期刊共被引分析結果的差異,因此有必要對期刊共被引矩陣對角線取值問題進行探究。
2 共被引矩陣對角線取值的幾種方法
2.1 總被引次數(shù)
對角線上的數(shù)值采用文獻總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù)),這是學者們對共被引分析對角線取值的最初思考。國內學術界一些早期的研究L2-3]即采用這種觀點。這種做法,數(shù)據(jù)易取,容易操作。但其取值依據(jù)明顯與共被引理論不一致,造成分析的結果失真嚴重。因而,用總被引次數(shù)填充共被引矩陣對角線的做法,逐漸被其他做法代替。
2.2排序前三的共被引頻次之和的一半
White和Grififth最初是將對角線值定為:排序前三的共被引頻次之和的一半。因為,一方面對角線上取作者總被引次數(shù)遠遠高出其他作者間的共被引次數(shù),另一方面是作者同名造成的影響很大。
對角線取排序前三的共被引頻次之和的一半,部分解決了失真和作者同名的問題,又可突出共被引分析中對角線上數(shù)值的相對重要性。這樣做能解決對角線取總被引次數(shù)的一些問題,但此做法的合理性缺乏有效的證明。并且,現(xiàn)代檢索技術的發(fā)展,同名的問題已基本得到解決。
2.3 缺失值
對角線上的取值直接采用默認的缺失值,是Mc.Cain提出的,這也是影響最廣泛、目前最普遍的一種對角線確定方法。MeCain提出這種做法,也是為了解決對角線上采用總被引次數(shù)造成失真嚴重的問題,并通過作者共被引的實例證實缺失值的聚類、多維尺度、主成分分析的結果與White和Griffith采用排序前三的一半的做法,結果相差不大。
在聚類分析、多維尺度分析中,對角線值缺失的共被引矩陣需要將對角線默認為0,再轉化成相關系數(shù)矩陣,這樣相似矩陣對角線就自動變?yōu)?,這種取值方法解決了進一步多元分析中程序的限制問題。從表面看來,在處理數(shù)據(jù)方面非常方便,但忽略了研究對象的背景與含義。共被引矩陣是考察各對象之間親疏關系的相似矩陣,撇開對象與自己的關系,孤立地分析對象與對象之間的親疏關系,存在一定的不合理性。
2.4 最大值和最大值+1
White在文獻[6]中,建議使用期刊被引頻次的最大值作為對角線取值。他從Person相關系數(shù)矩陣測度相似性的角度出發(fā),并通過實例,說明采用默認值的做法會使分析結果存在一定的人為特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸顯對角線的重要性,也方便操作。
我國學者邱均平從臨近矩陣的角度出發(fā),認為:按照共被引的假設――具有相同的共被引強度意味著具有相同的相似程度,期刊與自身的關系應為最親近(相似),建議用最大值+1來凸顯期刊與自身的親密關系,并以編輯出版類期刊群和圖書館學情報學期刊群做了實證分析。
采用最大值或最大值+1的做法,從相似性的角度看,存在一定的合理性,而且數(shù)據(jù)易取,操作簡單。但難于解釋的一個問題是:為何取最大值或最大值+1,而不是最大值+2、最大值+N?理論依據(jù)是什么?另外,“期刊與自身的關系最親近”這一假設同樣存在一定的局限性。在文獻(或專利)共被引中,共引意味著文獻(或專利)相互引證,文獻(或專利)主題存在相似性,共被引強度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究領域的改變、期刊辦刊方向的變化等都會造成“期刊與自身關系最親近”的假設不成立。
2.5期刊與自身的實際共被引次數(shù)
Ahlgren等認為,采用排序前三的共被引頻次之和一半和缺失值的做法僅是采用總被引次數(shù)的替換。雖然能生成共被引矩陣,但并不是最好的做法。從共被引的原理和統(tǒng)計意義上,應該使用自己與自己實際共被引次數(shù),這樣產生的矩陣才是嚴格意義上的共被引矩陣。此結論是Ahlgren在探討作者共被引分析時得出的,這種做法由于數(shù)據(jù)收集困難而很少被采用,更缺乏實證的驗證。
通過以上分析,本文認為,針對作者、期刊、專利等不同分析對象的特點,對角線取值方式應該有所不同。從社會網絡、共被引分析的原理和期刊動態(tài)變化的特點三個角度看,期刊共被引矩陣對角線取值采用期刊與自身的實際共被引次數(shù)最為合理。
首先,從社會網絡的角度看,期刊共被引矩陣(網絡)是典型的自反網絡,即期刊與自身是有關系的;因此,在考察期刊群之間相互關系的過程中,不應該拋開期刊與自身的關系,應對其加以考慮。從這個意義上來說,對角線取缺失值的做法并不合理。
其次,期刊共被引關系把眾多的期刊按被引證關系聯(lián)系起來,從期刊所載論文被利用的角度揭示期刊之間的某種學科或專業(yè)上的聯(lián)系。換言之,期刊共被引分析通過期刊所載文獻之間的共被引關系揭示期刊的主題、地位上的密切關系,而期刊共被引矩陣是期刊之間密切關系的外在表現(xiàn)。采用自己與自己實際共被引次數(shù)作為矩陣對角線的值,形成嚴格意義上的共被引矩陣,更符合共被引原理。
第三,不同于耦合關系,共被引關系所反映的是變化的或暫時的關系,而且期刊共被引是對某一跨度時間內形成的共被引關系進行分析,因而有必要考慮期刊動態(tài)變化的特點。造成這種變化可能是期刊季 刊、雙月刊、月刊、半月刊的改變,也存在期刊載文主題的變化。在這個意義上,“期刊自己與自己的關系最為密切”的假設并不一定成立,共被引矩陣對角線取最大值、最大值+1或其他遠大于非對角線的做法的合理性值得商榷。而這幾種對角線取值方式中,最能反映期刊動態(tài)變化的是實際共被引次數(shù)。
3 實證研究――以圖書情報學期刊群為例
3.1 數(shù)據(jù)的收集和處理方法
前面提到,對角線上的數(shù)值采用文獻總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù))的做法,是共被引分析的最初做法,已逐漸被其他方法完全替代。這里不再對該種做法進行研究。其余幾種對角線的處理方法,本文通過實例進行聚類分析和核心一邊緣結構分析,對各種對角線取值方式得到的結果進行比較。
本文以文獻[9]為基礎,采用該文選取的期刊群及數(shù)據(jù)收集的時間段,同樣以CNKI為信息源及相關的分析軟件(sPSS及UCINET),并于2009年8月13日對文獻[9]中期刊源(29種)的共被引數(shù)據(jù)進行檢索整理,得到如表1所示的共被引矩陣①:
3.2 聚類分析和核心-邊緣模型分析
共被引矩陣的不同會影響分析的結果,而造成共被引矩陣不同的原因是對角線的處理方法。以下是對幾種對角線處理方法逐一進行聚類分析和核心一邊緣模型分析。
3.2.1排序前三的共被引頻次之和的一半 圖1是采用該種對角線處理方法的聚類分析圖。從聚類分析結果,我們可以清楚地看到,采用排序前三的共被引頻次之和的一半的做法,將這29種期刊聚類成三大類:第一類包括《圖書情報工作》、《中國圖書館學報》等21種(圖1中a類)偏圖書館學領域的期刊和《情報理論與實踐》、《情報學報》等5種(上圖中b類)偏情報學領域的期刊;第二類為《農業(yè)圖書情報學刊》和《情報探索》;第三類是《中華醫(yī)學圖書情報雜志》。這種對角線取值的方法,第一類包含了29種期刊中的26種,圖書館學領域期刊群和情報學領域期刊群聚成一個大類。
圖1右邊核心邊緣結構分析,得到的結果顯示數(shù)據(jù)和理想模型的相關系數(shù)能達到0.919。這里得到的期刊核心度數(shù)值與邱均平、李俊佩的文獻《圖書情報學期刊的同被引研究》存在不同,但期刊核心度排名基本一致。
3.2.2缺失值對角線默認缺失值是共被引分析最普遍的做法。圖2是對角線取缺失值的期刊共被引聚類圖和核心邊緣結構分析圖。聚類結果同樣不精確,除《圖書情報工作》、《情報理論與實踐》與《情報學報》各聚成一類外,其余聚成一個大類。而核心邊緣結構分析,得到的結果顯示數(shù)據(jù)和理想模型的相關系數(shù)為0.889。
3.2.3 最大值和最大值+1最大值和最大值+1得到聚類分析和核心邊緣分析結果幾乎相同,如圖3和
聚類分析將29種期刊大致分成四類:第一類包括22種期刊,這些期刊主要以圖書館學領域的文章為主;第二類是以情報學領域的文章為主的期刊,它們都是情報學期刊,并且技術方面的文章占的比例也相對較高;第三類《情報探索》單獨成一類;第四類是《中華醫(yī)學圖書情報雜志》單獨成一類。
核心邊緣結構分析顯示該取值方法與理想模型的相關系數(shù)為0.951。
3.2.4期刊與自身的實際共被引次數(shù)將期刊與自身的實際共被引次數(shù)作為共被引矩陣對角線數(shù)值得到的聚類見圖5,分為四類:
?第一類是研究圖書館學主題為主的23種期刊,包括《圖書情報工作》、《中國圖書館學報》等。這23種期刊又分成四個子類:a類全部都是圖書館學的核心期刊;b類包括各地圖書館學期刊,大多不是核心期刊;c類是以情報學為主題較多的期刊;d類是偏應用較多的期刊。
?第二類是主題以情報學為主的4種期刊:《情報理論與實踐》、《情報學報》、《情報科學》和《現(xiàn)代圖書情報技術》。
?第三類、第四類分別是獨自成一類的《農業(yè)圖書情報學刊》及《中華醫(yī)學圖書情報雜志》,這兩種期刊都是以特定專業(yè)領域為主題的期刊。
將實際共被引次數(shù)作為共被引矩陣對角線數(shù)值,進行核心邊緣結構分析,顯示數(shù)據(jù)和理想模型的相關系數(shù)為0.962,優(yōu)于其他取值方法得到的結果。
3.3對比分析
從聚類結果上看,上文中3.2.1、3.2.2聚類結果較為模糊,形成類別少,類內距離很大;3.2.3能聚成四類,但其第一類的組內距離很大;3.2.4最能滿足層次聚類法“類內距離小,類間距離大”的條件,聚類結果更為良好。
和3.2.3比較,3.2.4除了聚類分類更詳細更準確外,還有一個差別,即:《情報資料工作》期刊的歸類不同:3.2.3將該刊物聚為情報學期刊子群,3.2.4則歸為圖書館學期刊子群。為驗證其歸屬,筆者對《情報資料工作》2002-2007年發(fā)表學術論文的關鍵詞進行考察?紤]到關鍵詞是表征論文內容的核心詞匯,本文將從對關鍵詞的統(tǒng)計對上述問題給出解釋。統(tǒng)計結果顯示,2002-2007各年間,《情報資料工作》刊載學術論文的前十位高頻關鍵詞(限于篇幅,具體數(shù)據(jù)略去,有需要可向作者索取),更多表征的是圖書館學的內容,特別需要一提的是除了2007年排名第二的高頻關鍵詞是“知識管理”,其余各年排名第一、第二的高頻關鍵詞表征的均是圖書館學的內容。這也從另一個側面證明了《情報資料工作》歸類于圖書館學期刊更為合理。
從核心一邊緣結構分析結果來看,對角線取值的不同會影響期刊核心度,但對核心度排名的影響不大。就分析結果和理想模型的擬合系數(shù)來看,3.2.4能達到0.962,是這幾種取值方法中最高的,這也從實證的角度證明對角線取值為“期刊與自身的實際共被引次數(shù)”更為合理。
4 結語
共被引分析是學術界的熱點內容之一,共被引矩陣的對角線取值問題也是學術界爭議的熱點話題。盡管本文從實證的角度,證明了將期刊與自身的共被引頻數(shù)作為期刊共被引矩陣的對角線取值更加合理,但其統(tǒng)計學的理論意義還有待進一步研究。另一方面,由于共被引數(shù)據(jù)在時間上有累積效應,因此數(shù)據(jù)檢索的合理時間范圍如何確定也是未來的研究內容之一。
致謝:感謝中國知網的張玉榮女士對本文數(shù)據(jù)檢索提供的幫助.作者在此表示衷心感謝!
相關熱詞搜索:對角線 矩陣 期刊 期刊共被引矩陣對角線問題的實證研究 在進行期刊共被引研究中 期刊同被引的社會網絡分析
熱點文章閱讀