定性分析定量分析舉例_知識發(fā)現(xiàn)研究文獻(xiàn)定量分析
發(fā)布時(shí)間:2020-03-07 來源: 幽默笑話 點(diǎn)擊:
[摘要]知識發(fā)現(xiàn)是指借助于計(jì)算機(jī)技術(shù)來揭示隱含在大量數(shù)據(jù)中的規(guī)律或模式的一種方法。以SCIE和SSCI為數(shù)據(jù)源,以主題詞為檢索方式,采用定量分析的方法,確定知識發(fā)現(xiàn)領(lǐng)域的核心期刊、核心機(jī)構(gòu)、核心作者,并分析知識發(fā)現(xiàn)研究主題和高影響力的學(xué)術(shù)論文,從而分析出國內(nèi)外知識發(fā)現(xiàn)研究現(xiàn)狀與趨勢。
[關(guān)鍵詞]知識發(fā)現(xiàn)科學(xué)文獻(xiàn)文獻(xiàn)計(jì)量SCIE SSCI
[分類號]G350
信息技術(shù)的發(fā)展使數(shù)據(jù)量迅速膨脹,大量數(shù)據(jù)中可能隱藏一些規(guī)律或模式,知識發(fā)現(xiàn)就是在此背景下提出。知識發(fā)現(xiàn)是一個(gè)新興的交叉性研究領(lǐng)域,美國學(xué)者Usama MFayyad(1996年)認(rèn)為,數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledge discovery in databases,KDD)是指從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。知識發(fā)現(xiàn)不同于各學(xué)科領(lǐng)域的基礎(chǔ)研究、應(yīng)用研究中新知識的發(fā)現(xiàn),它是對已有知識的再加工組織,從中發(fā)現(xiàn)新知識的過程。知識發(fā)現(xiàn)是一個(gè)智能化、自動(dòng)化的過程,它通過數(shù)據(jù)挖掘技術(shù)提煉數(shù)據(jù),使數(shù)據(jù)更抽象、更有用。
本文通過對知識發(fā)現(xiàn)研究文獻(xiàn)的計(jì)量分析,了解知識發(fā)現(xiàn)領(lǐng)域的國際研究態(tài)勢,為知識發(fā)現(xiàn)的進(jìn)一步研究提供參考。
1 文獻(xiàn)數(shù)據(jù)分析與說明
樣本數(shù)據(jù)來源于Thomson Scientific公司的Web of Science平臺SCIE和SSCI數(shù)據(jù)庫,所用分析工具是湯姆森數(shù)據(jù)分析家(Thomson Data Analysis,TDA)和微軟表格處理軟件(EXCEL)。知識發(fā)現(xiàn)是一個(gè)交叉性領(lǐng)域,所以有很多不同的術(shù)語,如“KDD”、“數(shù)據(jù)挖掘”(datamining)、“知識發(fā)現(xiàn)”(knowledge discovery)、“信息收獲”(information harvesting)、“智能數(shù)據(jù)分析”(intelligent data analysis)、“數(shù)據(jù)考古”(da詛archeology)、“知識抽取”(information extraction)、“信息發(fā)現(xiàn)”(information discovery)、“探索式數(shù)據(jù)分析”(exploratory dataanalysis)等,且知識發(fā)現(xiàn)是一個(gè)新興領(lǐng)域,其術(shù)語還在不斷發(fā)展過程中,故本文將KDD、knowledge discovery、data mining這3個(gè)最常用術(shù)語作為檢索詞進(jìn)行主題檢索,即檢索式為TS=(“KDD”O(jiān)R“knowledge discovery”O(jiān)R“data mining”)。SCIE數(shù)據(jù)庫提供1991年以來的數(shù)據(jù),故檢索時(shí)間限定為1991-2006年。共得到7005條記錄(檢索時(shí)間:2007年7月3日),其中研究文獻(xiàn)(article)共有6383篇。
2 文獻(xiàn)定量統(tǒng)計(jì)與結(jié)果分析
2.1 研究文獻(xiàn)的年代分布
研究文獻(xiàn)的年代分布可反映出該領(lǐng)域的學(xué)術(shù)發(fā)展速度和發(fā)展軌跡。1991-2006年這16年間,被SCIE和SSCI收錄的有關(guān)知識發(fā)現(xiàn)的研究文獻(xiàn)共有6 383篇(見表1)。
根據(jù)邏輯斯蒂的“s”增長曲線模型(見圖1),新事物在初始階段發(fā)展緩慢,之后進(jìn)入高速增長階段,接著進(jìn)入穩(wěn)定發(fā)展階段。知識發(fā)現(xiàn)研究領(lǐng)域在1996年后進(jìn)入快速發(fā)展期,2006年論文量達(dá)到1 238篇,結(jié)合表1和圖1可知,該領(lǐng)域尚未達(dá)到成熟階段,仍有很大發(fā)展空間。
2.3 研究文獻(xiàn)的期刊分布
排除其它出版物形式(會(huì)議論文集、系列叢書)的研究文獻(xiàn),共有4165篇期刊文獻(xiàn)收錄在1 049種期刊上。按期刊載文量的不同將期刊分組,統(tǒng)計(jì)表明,載文量50篇以上的期刊有4種,載文量1篇的有601種。
根據(jù)布拉德福定律,將期刊按載文量降序排列,累計(jì)論文數(shù)約占1/3的期刊是該學(xué)科的核心期刊,據(jù)此統(tǒng)計(jì)得出,知識發(fā)現(xiàn)領(lǐng)域核心期刊共有35種。大部分是計(jì)算機(jī)科學(xué)和工程類期刊,只有少量是醫(yī)學(xué)、生化類期刊。其中載文量前幾位的期刊存IEEETransactionsonKnowledgeandDataEngineering(190篇)、DataMiningandKnowledgeDiscovery(105篇)、Ex-pertSystemswithApplications(97篇)、Bioinformatics(76篇)。
2.4 研究文獻(xiàn)作者分析
核心作者對推動(dòng)學(xué)科發(fā)展、開拓研究領(lǐng)域起著關(guān)鍵作用。本統(tǒng)計(jì)中,共有12940名作者(包括第二、三等合著者),篇均作者2人。其中發(fā)文篇數(shù)最多(35篇)的是美國學(xué)者JiaweiHart,主要從事計(jì)算機(jī)科學(xué)研究,是核心作者之一。
根據(jù)普萊斯定律,“杰出科學(xué)家”或“核心作者”應(yīng)完成所有專業(yè)論文總和的一半,核心作者最低發(fā)文數(shù)m的值為:m=0.749,其中,n是指發(fā)文最多的作者所發(fā)表的論文數(shù),在本樣本中為35,故m取最大整數(shù)為4。統(tǒng)計(jì)數(shù)據(jù)表明,發(fā)文4篇以上有768人(見圖2),占總作者數(shù)的5.94%,說明知識發(fā)現(xiàn)領(lǐng)域已形成核心作者群。對發(fā)文量4篇以上的作者的論文被引情況進(jìn)行綜合分析,按作者文獻(xiàn)被引頻次降序排列,列出前8位作者(見表2)。這8位作者只占作者總數(shù)的0.062%,但是其論文被引頻次達(dá)到3 335次,占全部論文被引頻次的12.78%,說明這些作者的論文有著很高的影響力。
2.5 核心機(jī)構(gòu)分析
本次統(tǒng)計(jì)的6 383篇論文的作者機(jī)構(gòu)共有2 898家,分布很廣泛(見表3)。在這些機(jī)構(gòu)中,不乏一些大型商業(yè)公司,如IBM、Intel、GM、SPSS等,表明知識發(fā)現(xiàn)研究具有面向應(yīng)用的顯著特征,高校仍是該研究領(lǐng)域的主力軍,前10位席位中占7位;中國有關(guān)機(jī)構(gòu)在知識發(fā)現(xiàn)研究方面有一定的研究實(shí)力,中國科學(xué)院、清華大學(xué)已走在世界前列。
2.6 論文被引頻次分布
經(jīng)典文獻(xiàn)能夠?yàn)榻窈蟮难芯亢桶l(fā)展提供參考。文獻(xiàn)計(jì)量學(xué)中,若一篇文獻(xiàn)自發(fā)表以來平均每年被引用4次或4次以上,可以列為“經(jīng)典文獻(xiàn) ”。在本次研究中,16年間被引用頻次達(dá)到110(>64)次以上的有15篇,初步確定它們?yōu)橹R發(fā)現(xiàn)研究的高影響力文獻(xiàn)(見表4)。其中,生物信息學(xué)領(lǐng)域占10篇。
2.7 研究文獻(xiàn)的領(lǐng)域分析與主題分析
由于知識發(fā)現(xiàn)研究的大部分文獻(xiàn)屬于幾個(gè)領(lǐng)域,這里初步統(tǒng)計(jì)了處于發(fā)文量前幾位的領(lǐng)域。它們分別是計(jì)算機(jī)科學(xué)(84.4%)、電子工程學(xué)(15.0%)、生物信息學(xué)(11.3%)、運(yùn)籌學(xué)與管理學(xué)(4.7%)、醫(yī)學(xué)(4.4%)、統(tǒng)計(jì)學(xué)(3.5%)、信息科學(xué)和圖書館科學(xué)(2.2%)?梢,計(jì)算機(jī)和工程領(lǐng)域是知識發(fā)現(xiàn)研究的主要科學(xué)領(lǐng)域,與其它領(lǐng)域相比,生物信息學(xué)領(lǐng)域的知識發(fā)現(xiàn)研究已進(jìn)入全面發(fā)展階段。
本文通過對作者所列關(guān)鍵詞的統(tǒng)計(jì)進(jìn)行主題分析。表5列出知識發(fā)現(xiàn)研究文獻(xiàn)詞頻前幾位的關(guān)鍵詞。數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則、聚類、分類、可視化、神經(jīng)網(wǎng)絡(luò)是研究熱點(diǎn),生物信息學(xué)領(lǐng)域非常關(guān)注知識發(fā)現(xiàn)的研究,這與領(lǐng)域分布、經(jīng)典文獻(xiàn)領(lǐng)域分布分析具有一致性。圖3是前幾位關(guān)鍵詞的關(guān)聯(lián)可視化,節(jié)點(diǎn)的大小表示本節(jié)點(diǎn)記錄條數(shù)的多少,之間連線的虛實(shí)密度表示節(jié)點(diǎn)之間的關(guān)系,節(jié)點(diǎn)標(biāo)簽表示與該節(jié)點(diǎn)同時(shí)出現(xiàn)的其它節(jié)點(diǎn)及記錄數(shù)?梢钥闯觯鳛闄C(jī)器學(xué)習(xí)和分類的一種算法,決策樹與兩者同時(shí)出現(xiàn)次數(shù)較多;神經(jīng)網(wǎng)絡(luò)與可視化在生物信息學(xué)中的應(yīng)用較多。
3 結(jié)語
3.1 知識發(fā)現(xiàn)研究文獻(xiàn)狀況分析
通過對知識發(fā)現(xiàn)研究文獻(xiàn)的定量分析,反映出從20世紀(jì)90年代以來,知識發(fā)現(xiàn)研究文獻(xiàn)數(shù)量呈增長趨勢,特別是1996年以后,文獻(xiàn)數(shù)量激增,知識發(fā)現(xiàn)受到各領(lǐng)域的關(guān)注,尤其計(jì)算機(jī)科學(xué)和工程學(xué)、生物信息、醫(yī)學(xué)、管理學(xué)、統(tǒng)計(jì)學(xué)以及信息科學(xué)和圖書館學(xué)等領(lǐng)域,本文分析確定的35種核心期刊中,大部分是計(jì)算機(jī)科學(xué)和工程領(lǐng)域的期刊在研究知識發(fā)現(xiàn)的眾多機(jī)構(gòu)中,除了高校和科研機(jī)構(gòu)外,還有不少商業(yè)公司,從發(fā)文量和被引頻次角度確定的15位核心作者中,絕大部分學(xué)者從事的是計(jì)算機(jī)和生物信息學(xué)領(lǐng)域,如圖4所示,在發(fā)文較多的國家中,美國居于首位,除了歐美國家,亞洲國家對知識發(fā)現(xiàn)領(lǐng)域也比較關(guān)注,中國大陸、日本、韓國、中國臺灣都是發(fā)文量居于世界前列的國家和地區(qū);在發(fā)文前幾位的國家中,歐洲國家合作較多,我國與加拿大、澳大利亞的合作較多。
3.2 知識發(fā)現(xiàn)高影響力文獻(xiàn)分析
對高影響力文獻(xiàn)中10篇生物信息領(lǐng)域文獻(xiàn)進(jìn)行分析,其中一部分文獻(xiàn)研究了基于數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)庫的功能。如在文獻(xiàn)G-enevestigator.a(chǎn)rabidopsis microarray database and analy-sis toolbox中介紹到數(shù)據(jù)庫Genevestigator是個(gè)針對基因芯片數(shù)。
相關(guān)熱詞搜索:定量分析 文獻(xiàn) 發(fā)現(xiàn) 知識發(fā)現(xiàn)研究文獻(xiàn)定量分析 文獻(xiàn)定量分析 文獻(xiàn)定量分析的方法有
熱點(diǎn)文章閱讀