基于圖書(shū)借閱的人類行為標(biāo)度律分析|嫁給非人類 八坂漫畫(huà)
發(fā)布時(shí)間:2020-03-07 來(lái)源: 歷史回眸 點(diǎn)擊:
[摘要]通過(guò)研究?jī)伤髮W(xué)圖書(shū)館數(shù)據(jù)庫(kù)中的真實(shí)資料,從群體和個(gè)體兩個(gè)層面分析一次借閱過(guò)程中圖書(shū)的借閱時(shí)間和用戶連續(xù)兩次借閱或還回圖書(shū)的時(shí)間間隔等統(tǒng)計(jì)特征。結(jié)果表明,群體行為與個(gè)體行為表現(xiàn)出不同的統(tǒng)計(jì)特征,除群體行為的借閱時(shí)間表現(xiàn)為指數(shù)分布外,其它統(tǒng)計(jì)量都服從指數(shù)范圍為1至3的冪律分布。研究說(shuō)明,人類行為在群體和個(gè)體層面上具有不同的多重標(biāo)度特性。
[關(guān)鍵詞]人類行為動(dòng)力學(xué) 圖書(shū)借閱 冪律分布 指數(shù)分布
[分類號(hào)]N94
1 引言
千差萬(wàn)別的人類行為驅(qū)動(dòng)著社會(huì)經(jīng)濟(jì)的發(fā)展變化,定量研究人類行為就是為了從復(fù)雜紛紜的現(xiàn)象中揭示人類行為的普遍規(guī)律,以便有效地控制和預(yù)測(cè)人類的行為,更好地促進(jìn)社會(huì)和人類自身的發(fā)展,維持社會(huì)生活的正常秩序。對(duì)人類行為的研究吸引了包括社會(huì)學(xué)、心理學(xué)、人類學(xué)、數(shù)學(xué)等多個(gè)學(xué)科領(lǐng)域?qū)W者的共同關(guān)注,但由于人類自身的復(fù)雜性和多樣性,對(duì)一切科學(xué)的嘗試來(lái)說(shuō)都是巨大的挑戰(zhàn)。到目前為止,絕大多數(shù)命題和結(jié)論都是定性描述的。
早期對(duì)人類行為的研究均假設(shè)人類行為的發(fā)出從總體上看是隨機(jī)和穩(wěn)態(tài)的。據(jù)此,人類行為可以用泊松過(guò)程來(lái)描述,即相繼行為發(fā)出的時(shí)間間隔是較為均勻的。但是,近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)的長(zhǎng)足發(fā)展和應(yīng)用,有了更多的機(jī)會(huì)得到記錄人類活動(dòng)歷史的大量精確數(shù)據(jù),并從中挖掘統(tǒng)計(jì)規(guī)律,特別是人類行為產(chǎn)生的時(shí)間統(tǒng)計(jì)特性。Barabasi等人的實(shí)證研究和理論分析暗示大量由人類活動(dòng)驅(qū)動(dòng)的系統(tǒng)具有明顯偏離泊松統(tǒng)計(jì)的性質(zhì):人類行為的發(fā)出具有短時(shí)間內(nèi)爆發(fā)和長(zhǎng)時(shí)間內(nèi)靜默并存的特征。這些發(fā)現(xiàn)對(duì)傳統(tǒng)的基于泊松過(guò)程的排隊(duì)論提出了巨大的理論挑戰(zhàn)。
Barabasi等人的工作開(kāi)創(chuàng)了“人類動(dòng)力學(xué)”的新研究方向。盡管這個(gè)方向問(wèn)世時(shí)間很短,但是由于其理論和應(yīng)用上的雙重價(jià)值,很快就吸引了國(guó)際上許多知名科學(xué)家的關(guān)注。對(duì)現(xiàn)實(shí)生活、工作中人類活動(dòng)的大量實(shí)證分析結(jié)果相繼面世,如商業(yè)交易、網(wǎng)頁(yè)瀏覽、電影點(diǎn)播、在線游戲、手機(jī)短信、郵件通信等,均得到了人類行為發(fā)出的時(shí)間間隔服從冪律分布的結(jié)論,且冪指數(shù)大多分布在1至3之間。縱觀這些實(shí)證分析,大部分是單純基于群體行為或者個(gè)體行為的分析。顯然,個(gè)體行為無(wú)法代表群體行為,群體行為的統(tǒng)計(jì)特征也未必適用于每一個(gè)個(gè)體。因此,本文將從圖書(shū)借閱行為出發(fā)探尋人類群體行為和個(gè)體行為之間的關(guān)系。
自古以來(lái),圖書(shū)就是人類獲取信息的重要來(lái)源,而圖書(shū)館是人類精神財(cái)富的寶庫(kù),是人類精神文明的重要組成部分,是人類取之不盡、用之不竭的知識(shí)資源。圖書(shū)借閱行為是一種重要的人類活動(dòng),象征了人類對(duì)于信息和知識(shí)的追求。分析圖書(shū)借閱行為有助于理解人類行為特征,進(jìn)而為圖書(shū)館以及圖書(shū)借閱系統(tǒng)的設(shè)計(jì)提供理論依據(jù)。Vazquez等人對(duì)圣母大學(xué)全體教工的借閱行為進(jìn)行了統(tǒng)計(jì)分析,得出借閱行為的時(shí)間間隔服從指數(shù)為1的冪律分布的結(jié)論;傅林華等人和洪少春分別建立了圖書(shū)借閱關(guān)系網(wǎng),分析了度分布和聚類系數(shù),結(jié)果各項(xiàng)統(tǒng)計(jì)值均服從指數(shù)分布N(k)∝ exp(-ck),而不是人類動(dòng)力學(xué)研究中更常見(jiàn)的冪律分布N(k)∝k-1;李楠楠等人建立了圖書(shū)借閱網(wǎng)的二分圖,同樣發(fā)現(xiàn)項(xiàng)目大小、節(jié)點(diǎn)項(xiàng)目度以及節(jié)點(diǎn)強(qiáng)度服從指數(shù)分布的統(tǒng)計(jì)規(guī)律。本文將從群體行為和個(gè)體行為兩個(gè)層面上統(tǒng)計(jì)一次借閱過(guò)程中圖書(shū)的借閱時(shí)間和讀者借書(shū)、還書(shū)的時(shí)間間隔,由此進(jìn)一步考察人類社會(huì)系統(tǒng)的標(biāo)度特征。
2 數(shù)據(jù)來(lái)源與統(tǒng)計(jì)方法
本文研究的數(shù)據(jù)來(lái)自國(guó)內(nèi)兩所不同大學(xué)的圖書(shū)館數(shù)據(jù)庫(kù),以其中的真實(shí)借閱記錄為研究對(duì)象。數(shù)據(jù)庫(kù)A中的讀者包括本科生、研究生和教職工共13 866名,對(duì)圖書(shū)借閱時(shí)間和個(gè)體用戶的借書(shū)時(shí)間間隔的研究使用數(shù)據(jù)庫(kù)中所有的772 504條借閱記錄,對(duì)個(gè)體用戶還書(shū)時(shí)間間隔的研究使用其中的647 048條記錄(因?yàn)榻刂箶?shù)據(jù)庫(kù)的備份時(shí)間部分圖書(shū)尚未還回),對(duì)群體的借還書(shū)時(shí)間間隔分布的研究使用其中的139 606條記錄(由于早期記錄未能精確到秒)。對(duì)于數(shù)據(jù)庫(kù)B的分析,則跟蹤3 852名05級(jí)本科生從入校到畢業(yè)四年中的借閱記錄,共328 795條,較大的數(shù)據(jù)量足以反映真實(shí)的統(tǒng)計(jì)規(guī)律。為簡(jiǎn)便起見(jiàn),對(duì)冪律分布的分析判斷采用一元線性回歸和最小二乘法得出擬合直線斜率即冪指數(shù),擬合精度滿足R2>0.97。
3 群體用戶借閱行為的統(tǒng)計(jì)特征
人和人之間并不是孤立的,而是一個(gè)相互聯(lián)系的整體,他們之間是有著很強(qiáng)的聯(lián)系性,例如同學(xué)、同事或朋友之間會(huì)一起聚會(huì)、一起探討問(wèn)題、相互推薦自己看過(guò)的電影、網(wǎng)站和書(shū)籍,信息正是在這樣的群體環(huán)境下傳遞的。因此用戶的群體行為具有更直接的研究意義。
3.1 群體用戶圖書(shū)借閱時(shí)間的概率分布
這里的“群體用戶”指的是不區(qū)分讀者身份,把所有讀者看成一個(gè)整體進(jìn)行研究。“圖書(shū)借閱時(shí)間”指的是一次完整的借閱過(guò)程中圖書(shū)從借出到還回的時(shí)間間隔,即借閱過(guò)程的持續(xù)時(shí)間,以天為單位。從排隊(duì)論角度考慮,若將讀者看作服務(wù)臺(tái),圖書(shū)看作顧客,則借閱時(shí)間可以看作服務(wù)時(shí)間,對(duì)其研究在一定程度上反應(yīng)了服務(wù)臺(tái)的工作效率和服務(wù)強(qiáng)度。雙對(duì)數(shù)坐標(biāo)下群體用戶圖書(shū)借閱時(shí)間的概率分布,如圖1所示:
從整體上看圖1中兩幅圖形都有平緩的頭部和龐大的尾部,中段部分可以用斜率分別為-5.4和-6.7的直線近似擬合。但是考慮到圖書(shū)館對(duì)圖書(shū)借閱期限的規(guī)定,圖書(shū)的借閱時(shí)間最長(zhǎng)為90天,因此該圖形只有頭部是有效的。中部和尾部點(diǎn)的數(shù)量雖然眾多,但在概率上分別只占到總體的7%和不到1%,因此該曲線的頭部能夠真實(shí)的描述現(xiàn)實(shí)情況,如圖2所示:進(jìn)一步對(duì)圖形的頭部進(jìn)行分析,在雙對(duì)數(shù)坐標(biāo)中進(jìn)行曲線擬合,可以發(fā)現(xiàn)該概率分布服從指數(shù)分布,而不是近年來(lái)大量發(fā)現(xiàn)的冪律分布,兩條擬合的指數(shù)函數(shù)分別是y=-0.0223e和y=-0.0543e。這說(shuō)明在群體層面上,讀者的圖書(shū)借閱時(shí)間具有隨機(jī)性和均勻性。兩者在指數(shù)上的差異也反映了借閱時(shí)間分布上的不同特征,如數(shù)據(jù)庫(kù)B中借閱時(shí)間較短的圖書(shū)的比例明顯高于數(shù)據(jù)庫(kù)A,而借閱時(shí)間較長(zhǎng)的圖書(shū)的比例則明顯低于數(shù)據(jù)庫(kù)A。經(jīng)計(jì)算,兩個(gè)圖書(shū)館中圖書(shū)的平均借閱時(shí)間分別是33天和20天,這說(shuō)明對(duì)于圖書(shū)館A來(lái)說(shuō),大多數(shù)圖書(shū)都要辦理一次續(xù)借,30天的借閱期限略短,而對(duì)于圖書(shū)館B來(lái)說(shuō),圖書(shū)的流通更快,周轉(zhuǎn)期更短。這也和兩個(gè)圖書(shū)館的電子化程度和借閱制度有關(guān),A館允許讀者在網(wǎng)上續(xù)借一次,操作十分方便,而B(niǎo)館則必須在借閱處辦理續(xù)借,手續(xù)較繁瑣,因此縮短了借閱時(shí)間,但有利于加快流通速度。
圖1和圖2中都可以在圖形主體的上方看到一些高高在上的“特殊”的點(diǎn),即這些點(diǎn)對(duì)應(yīng)的時(shí)間出現(xiàn)的概率要大。經(jīng)過(guò)分析,這些點(diǎn)對(duì)應(yīng)的橫坐標(biāo)都是7的倍數(shù)。究其原因是高校師生受作息規(guī)律、課程安排的影響,一般只能在每周的若干固定時(shí)間訪問(wèn)圖書(shū)館借還書(shū),因此圖書(shū)借閱行為表現(xiàn)出了一定的周期性,這一 現(xiàn)象在下面的研究中同樣會(huì)出現(xiàn)。
3.2 群體用戶借、還書(shū)時(shí)間間隔的概率分布
同類事件之間的時(shí)間間隔分布始終是人類行為動(dòng)力學(xué)研究的重點(diǎn)關(guān)注對(duì)象。把圖書(shū)館看作服務(wù)臺(tái),讀者所借的圖書(shū)看作顧客,則借還書(shū)的時(shí)間間隔表示顧客到達(dá)服務(wù)臺(tái)的時(shí)間間隔,即連續(xù)兩次借書(shū)或者還書(shū)行為之間的時(shí)間間隔。群體用戶借書(shū)和還書(shū)的時(shí)間間隔的概率分布,如圖3、圖4所示:
可以認(rèn)為,群體用戶借書(shū)和還書(shū)行為的時(shí)間間隔數(shù)據(jù)庫(kù)分布服從冪律。數(shù)據(jù)庫(kù)A的借、還書(shū)冪指數(shù)幾乎相同,數(shù)據(jù)庫(kù)B中略大,約為2.0,而數(shù)據(jù)庫(kù)B的兩個(gè)冪指數(shù)有一定的差別,且數(shù)值較大,達(dá)到了2.63和2.92。這樣的差別反應(yīng)了統(tǒng)計(jì)規(guī)模、讀者借閱量及借還書(shū)習(xí)慣等方面的差異,符合復(fù)雜系統(tǒng)和人類動(dòng)力學(xué)的性質(zhì)。
筆者從另一個(gè)角度分析了群體用戶在一定時(shí)間內(nèi)借、還書(shū)的累積概率分布(即在一定時(shí)間內(nèi)發(fā)生過(guò)連續(xù)兩次借、還書(shū)行為的概率)。從圖5可以清楚地看出讀者連續(xù)兩次借、還書(shū)的時(shí)間間隔具有很大的非均勻性,一周之內(nèi)的連續(xù)行為占到了絕大多數(shù)的比例(在四組數(shù)據(jù)中依次是87%、88%、81%和86%),只有極少數(shù)讀者在一次借、還書(shū)之后便很久不再借書(shū)。正是時(shí)間間隔的極度不均勻性造成了冪律分布的形成。
4 個(gè)體用戶借閱行為的統(tǒng)計(jì)特征
了解了群體用戶的行為特征,個(gè)體的行為特征是否也具有相同的統(tǒng)計(jì)特征呢?下面的分析基于個(gè)體,即對(duì)每個(gè)讀者分別進(jìn)行統(tǒng)計(jì)分析。
4.1 個(gè)體用戶圖書(shū)借閱時(shí)間的概率分布
由于數(shù)據(jù)庫(kù)A中借閱記錄的時(shí)間跨度較短,本文只對(duì)數(shù)據(jù)庫(kù)B中個(gè)體的借閱時(shí)間進(jìn)行分析。發(fā)現(xiàn)了大大不同于群體行為的統(tǒng)計(jì)特征,即個(gè)體用戶借閱時(shí)間的概率近似服從冪律分布,不同個(gè)體的冪指數(shù)不盡相同,大致集中在1.5附近。如圖6所示:
這說(shuō)明對(duì)于個(gè)體讀者來(lái)說(shuō)圖書(shū)的借閱時(shí)間分布非常不均勻,少數(shù)圖書(shū)的借閱時(shí)間很長(zhǎng)而大部分圖書(shū)借回后在較短時(shí)間內(nèi)即歸還給圖書(shū)館。這樣的實(shí)證結(jié)果容易用個(gè)體讀者的實(shí)際借閱行為解釋,所借閱的圖書(shū)大部分只需仔細(xì)閱讀其中的一部分,少數(shù)圖書(shū)才需要長(zhǎng)時(shí)間的仔細(xì)閱讀,特別是一些教材、參考書(shū)。因此,借閱時(shí)間的非均勻性也就造成了借閱時(shí)間概率分布的冪律形式。
本文進(jìn)一步統(tǒng)計(jì)了借閱時(shí)間排在前200名的圖書(shū),按照中圖分類號(hào)對(duì)這200種圖書(shū)進(jìn)行了分類統(tǒng)計(jì)。如表1所示:
借閱時(shí)間長(zhǎng)的圖書(shū)集中在計(jì)算機(jī)通信、英語(yǔ)、經(jīng)濟(jì)管理和數(shù)學(xué)類別的工具書(shū)、參考書(shū)上。F、H、O、T這四個(gè)類別的圖書(shū)的在前200名借閱量中占到總量的70.5%,在總的借閱量中則占到67.5%;若再把借閱時(shí)間只有15天的文學(xué)類圖書(shū)考慮進(jìn)來(lái),這兩個(gè)比例則分別達(dá)到72.5%和81.6%。借閱時(shí)間在不同類別圖書(shū)之間有著明顯的不均勻性也導(dǎo)致了概率分布呈現(xiàn)冪律。
4.2 個(gè)體用戶借、還書(shū)時(shí)間間隔的概率分布
這部分研究的是單個(gè)個(gè)體連續(xù)兩次借書(shū)或還書(shū)之間的時(shí)間間隔。每次以讀者證號(hào)為關(guān)鍵字從圖書(shū)借閱記錄中取出一個(gè)用戶進(jìn)行查詢,統(tǒng)計(jì)其借閱記錄,計(jì)算兩次借書(shū)或還書(shū)行為之間的時(shí)間間隔(見(jiàn)圖7)。
可以認(rèn)為個(gè)體用戶借、還書(shū)的時(shí)間間隔服從冪律分布,不同的個(gè)體冪指數(shù)有所區(qū)別。數(shù)據(jù)庫(kù)A中冪指數(shù)分布在0.6~1.6之間,線性擬合度高的個(gè)體冪指數(shù)集中在1.2附近,因此可以認(rèn)為個(gè)體用戶借書(shū)和還書(shū)的時(shí)間間隔均服從指數(shù)為1.2的冪律分布,而該值在數(shù)據(jù)庫(kù)B中約為1.4。
同時(shí)研究發(fā)現(xiàn),冪指數(shù)和借閱量有一定的正相關(guān)關(guān)系,即借閱量大的讀者,其借還書(shū)時(shí)間間隔的冪指數(shù)也大。數(shù)據(jù)庫(kù)A中部分個(gè)體借書(shū)的時(shí)間間隔的冪指數(shù)與借閱量的關(guān)系,如圖8所示:
由圖8可看出,雖然有波動(dòng)性,但兩者還是表現(xiàn)出了明顯的正相關(guān)關(guān)系。周濤在文獻(xiàn)[8]中將一個(gè)人從事某種活動(dòng)的強(qiáng)度定義為“活躍程度”,并指出“在很大的范圍內(nèi),冪指數(shù)和活躍程度之間存在正相關(guān)”。本文的研究很好地證明了這一點(diǎn),因?yàn)樽x者的借閱量也是該讀者作為節(jié)點(diǎn)在整個(gè)圖書(shū)借閱網(wǎng)絡(luò)中的活躍程度的體現(xiàn)。
5 結(jié)語(yǔ)與討論
關(guān)于圖書(shū)借閱記錄已有專家學(xué)者從不同角度做了分析研究,本文與前人研究的不同點(diǎn)在于從群體和個(gè)體兩個(gè)層面上對(duì)人類行為數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)分析。實(shí)證表明,對(duì)于圖書(shū)借閱時(shí)間,群體行為服從指數(shù)分布,而個(gè)體行為服從冪律分布;對(duì)于借還書(shū)的間隔時(shí)間,群體和個(gè)體行為都服從冪律分布,但冪指數(shù)有所不同,大致分布在1至3的范圍內(nèi),但在群體行為和個(gè)體行為上表現(xiàn)出明顯的區(qū)別,即前者的冪指數(shù)要大于后者。所有的統(tǒng)計(jì)量都表現(xiàn)出了明顯的偏離泊松分布的統(tǒng)計(jì)特征?梢哉J(rèn)為人類行為具有多重標(biāo)度特性。
對(duì)于群體行為的時(shí)間間隔分布的冪指數(shù)大于個(gè)體行為的冪指數(shù),可以從借閱行為發(fā)出的時(shí)間序列的角度解釋:由于群體行為是個(gè)體行為的疊加,前者的時(shí)間序列有更多的機(jī)會(huì)被大量個(gè)體發(fā)出的行為填充,因此也就縮短了時(shí)間間隔,即較小的時(shí)間間隔出現(xiàn)的幾率要遠(yuǎn)遠(yuǎn)大過(guò)較大的時(shí)間間隔。繪圖時(shí)數(shù)據(jù)點(diǎn)會(huì)更傾向于落在靠近y軸(概率軸)的位置,所得的圖形也就更陡峭一些,因而冪指數(shù)就更大。
由于對(duì)人類行為模式的定量分析是理解社會(huì)復(fù)雜系統(tǒng)的基礎(chǔ),因此,對(duì)人類行為規(guī)律的定量研究是十分必要的。圖書(shū)借閱系統(tǒng)也是一種典型的復(fù)雜系統(tǒng),本文從系統(tǒng)科學(xué)的角度對(duì)該系統(tǒng)進(jìn)行分析研究,希望對(duì)圖書(shū)借閱系統(tǒng)的分析設(shè)計(jì)和信息傳播提供有益的幫助。
相關(guān)熱詞搜索:標(biāo)度 借閱 人類 基于圖書(shū)借閱的人類行為標(biāo)度律分析 圖書(shū)情報(bào) 圖書(shū)情報(bào)碩士
熱點(diǎn)文章閱讀