基于圖書借閱的人類行為標(biāo)度律分析|嫁給非人類 八坂漫畫
發(fā)布時(shí)間:2020-03-07 來源: 歷史回眸 點(diǎn)擊:
[摘要]通過研究兩所大學(xué)圖書館數(shù)據(jù)庫中的真實(shí)資料,從群體和個(gè)體兩個(gè)層面分析一次借閱過程中圖書的借閱時(shí)間和用戶連續(xù)兩次借閱或還回圖書的時(shí)間間隔等統(tǒng)計(jì)特征。結(jié)果表明,群體行為與個(gè)體行為表現(xiàn)出不同的統(tǒng)計(jì)特征,除群體行為的借閱時(shí)間表現(xiàn)為指數(shù)分布外,其它統(tǒng)計(jì)量都服從指數(shù)范圍為1至3的冪律分布。研究說明,人類行為在群體和個(gè)體層面上具有不同的多重標(biāo)度特性。
[關(guān)鍵詞]人類行為動力學(xué) 圖書借閱 冪律分布 指數(shù)分布
[分類號]N94
1 引言
千差萬別的人類行為驅(qū)動著社會經(jīng)濟(jì)的發(fā)展變化,定量研究人類行為就是為了從復(fù)雜紛紜的現(xiàn)象中揭示人類行為的普遍規(guī)律,以便有效地控制和預(yù)測人類的行為,更好地促進(jìn)社會和人類自身的發(fā)展,維持社會生活的正常秩序。對人類行為的研究吸引了包括社會學(xué)、心理學(xué)、人類學(xué)、數(shù)學(xué)等多個(gè)學(xué)科領(lǐng)域?qū)W者的共同關(guān)注,但由于人類自身的復(fù)雜性和多樣性,對一切科學(xué)的嘗試來說都是巨大的挑戰(zhàn)。到目前為止,絕大多數(shù)命題和結(jié)論都是定性描述的。
早期對人類行為的研究均假設(shè)人類行為的發(fā)出從總體上看是隨機(jī)和穩(wěn)態(tài)的。據(jù)此,人類行為可以用泊松過程來描述,即相繼行為發(fā)出的時(shí)間間隔是較為均勻的。但是,近年來隨著數(shù)據(jù)庫技術(shù)的長足發(fā)展和應(yīng)用,有了更多的機(jī)會得到記錄人類活動歷史的大量精確數(shù)據(jù),并從中挖掘統(tǒng)計(jì)規(guī)律,特別是人類行為產(chǎn)生的時(shí)間統(tǒng)計(jì)特性。Barabasi等人的實(shí)證研究和理論分析暗示大量由人類活動驅(qū)動的系統(tǒng)具有明顯偏離泊松統(tǒng)計(jì)的性質(zhì):人類行為的發(fā)出具有短時(shí)間內(nèi)爆發(fā)和長時(shí)間內(nèi)靜默并存的特征。這些發(fā)現(xiàn)對傳統(tǒng)的基于泊松過程的排隊(duì)論提出了巨大的理論挑戰(zhàn)。
Barabasi等人的工作開創(chuàng)了“人類動力學(xué)”的新研究方向。盡管這個(gè)方向問世時(shí)間很短,但是由于其理論和應(yīng)用上的雙重價(jià)值,很快就吸引了國際上許多知名科學(xué)家的關(guān)注。對現(xiàn)實(shí)生活、工作中人類活動的大量實(shí)證分析結(jié)果相繼面世,如商業(yè)交易、網(wǎng)頁瀏覽、電影點(diǎn)播、在線游戲、手機(jī)短信、郵件通信等,均得到了人類行為發(fā)出的時(shí)間間隔服從冪律分布的結(jié)論,且冪指數(shù)大多分布在1至3之間?v觀這些實(shí)證分析,大部分是單純基于群體行為或者個(gè)體行為的分析。顯然,個(gè)體行為無法代表群體行為,群體行為的統(tǒng)計(jì)特征也未必適用于每一個(gè)個(gè)體。因此,本文將從圖書借閱行為出發(fā)探尋人類群體行為和個(gè)體行為之間的關(guān)系。
自古以來,圖書就是人類獲取信息的重要來源,而圖書館是人類精神財(cái)富的寶庫,是人類精神文明的重要組成部分,是人類取之不盡、用之不竭的知識資源。圖書借閱行為是一種重要的人類活動,象征了人類對于信息和知識的追求。分析圖書借閱行為有助于理解人類行為特征,進(jìn)而為圖書館以及圖書借閱系統(tǒng)的設(shè)計(jì)提供理論依據(jù)。Vazquez等人對圣母大學(xué)全體教工的借閱行為進(jìn)行了統(tǒng)計(jì)分析,得出借閱行為的時(shí)間間隔服從指數(shù)為1的冪律分布的結(jié)論;傅林華等人和洪少春分別建立了圖書借閱關(guān)系網(wǎng),分析了度分布和聚類系數(shù),結(jié)果各項(xiàng)統(tǒng)計(jì)值均服從指數(shù)分布N(k)∝ exp(-ck),而不是人類動力學(xué)研究中更常見的冪律分布N(k)∝k-1;李楠楠等人建立了圖書借閱網(wǎng)的二分圖,同樣發(fā)現(xiàn)項(xiàng)目大小、節(jié)點(diǎn)項(xiàng)目度以及節(jié)點(diǎn)強(qiáng)度服從指數(shù)分布的統(tǒng)計(jì)規(guī)律。本文將從群體行為和個(gè)體行為兩個(gè)層面上統(tǒng)計(jì)一次借閱過程中圖書的借閱時(shí)間和讀者借書、還書的時(shí)間間隔,由此進(jìn)一步考察人類社會系統(tǒng)的標(biāo)度特征。
2 數(shù)據(jù)來源與統(tǒng)計(jì)方法
本文研究的數(shù)據(jù)來自國內(nèi)兩所不同大學(xué)的圖書館數(shù)據(jù)庫,以其中的真實(shí)借閱記錄為研究對象。數(shù)據(jù)庫A中的讀者包括本科生、研究生和教職工共13 866名,對圖書借閱時(shí)間和個(gè)體用戶的借書時(shí)間間隔的研究使用數(shù)據(jù)庫中所有的772 504條借閱記錄,對個(gè)體用戶還書時(shí)間間隔的研究使用其中的647 048條記錄(因?yàn)榻刂箶?shù)據(jù)庫的備份時(shí)間部分圖書尚未還回),對群體的借還書時(shí)間間隔分布的研究使用其中的139 606條記錄(由于早期記錄未能精確到秒)。對于數(shù)據(jù)庫B的分析,則跟蹤3 852名05級本科生從入校到畢業(yè)四年中的借閱記錄,共328 795條,較大的數(shù)據(jù)量足以反映真實(shí)的統(tǒng)計(jì)規(guī)律。為簡便起見,對冪律分布的分析判斷采用一元線性回歸和最小二乘法得出擬合直線斜率即冪指數(shù),擬合精度滿足R2>0.97。
3 群體用戶借閱行為的統(tǒng)計(jì)特征
人和人之間并不是孤立的,而是一個(gè)相互聯(lián)系的整體,他們之間是有著很強(qiáng)的聯(lián)系性,例如同學(xué)、同事或朋友之間會一起聚會、一起探討問題、相互推薦自己看過的電影、網(wǎng)站和書籍,信息正是在這樣的群體環(huán)境下傳遞的。因此用戶的群體行為具有更直接的研究意義。
3.1 群體用戶圖書借閱時(shí)間的概率分布
這里的“群體用戶”指的是不區(qū)分讀者身份,把所有讀者看成一個(gè)整體進(jìn)行研究!皥D書借閱時(shí)間”指的是一次完整的借閱過程中圖書從借出到還回的時(shí)間間隔,即借閱過程的持續(xù)時(shí)間,以天為單位。從排隊(duì)論角度考慮,若將讀者看作服務(wù)臺,圖書看作顧客,則借閱時(shí)間可以看作服務(wù)時(shí)間,對其研究在一定程度上反應(yīng)了服務(wù)臺的工作效率和服務(wù)強(qiáng)度。雙對數(shù)坐標(biāo)下群體用戶圖書借閱時(shí)間的概率分布,如圖1所示:
從整體上看圖1中兩幅圖形都有平緩的頭部和龐大的尾部,中段部分可以用斜率分別為-5.4和-6.7的直線近似擬合。但是考慮到圖書館對圖書借閱期限的規(guī)定,圖書的借閱時(shí)間最長為90天,因此該圖形只有頭部是有效的。中部和尾部點(diǎn)的數(shù)量雖然眾多,但在概率上分別只占到總體的7%和不到1%,因此該曲線的頭部能夠真實(shí)的描述現(xiàn)實(shí)情況,如圖2所示:進(jìn)一步對圖形的頭部進(jìn)行分析,在雙對數(shù)坐標(biāo)中進(jìn)行曲線擬合,可以發(fā)現(xiàn)該概率分布服從指數(shù)分布,而不是近年來大量發(fā)現(xiàn)的冪律分布,兩條擬合的指數(shù)函數(shù)分別是y=-0.0223e和y=-0.0543e。這說明在群體層面上,讀者的圖書借閱時(shí)間具有隨機(jī)性和均勻性。兩者在指數(shù)上的差異也反映了借閱時(shí)間分布上的不同特征,如數(shù)據(jù)庫B中借閱時(shí)間較短的圖書的比例明顯高于數(shù)據(jù)庫A,而借閱時(shí)間較長的圖書的比例則明顯低于數(shù)據(jù)庫A。經(jīng)計(jì)算,兩個(gè)圖書館中圖書的平均借閱時(shí)間分別是33天和20天,這說明對于圖書館A來說,大多數(shù)圖書都要辦理一次續(xù)借,30天的借閱期限略短,而對于圖書館B來說,圖書的流通更快,周轉(zhuǎn)期更短。這也和兩個(gè)圖書館的電子化程度和借閱制度有關(guān),A館允許讀者在網(wǎng)上續(xù)借一次,操作十分方便,而B館則必須在借閱處辦理續(xù)借,手續(xù)較繁瑣,因此縮短了借閱時(shí)間,但有利于加快流通速度。
圖1和圖2中都可以在圖形主體的上方看到一些高高在上的“特殊”的點(diǎn),即這些點(diǎn)對應(yīng)的時(shí)間出現(xiàn)的概率要大。經(jīng)過分析,這些點(diǎn)對應(yīng)的橫坐標(biāo)都是7的倍數(shù)。究其原因是高校師生受作息規(guī)律、課程安排的影響,一般只能在每周的若干固定時(shí)間訪問圖書館借還書,因此圖書借閱行為表現(xiàn)出了一定的周期性,這一 現(xiàn)象在下面的研究中同樣會出現(xiàn)。
3.2 群體用戶借、還書時(shí)間間隔的概率分布
同類事件之間的時(shí)間間隔分布始終是人類行為動力學(xué)研究的重點(diǎn)關(guān)注對象。把圖書館看作服務(wù)臺,讀者所借的圖書看作顧客,則借還書的時(shí)間間隔表示顧客到達(dá)服務(wù)臺的時(shí)間間隔,即連續(xù)兩次借書或者還書行為之間的時(shí)間間隔。群體用戶借書和還書的時(shí)間間隔的概率分布,如圖3、圖4所示:
可以認(rèn)為,群體用戶借書和還書行為的時(shí)間間隔數(shù)據(jù)庫分布服從冪律。數(shù)據(jù)庫A的借、還書冪指數(shù)幾乎相同,數(shù)據(jù)庫B中略大,約為2.0,而數(shù)據(jù)庫B的兩個(gè)冪指數(shù)有一定的差別,且數(shù)值較大,達(dá)到了2.63和2.92。這樣的差別反應(yīng)了統(tǒng)計(jì)規(guī)模、讀者借閱量及借還書習(xí)慣等方面的差異,符合復(fù)雜系統(tǒng)和人類動力學(xué)的性質(zhì)。
筆者從另一個(gè)角度分析了群體用戶在一定時(shí)間內(nèi)借、還書的累積概率分布(即在一定時(shí)間內(nèi)發(fā)生過連續(xù)兩次借、還書行為的概率)。從圖5可以清楚地看出讀者連續(xù)兩次借、還書的時(shí)間間隔具有很大的非均勻性,一周之內(nèi)的連續(xù)行為占到了絕大多數(shù)的比例(在四組數(shù)據(jù)中依次是87%、88%、81%和86%),只有極少數(shù)讀者在一次借、還書之后便很久不再借書。正是時(shí)間間隔的極度不均勻性造成了冪律分布的形成。
4 個(gè)體用戶借閱行為的統(tǒng)計(jì)特征
了解了群體用戶的行為特征,個(gè)體的行為特征是否也具有相同的統(tǒng)計(jì)特征呢?下面的分析基于個(gè)體,即對每個(gè)讀者分別進(jìn)行統(tǒng)計(jì)分析。
4.1 個(gè)體用戶圖書借閱時(shí)間的概率分布
由于數(shù)據(jù)庫A中借閱記錄的時(shí)間跨度較短,本文只對數(shù)據(jù)庫B中個(gè)體的借閱時(shí)間進(jìn)行分析。發(fā)現(xiàn)了大大不同于群體行為的統(tǒng)計(jì)特征,即個(gè)體用戶借閱時(shí)間的概率近似服從冪律分布,不同個(gè)體的冪指數(shù)不盡相同,大致集中在1.5附近。如圖6所示:
這說明對于個(gè)體讀者來說圖書的借閱時(shí)間分布非常不均勻,少數(shù)圖書的借閱時(shí)間很長而大部分圖書借回后在較短時(shí)間內(nèi)即歸還給圖書館。這樣的實(shí)證結(jié)果容易用個(gè)體讀者的實(shí)際借閱行為解釋,所借閱的圖書大部分只需仔細(xì)閱讀其中的一部分,少數(shù)圖書才需要長時(shí)間的仔細(xì)閱讀,特別是一些教材、參考書。因此,借閱時(shí)間的非均勻性也就造成了借閱時(shí)間概率分布的冪律形式。
本文進(jìn)一步統(tǒng)計(jì)了借閱時(shí)間排在前200名的圖書,按照中圖分類號對這200種圖書進(jìn)行了分類統(tǒng)計(jì)。如表1所示:
借閱時(shí)間長的圖書集中在計(jì)算機(jī)通信、英語、經(jīng)濟(jì)管理和數(shù)學(xué)類別的工具書、參考書上。F、H、O、T這四個(gè)類別的圖書的在前200名借閱量中占到總量的70.5%,在總的借閱量中則占到67.5%;若再把借閱時(shí)間只有15天的文學(xué)類圖書考慮進(jìn)來,這兩個(gè)比例則分別達(dá)到72.5%和81.6%。借閱時(shí)間在不同類別圖書之間有著明顯的不均勻性也導(dǎo)致了概率分布呈現(xiàn)冪律。
4.2 個(gè)體用戶借、還書時(shí)間間隔的概率分布
這部分研究的是單個(gè)個(gè)體連續(xù)兩次借書或還書之間的時(shí)間間隔。每次以讀者證號為關(guān)鍵字從圖書借閱記錄中取出一個(gè)用戶進(jìn)行查詢,統(tǒng)計(jì)其借閱記錄,計(jì)算兩次借書或還書行為之間的時(shí)間間隔(見圖7)。
可以認(rèn)為個(gè)體用戶借、還書的時(shí)間間隔服從冪律分布,不同的個(gè)體冪指數(shù)有所區(qū)別。數(shù)據(jù)庫A中冪指數(shù)分布在0.6~1.6之間,線性擬合度高的個(gè)體冪指數(shù)集中在1.2附近,因此可以認(rèn)為個(gè)體用戶借書和還書的時(shí)間間隔均服從指數(shù)為1.2的冪律分布,而該值在數(shù)據(jù)庫B中約為1.4。
同時(shí)研究發(fā)現(xiàn),冪指數(shù)和借閱量有一定的正相關(guān)關(guān)系,即借閱量大的讀者,其借還書時(shí)間間隔的冪指數(shù)也大。數(shù)據(jù)庫A中部分個(gè)體借書的時(shí)間間隔的冪指數(shù)與借閱量的關(guān)系,如圖8所示:
由圖8可看出,雖然有波動性,但兩者還是表現(xiàn)出了明顯的正相關(guān)關(guān)系。周濤在文獻(xiàn)[8]中將一個(gè)人從事某種活動的強(qiáng)度定義為“活躍程度”,并指出“在很大的范圍內(nèi),冪指數(shù)和活躍程度之間存在正相關(guān)”。本文的研究很好地證明了這一點(diǎn),因?yàn)樽x者的借閱量也是該讀者作為節(jié)點(diǎn)在整個(gè)圖書借閱網(wǎng)絡(luò)中的活躍程度的體現(xiàn)。
5 結(jié)語與討論
關(guān)于圖書借閱記錄已有專家學(xué)者從不同角度做了分析研究,本文與前人研究的不同點(diǎn)在于從群體和個(gè)體兩個(gè)層面上對人類行為數(shù)據(jù)庫進(jìn)行統(tǒng)計(jì)分析。實(shí)證表明,對于圖書借閱時(shí)間,群體行為服從指數(shù)分布,而個(gè)體行為服從冪律分布;對于借還書的間隔時(shí)間,群體和個(gè)體行為都服從冪律分布,但冪指數(shù)有所不同,大致分布在1至3的范圍內(nèi),但在群體行為和個(gè)體行為上表現(xiàn)出明顯的區(qū)別,即前者的冪指數(shù)要大于后者。所有的統(tǒng)計(jì)量都表現(xiàn)出了明顯的偏離泊松分布的統(tǒng)計(jì)特征?梢哉J(rèn)為人類行為具有多重標(biāo)度特性。
對于群體行為的時(shí)間間隔分布的冪指數(shù)大于個(gè)體行為的冪指數(shù),可以從借閱行為發(fā)出的時(shí)間序列的角度解釋:由于群體行為是個(gè)體行為的疊加,前者的時(shí)間序列有更多的機(jī)會被大量個(gè)體發(fā)出的行為填充,因此也就縮短了時(shí)間間隔,即較小的時(shí)間間隔出現(xiàn)的幾率要遠(yuǎn)遠(yuǎn)大過較大的時(shí)間間隔。繪圖時(shí)數(shù)據(jù)點(diǎn)會更傾向于落在靠近y軸(概率軸)的位置,所得的圖形也就更陡峭一些,因而冪指數(shù)就更大。
由于對人類行為模式的定量分析是理解社會復(fù)雜系統(tǒng)的基礎(chǔ),因此,對人類行為規(guī)律的定量研究是十分必要的。圖書借閱系統(tǒng)也是一種典型的復(fù)雜系統(tǒng),本文從系統(tǒng)科學(xué)的角度對該系統(tǒng)進(jìn)行分析研究,希望對圖書借閱系統(tǒng)的分析設(shè)計(jì)和信息傳播提供有益的幫助。
相關(guān)熱詞搜索:標(biāo)度 借閱 人類 基于圖書借閱的人類行為標(biāo)度律分析 圖書情報(bào) 圖書情報(bào)碩士
熱點(diǎn)文章閱讀