矩陣對(duì)角線(xiàn)元素之和 期刊共被引矩陣對(duì)角線(xiàn)問(wèn)題的實(shí)證研究
發(fā)布時(shí)間:2020-03-07 來(lái)源: 日記大全 點(diǎn)擊:
[摘要]在共被引分析中,至關(guān)重要的一步是生成共被引矩陣。對(duì)共被引矩陣對(duì)角線(xiàn)的處理,學(xué)術(shù)界仍然存在爭(zhēng)議。在總結(jié)前人幾種對(duì)角線(xiàn)取值方法的基礎(chǔ)上,從社會(huì)網(wǎng)絡(luò)、共被引分析的原理和期刊動(dòng)態(tài)變化的特點(diǎn)三個(gè)角度出發(fā),認(rèn)為期刊共被引矩陣對(duì)角線(xiàn)的取值應(yīng)為該期刊與自身的實(shí)際共被引次數(shù),并通過(guò)實(shí)證數(shù)據(jù)進(jìn)行驗(yàn)證。
[關(guān)鍵詞]期刊共被引 對(duì)角線(xiàn)取值 聚類(lèi)分析 核心-邊緣結(jié)構(gòu)分析
[分類(lèi)號(hào)]G350
1 引 言
共被引分析方法是引文分析方法的一種,自從1973年分別由Small和I.V.Marshakova提出后,就備受研究者們關(guān)注。根據(jù)分析對(duì)象的不同,共被引分析方法主要分為文獻(xiàn)共被引、作者共被引、期刊共被引和專(zhuān)利共被引等幾種。
期刊共被引是以期刊為基本單元而建立的共被引關(guān)系。期刊共被引分析方法于1991年McCain首先引入并運(yùn)用于期刊及學(xué)科領(lǐng)域的研究以來(lái),理論與方法逐漸發(fā)展,運(yùn)用領(lǐng)域也不斷擴(kuò)大。隨著科學(xué)知識(shí)圖譜、可視化技術(shù)、社會(huì)網(wǎng)絡(luò)分析等逐漸成為科學(xué)計(jì)量學(xué)研究的熱門(mén),期刊共被引分析越來(lái)越成為人們關(guān)注的熱點(diǎn)。
期刊共被引分析的步驟,學(xué)術(shù)界普遍采用1990年McCain對(duì)作者共被引技術(shù)總結(jié)的模式,其歸納為選擇作者、檢索共被引頻次、生成共被引矩陣、轉(zhuǎn)化為Pear.SOil相關(guān)系數(shù)矩陣、多元分析和解釋結(jié)果等幾個(gè)步驟。這幾個(gè)步驟中,生成共被引矩陣是基礎(chǔ)和關(guān)鍵的一步,后面的分析均基于該矩陣。
共被引矩陣是個(gè)對(duì)稱(chēng)矩陣,非對(duì)角線(xiàn)上元素表示兩兩之間共被引的次數(shù)(也稱(chēng)共被引強(qiáng)度),共被引強(qiáng)度越高,則說(shuō)明關(guān)系越密切;然而,對(duì)共被引矩陣對(duì)角線(xiàn)取值的處理,學(xué)術(shù)界提出過(guò)多種觀點(diǎn),但至今沒(méi)有統(tǒng)一的定論。由于不同的對(duì)角線(xiàn)取值,會(huì)造成期刊共被引分析結(jié)果的差異,因此有必要對(duì)期刊共被引矩陣對(duì)角線(xiàn)取值問(wèn)題進(jìn)行探究。
2 共被引矩陣對(duì)角線(xiàn)取值的幾種方法
2.1 總被引次數(shù)
對(duì)角線(xiàn)上的數(shù)值采用文獻(xiàn)總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù)),這是學(xué)者們對(duì)共被引分析對(duì)角線(xiàn)取值的最初思考。國(guó)內(nèi)學(xué)術(shù)界一些早期的研究L2-3]即采用這種觀點(diǎn)。這種做法,數(shù)據(jù)易取,容易操作。但其取值依據(jù)明顯與共被引理論不一致,造成分析的結(jié)果失真嚴(yán)重。因而,用總被引次數(shù)填充共被引矩陣對(duì)角線(xiàn)的做法,逐漸被其他做法代替。
2.2排序前三的共被引頻次之和的一半
White和Grififth最初是將對(duì)角線(xiàn)值定為:排序前三的共被引頻次之和的一半。因?yàn),一方面?duì)角線(xiàn)上取作者總被引次數(shù)遠(yuǎn)遠(yuǎn)高出其他作者間的共被引次數(shù),另一方面是作者同名造成的影響很大。
對(duì)角線(xiàn)取排序前三的共被引頻次之和的一半,部分解決了失真和作者同名的問(wèn)題,又可突出共被引分析中對(duì)角線(xiàn)上數(shù)值的相對(duì)重要性。這樣做能解決對(duì)角線(xiàn)取總被引次數(shù)的一些問(wèn)題,但此做法的合理性缺乏有效的證明。并且,現(xiàn)代檢索技術(shù)的發(fā)展,同名的問(wèn)題已基本得到解決。
2.3 缺失值
對(duì)角線(xiàn)上的取值直接采用默認(rèn)的缺失值,是Mc.Cain提出的,這也是影響最廣泛、目前最普遍的一種對(duì)角線(xiàn)確定方法。MeCain提出這種做法,也是為了解決對(duì)角線(xiàn)上采用總被引次數(shù)造成失真嚴(yán)重的問(wèn)題,并通過(guò)作者共被引的實(shí)例證實(shí)缺失值的聚類(lèi)、多維尺度、主成分分析的結(jié)果與White和Griffith采用排序前三的一半的做法,結(jié)果相差不大。
在聚類(lèi)分析、多維尺度分析中,對(duì)角線(xiàn)值缺失的共被引矩陣需要將對(duì)角線(xiàn)默認(rèn)為0,再轉(zhuǎn)化成相關(guān)系數(shù)矩陣,這樣相似矩陣對(duì)角線(xiàn)就自動(dòng)變?yōu)?,這種取值方法解決了進(jìn)一步多元分析中程序的限制問(wèn)題。從表面看來(lái),在處理數(shù)據(jù)方面非常方便,但忽略了研究對(duì)象的背景與含義。共被引矩陣是考察各對(duì)象之間親疏關(guān)系的相似矩陣,撇開(kāi)對(duì)象與自己的關(guān)系,孤立地分析對(duì)象與對(duì)象之間的親疏關(guān)系,存在一定的不合理性。
2.4 最大值和最大值+1
White在文獻(xiàn)[6]中,建議使用期刊被引頻次的最大值作為對(duì)角線(xiàn)取值。他從Person相關(guān)系數(shù)矩陣測(cè)度相似性的角度出發(fā),并通過(guò)實(shí)例,說(shuō)明采用默認(rèn)值的做法會(huì)使分析結(jié)果存在一定的人為特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸顯對(duì)角線(xiàn)的重要性,也方便操作。
我國(guó)學(xué)者邱均平從臨近矩陣的角度出發(fā),認(rèn)為:按照共被引的假設(shè)――具有相同的共被引強(qiáng)度意味著具有相同的相似程度,期刊與自身的關(guān)系應(yīng)為最親近(相似),建議用最大值+1來(lái)凸顯期刊與自身的親密關(guān)系,并以編輯出版類(lèi)期刊群和圖書(shū)館學(xué)情報(bào)學(xué)期刊群做了實(shí)證分析。
采用最大值或最大值+1的做法,從相似性的角度看,存在一定的合理性,而且數(shù)據(jù)易取,操作簡(jiǎn)單。但難于解釋的一個(gè)問(wèn)題是:為何取最大值或最大值+1,而不是最大值+2、最大值+N?理論依據(jù)是什么?另外,“期刊與自身的關(guān)系最親近”這一假設(shè)同樣存在一定的局限性。在文獻(xiàn)(或?qū)@?共被引中,共引意味著文獻(xiàn)(或?qū)@?相互引證,文獻(xiàn)(或?qū)@?主題存在相似性,共被引強(qiáng)度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究領(lǐng)域的改變、期刊辦刊方向的變化等都會(huì)造成“期刊與自身關(guān)系最親近”的假設(shè)不成立。
2.5期刊與自身的實(shí)際共被引次數(shù)
Ahlgren等認(rèn)為,采用排序前三的共被引頻次之和一半和缺失值的做法僅是采用總被引次數(shù)的替換。雖然能生成共被引矩陣,但并不是最好的做法。從共被引的原理和統(tǒng)計(jì)意義上,應(yīng)該使用自己與自己實(shí)際共被引次數(shù),這樣產(chǎn)生的矩陣才是嚴(yán)格意義上的共被引矩陣。此結(jié)論是Ahlgren在探討作者共被引分析時(shí)得出的,這種做法由于數(shù)據(jù)收集困難而很少被采用,更缺乏實(shí)證的驗(yàn)證。
通過(guò)以上分析,本文認(rèn)為,針對(duì)作者、期刊、專(zhuān)利等不同分析對(duì)象的特點(diǎn),對(duì)角線(xiàn)取值方式應(yīng)該有所不同。從社會(huì)網(wǎng)絡(luò)、共被引分析的原理和期刊動(dòng)態(tài)變化的特點(diǎn)三個(gè)角度看,期刊共被引矩陣對(duì)角線(xiàn)取值采用期刊與自身的實(shí)際共被引次數(shù)最為合理。
首先,從社會(huì)網(wǎng)絡(luò)的角度看,期刊共被引矩陣(網(wǎng)絡(luò))是典型的自反網(wǎng)絡(luò),即期刊與自身是有關(guān)系的;因此,在考察期刊群之間相互關(guān)系的過(guò)程中,不應(yīng)該拋開(kāi)期刊與自身的關(guān)系,應(yīng)對(duì)其加以考慮。從這個(gè)意義上來(lái)說(shuō),對(duì)角線(xiàn)取缺失值的做法并不合理。
其次,期刊共被引關(guān)系把眾多的期刊按被引證關(guān)系聯(lián)系起來(lái),從期刊所載論文被利用的角度揭示期刊之間的某種學(xué)科或?qū)I(yè)上的聯(lián)系。換言之,期刊共被引分析通過(guò)期刊所載文獻(xiàn)之間的共被引關(guān)系揭示期刊的主題、地位上的密切關(guān)系,而期刊共被引矩陣是期刊之間密切關(guān)系的外在表現(xiàn)。采用自己與自己實(shí)際共被引次數(shù)作為矩陣對(duì)角線(xiàn)的值,形成嚴(yán)格意義上的共被引矩陣,更符合共被引原理。
第三,不同于耦合關(guān)系,共被引關(guān)系所反映的是變化的或暫時(shí)的關(guān)系,而且期刊共被引是對(duì)某一跨度時(shí)間內(nèi)形成的共被引關(guān)系進(jìn)行分析,因而有必要考慮期刊動(dòng)態(tài)變化的特點(diǎn)。造成這種變化可能是期刊季 刊、雙月刊、月刊、半月刊的改變,也存在期刊載文主題的變化。在這個(gè)意義上,“期刊自己與自己的關(guān)系最為密切”的假設(shè)并不一定成立,共被引矩陣對(duì)角線(xiàn)取最大值、最大值+1或其他遠(yuǎn)大于非對(duì)角線(xiàn)的做法的合理性值得商榷。而這幾種對(duì)角線(xiàn)取值方式中,最能反映期刊動(dòng)態(tài)變化的是實(shí)際共被引次數(shù)。
3 實(shí)證研究――以圖書(shū)情報(bào)學(xué)期刊群為例
3.1 數(shù)據(jù)的收集和處理方法
前面提到,對(duì)角線(xiàn)上的數(shù)值采用文獻(xiàn)總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù))的做法,是共被引分析的最初做法,已逐漸被其他方法完全替代。這里不再對(duì)該種做法進(jìn)行研究。其余幾種對(duì)角線(xiàn)的處理方法,本文通過(guò)實(shí)例進(jìn)行聚類(lèi)分析和核心一邊緣結(jié)構(gòu)分析,對(duì)各種對(duì)角線(xiàn)取值方式得到的結(jié)果進(jìn)行比較。
本文以文獻(xiàn)[9]為基礎(chǔ),采用該文選取的期刊群及數(shù)據(jù)收集的時(shí)間段,同樣以CNKI為信息源及相關(guān)的分析軟件(sPSS及UCINET),并于2009年8月13日對(duì)文獻(xiàn)[9]中期刊源(29種)的共被引數(shù)據(jù)進(jìn)行檢索整理,得到如表1所示的共被引矩陣①:
3.2 聚類(lèi)分析和核心-邊緣模型分析
共被引矩陣的不同會(huì)影響分析的結(jié)果,而造成共被引矩陣不同的原因是對(duì)角線(xiàn)的處理方法。以下是對(duì)幾種對(duì)角線(xiàn)處理方法逐一進(jìn)行聚類(lèi)分析和核心一邊緣模型分析。
3.2.1排序前三的共被引頻次之和的一半 圖1是采用該種對(duì)角線(xiàn)處理方法的聚類(lèi)分析圖。從聚類(lèi)分析結(jié)果,我們可以清楚地看到,采用排序前三的共被引頻次之和的一半的做法,將這29種期刊聚類(lèi)成三大類(lèi):第一類(lèi)包括《圖書(shū)情報(bào)工作》、《中國(guó)圖書(shū)館學(xué)報(bào)》等21種(圖1中a類(lèi))偏圖書(shū)館學(xué)領(lǐng)域的期刊和《情報(bào)理論與實(shí)踐》、《情報(bào)學(xué)報(bào)》等5種(上圖中b類(lèi))偏情報(bào)學(xué)領(lǐng)域的期刊;第二類(lèi)為《農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊》和《情報(bào)探索》;第三類(lèi)是《中華醫(yī)學(xué)圖書(shū)情報(bào)雜志》。這種對(duì)角線(xiàn)取值的方法,第一類(lèi)包含了29種期刊中的26種,圖書(shū)館學(xué)領(lǐng)域期刊群和情報(bào)學(xué)領(lǐng)域期刊群聚成一個(gè)大類(lèi)。
圖1右邊核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)能達(dá)到0.919。這里得到的期刊核心度數(shù)值與邱均平、李俊佩的文獻(xiàn)《圖書(shū)情報(bào)學(xué)期刊的同被引研究》存在不同,但期刊核心度排名基本一致。
3.2.2缺失值對(duì)角線(xiàn)默認(rèn)缺失值是共被引分析最普遍的做法。圖2是對(duì)角線(xiàn)取缺失值的期刊共被引聚類(lèi)圖和核心邊緣結(jié)構(gòu)分析圖。聚類(lèi)結(jié)果同樣不精確,除《圖書(shū)情報(bào)工作》、《情報(bào)理論與實(shí)踐》與《情報(bào)學(xué)報(bào)》各聚成一類(lèi)外,其余聚成一個(gè)大類(lèi)。而核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.889。
3.2.3 最大值和最大值+1最大值和最大值+1得到聚類(lèi)分析和核心邊緣分析結(jié)果幾乎相同,如圖3和
聚類(lèi)分析將29種期刊大致分成四類(lèi):第一類(lèi)包括22種期刊,這些期刊主要以圖書(shū)館學(xué)領(lǐng)域的文章為主;第二類(lèi)是以情報(bào)學(xué)領(lǐng)域的文章為主的期刊,它們都是情報(bào)學(xué)期刊,并且技術(shù)方面的文章占的比例也相對(duì)較高;第三類(lèi)《情報(bào)探索》單獨(dú)成一類(lèi);第四類(lèi)是《中華醫(yī)學(xué)圖書(shū)情報(bào)雜志》單獨(dú)成一類(lèi)。
核心邊緣結(jié)構(gòu)分析顯示該取值方法與理想模型的相關(guān)系數(shù)為0.951。
3.2.4期刊與自身的實(shí)際共被引次數(shù)將期刊與自身的實(shí)際共被引次數(shù)作為共被引矩陣對(duì)角線(xiàn)數(shù)值得到的聚類(lèi)見(jiàn)圖5,分為四類(lèi):
?第一類(lèi)是研究圖書(shū)館學(xué)主題為主的23種期刊,包括《圖書(shū)情報(bào)工作》、《中國(guó)圖書(shū)館學(xué)報(bào)》等。這23種期刊又分成四個(gè)子類(lèi):a類(lèi)全部都是圖書(shū)館學(xué)的核心期刊;b類(lèi)包括各地圖書(shū)館學(xué)期刊,大多不是核心期刊;c類(lèi)是以情報(bào)學(xué)為主題較多的期刊;d類(lèi)是偏應(yīng)用較多的期刊。
?第二類(lèi)是主題以情報(bào)學(xué)為主的4種期刊:《情報(bào)理論與實(shí)踐》、《情報(bào)學(xué)報(bào)》、《情報(bào)科學(xué)》和《現(xiàn)代圖書(shū)情報(bào)技術(shù)》。
?第三類(lèi)、第四類(lèi)分別是獨(dú)自成一類(lèi)的《農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊》及《中華醫(yī)學(xué)圖書(shū)情報(bào)雜志》,這兩種期刊都是以特定專(zhuān)業(yè)領(lǐng)域?yàn)橹黝}的期刊。
將實(shí)際共被引次數(shù)作為共被引矩陣對(duì)角線(xiàn)數(shù)值,進(jìn)行核心邊緣結(jié)構(gòu)分析,顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.962,優(yōu)于其他取值方法得到的結(jié)果。
3.3對(duì)比分析
從聚類(lèi)結(jié)果上看,上文中3.2.1、3.2.2聚類(lèi)結(jié)果較為模糊,形成類(lèi)別少,類(lèi)內(nèi)距離很大;3.2.3能聚成四類(lèi),但其第一類(lèi)的組內(nèi)距離很大;3.2.4最能滿(mǎn)足層次聚類(lèi)法“類(lèi)內(nèi)距離小,類(lèi)間距離大”的條件,聚類(lèi)結(jié)果更為良好。
和3.2.3比較,3.2.4除了聚類(lèi)分類(lèi)更詳細(xì)更準(zhǔn)確外,還有一個(gè)差別,即:《情報(bào)資料工作》期刊的歸類(lèi)不同:3.2.3將該刊物聚為情報(bào)學(xué)期刊子群,3.2.4則歸為圖書(shū)館學(xué)期刊子群。為驗(yàn)證其歸屬,筆者對(duì)《情報(bào)資料工作》2002-2007年發(fā)表學(xué)術(shù)論文的關(guān)鍵詞進(jìn)行考察?紤]到關(guān)鍵詞是表征論文內(nèi)容的核心詞匯,本文將從對(duì)關(guān)鍵詞的統(tǒng)計(jì)對(duì)上述問(wèn)題給出解釋。統(tǒng)計(jì)結(jié)果顯示,2002-2007各年間,《情報(bào)資料工作》刊載學(xué)術(shù)論文的前十位高頻關(guān)鍵詞(限于篇幅,具體數(shù)據(jù)略去,有需要可向作者索取),更多表征的是圖書(shū)館學(xué)的內(nèi)容,特別需要一提的是除了2007年排名第二的高頻關(guān)鍵詞是“知識(shí)管理”,其余各年排名第一、第二的高頻關(guān)鍵詞表征的均是圖書(shū)館學(xué)的內(nèi)容。這也從另一個(gè)側(cè)面證明了《情報(bào)資料工作》歸類(lèi)于圖書(shū)館學(xué)期刊更為合理。
從核心一邊緣結(jié)構(gòu)分析結(jié)果來(lái)看,對(duì)角線(xiàn)取值的不同會(huì)影響期刊核心度,但對(duì)核心度排名的影響不大。就分析結(jié)果和理想模型的擬合系數(shù)來(lái)看,3.2.4能達(dá)到0.962,是這幾種取值方法中最高的,這也從實(shí)證的角度證明對(duì)角線(xiàn)取值為“期刊與自身的實(shí)際共被引次數(shù)”更為合理。
4 結(jié)語(yǔ)
共被引分析是學(xué)術(shù)界的熱點(diǎn)內(nèi)容之一,共被引矩陣的對(duì)角線(xiàn)取值問(wèn)題也是學(xué)術(shù)界爭(zhēng)議的熱點(diǎn)話(huà)題。盡管本文從實(shí)證的角度,證明了將期刊與自身的共被引頻數(shù)作為期刊共被引矩陣的對(duì)角線(xiàn)取值更加合理,但其統(tǒng)計(jì)學(xué)的理論意義還有待進(jìn)一步研究。另一方面,由于共被引數(shù)據(jù)在時(shí)間上有累積效應(yīng),因此數(shù)據(jù)檢索的合理時(shí)間范圍如何確定也是未來(lái)的研究?jī)?nèi)容之一。
致謝:感謝中國(guó)知網(wǎng)的張玉榮女士對(duì)本文數(shù)據(jù)檢索提供的幫助.作者在此表示衷心感謝!
相關(guān)熱詞搜索:對(duì)角線(xiàn) 矩陣 期刊 期刊共被引矩陣對(duì)角線(xiàn)問(wèn)題的實(shí)證研究 在進(jìn)行期刊共被引研究中 期刊同被引的社會(huì)網(wǎng)絡(luò)分析
熱點(diǎn)文章閱讀