分析方法_作者共被引分析方法進(jìn)展研究
發(fā)布時間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:
[摘要]綜述近幾年來作者共被引分析在研究方法上面臨的挑戰(zhàn),歸納其最新的研究進(jìn)展和發(fā)展趨勢,指出各種優(yōu)化方法目前面臨的問題,并就新的發(fā)展階段下該方法的優(yōu)化問題提出幾點(diǎn)注意事項,認(rèn)為不論是間接法還是直接法,任何一種方法的突破都能進(jìn)一步擴(kuò)展作者共被引分析的應(yīng)用范圍,并將作者共被引分析推向深入,也將使最后得到的分析結(jié)果更客觀、更可靠。
[關(guān)鍵詞]作者共被引分析 德瑞克賽模式 相似性度量 網(wǎng)絡(luò)尋址定位
[分類號]G350
1 作者共被引分析概述
1981年,美國費(fèi)城的德瑞克賽大學(xué)成為作者共被引分析(Author Co-citation Analysis,ACA)技術(shù)誕生的搖籃。該校的White和Griffith合作發(fā)表了《作者共被引:科學(xué)結(jié)構(gòu)的文獻(xiàn)測量方法》一文,從而開創(chuàng)了作者共被引的先河。1990年,McCain將ACA的分析步驟歸納為選擇作者、檢索共被引頻次、構(gòu)造共被引矩陣、轉(zhuǎn)化為皮爾遜相關(guān)系數(shù)矩陣、多元分析和解釋結(jié)果及效度分析6個步驟(見圖1),人們稱其為傳統(tǒng)ACA或德瑞克賽模式。該模式以SPSS、SAS等統(tǒng)計學(xué)軟什為工具,利用聚類分析(Cluster Analysis,CA)、多維定標(biāo)(Multidimensional Scaling,MDS)和因子分析(Fac-tor Analysis,F(xiàn)A)等多元分析技術(shù),以映射地圖的方式來定量地刻畫科學(xué)結(jié)構(gòu),尋找科學(xué)范式,為后來學(xué)者進(jìn)行ACA分析提供了良好的范例,F(xiàn)在,作者共被引分析已成為一種潛在多產(chǎn)的分析方法,不僅可以用它來揭示科學(xué)結(jié)構(gòu)的發(fā)展現(xiàn)狀乃至變化情況,還可以用它來進(jìn)行前沿分析、領(lǐng)域分析、科研評價等,進(jìn)而為宏觀科技決策提供先行支持,為科技規(guī)劃與評估提供基礎(chǔ)。
2 作者共被引分析方法面臨的挑戰(zhàn)
自1981年以來的20多年里,人們一直按照這種約定俗成的步驟來進(jìn)行ACA分析。然而2003年以來,不斷有研究人員向傳統(tǒng)的ACA分析方法發(fā)起挑戰(zhàn),隨之也引發(fā)了大量關(guān)于優(yōu)化共被引分析的討論。這些討論大致可以分為兩個階段。
2.1關(guān)于相似性度量的選擇
第一個階段始于2003年,爭論的焦點(diǎn)主要集中在共被引矩陣轉(zhuǎn)化為相似系數(shù)矩陣時的相似性度量選擇方面(圖1第4步),特別是對皮爾遜相關(guān)系數(shù)r是否適合應(yīng)用到ACA中這一問題展開,同時也引發(fā)了共被引矩陣對角線如何取值的爭論,具體如表1所示:
這樣的爭論由最初的正反兩方激烈辯論,態(tài)度涇渭分明,發(fā)展到后來一些研究人員開始研究各種相似性度量之間的相互關(guān)系,思考各種相似性度量是否以及在何種程度上可以相互替代,怎樣來評價各種相關(guān)性度量的表現(xiàn)等。例如:Klavans和Boyack(2006年)提出用準(zhǔn)確率、覆蓋率、可擴(kuò)展性和穩(wěn)定性作為評價相似性度量的框架;Schneider和Borlund(2007年)認(rèn)為相似性度量表達(dá)式的分子與分母對相互之間的單調(diào)性有著潛在的影響,因此理解相似度量成份有助于選擇度量和替代度量進(jìn)行效度檢驗。隨后,他們還推薦利用Mantel檢驗和Procrustes統(tǒng)計分析來幫助我們選擇合適的相似性度量;Egghe(2008年)用數(shù)據(jù)演示了諸多相似性度量在功能上是彼此相關(guān)的,并建立了各種度量之間的函數(shù)關(guān)系模型,證明它們能夠達(dá)到一一對應(yīng)。
除此之外,在信息檢索和情報計量學(xué)里還有很多關(guān)于相似性度量的成份和利用的研究,這里不再一一列舉。雖然上面這些研究從特征上說得到了不同的結(jié)論,但都促進(jìn)了相似性度量的選擇都是與具體數(shù)據(jù)相關(guān)的觀點(diǎn)。因此,眾多學(xué)者呼吁在更廣和更深的層次上對相似性度量展開實(shí)證研究,以總結(jié)經(jīng)驗法則,為后續(xù)研究提供指導(dǎo)。
2.2關(guān)于相似系數(shù)矩陣的生成方式
第二個階段始于2006年,爭論的焦點(diǎn)主要集中在該使用何種矩陣(引文矩陣還是共被引矩陣)來生成相似系數(shù)矩陣方面(圖1第3、4步)。該階段的爭論源于2006年Leydesdorff和Vaughan發(fā)表的《共現(xiàn)分析及其在信息科學(xué)中的應(yīng)用》一文,他們認(rèn)為相似性度量(r或cosine等)只能用于非對稱的引文矩陣,進(jìn)而派生出相似系數(shù)矩陣,而非直接用于對稱的共被引矩陣。一般的統(tǒng)計學(xué)教科書在介紹MDS操作時,也都是將相似性度量應(yīng)用到非對稱的事件矩陣上而不是對稱的臨近矩陣②上。因為共被引矩陣已經(jīng)是一個臨近矩陣,所以沒有必要使用相似性度量來使一個臨近矩陣轉(zhuǎn)化成另外一個臨近矩陣(德瑞克賽模式),否則只會扭曲數(shù)據(jù)。因此,把相似性度量用到共被引矩陣上是頗有問題的。該文還探討了共被引矩陣和引文矩陣的區(qū)別,以及分別適用于這些矩陣的多元統(tǒng)計技術(shù)。在隨后的一篇文章中,Leydcsdorff(2008年)對他的觀點(diǎn)做了進(jìn)一步的闡述。
Schneider和Borlund(2007年)在Leydesdorff(2006年)的觀點(diǎn)基礎(chǔ)上,進(jìn)一步指出了引文矩陣和共被引矩陣的區(qū)別,而且還拿DCA(文獻(xiàn)共被引分析)與ACA進(jìn)行了比較。他們指出“德瑞克賽模式”不僅在生成相似系數(shù)矩陣的方式上是非常規(guī)的,而且還引出了棘手的對角線的問題。因為在共被引矩陣中,主對角線上的數(shù)值一方面代表了該作者的兩篇文獻(xiàn)被同時引用的次數(shù);另一方面它還代表了該作者同自己的相似程度。從邏輯上說,作者同本人是最相似的,若該數(shù)值小于同行或同列的最大值,就不符合邏輯。為了處理對角線問題,先是由White和Griffith提議用引文數(shù)最高的前三位之和除以2,McCmn建議設(shè)置為缺省效果最佳,Ahlgren等人認(rèn)為應(yīng)該使用自己與自己的實(shí)際共被引次數(shù),White建議用該行或列的最大值來代替,邱均平、馬瑞敏等人(2008年)認(rèn)為用該行或列的最大值還不足以凸顯,應(yīng)該用最大值+1來定義對角線的取值,Miguel等(2008年)更是建議用行或列的最大值乘以1.5來保證比其他數(shù)大,最近Leydesdorff(2008年)又提議在上面填寫引文總數(shù)。這些解決方案雖各有優(yōu)缺點(diǎn),但都說明了主對角線值含義是非常豐富的。如果處理不當(dāng)無疑會引起矩陣中信息的扭曲,也會影響最后的排序或者聚類結(jié)果。因此,他們認(rèn)為若ACA多采用一些DCA程序(使用引文矩陣來生成相似系數(shù)矩陣)的話,那么由傳統(tǒng)方法所引發(fā)的一系列問題就可以避免。
然而,對Leydesdorff提出的關(guān)于相似系數(shù)矩陣生成方式的質(zhì)疑,Waltman和Eek(2008年)卻認(rèn)為被廣泛采用的“德瑞克賽模式”沒有任何錯誤。他們指出Leydesdorff和Vaughan(2006年)提出的觀點(diǎn)是根據(jù)不正確的MDS地圖做出的,這是因為SPSS低版本(14.0.0之前的版本)中PROXSCAL內(nèi)部程序存在錯誤。Leydesdorff(2008年)反過來卻對反駁的意見并不十分認(rèn)同,他指出自己所提出的觀點(diǎn)是基于分析得出的,而不僅僅根據(jù)此前得出的可視化圖形得出的結(jié) 論,因此即使后者存在誤差也不能完全否定他的觀點(diǎn)。最后他利用Pajek里的Kamada-Kawai算法,再次解釋了引文矩陣更具有可取性。
2.3其他一些方法擴(kuò)展
此外,在這兩個階段中還穿插著一些ACA方法的擴(kuò)展研究,例如:
在分析對象的選取上,先后有Persson(2001年),Rousseau和Zueeala(2003年),Zhao(2006年),Eom(2007年),Zhao和Strotmann(2008年)對第一作者ACA和所有作者ACA研究進(jìn)行了對比;
在共被引計數(shù)規(guī)則上,有傳統(tǒng)的0―1二元計數(shù),也有研究人員如Bo Jarneving(2007年)提出了一種不同于二元統(tǒng)計法的乘法計算規(guī)則;
在多元分析里普遍存在的怎樣確定聚類、因子、分組、維度等的數(shù)目難題上,Small和Sweeney(1985年)提出“可變水平聚類”和“以類聚類”的方法,Leydesdorff(2005年)也引進(jìn)了信息理論的方法對聚類進(jìn)行解構(gòu),此外在社會網(wǎng)絡(luò)分析里也有大量關(guān)于解構(gòu)的文章存在。
3 作者共被引分析方法的發(fā)展趨勢
最近幾年,在ACA里關(guān)于選擇合適的相似性度量來評價目標(biāo)之間的相似性以及選擇合適的矩陣來生成相關(guān)系數(shù)矩陣的爭論突出了對更清晰的、無偏見的方法論的需要。針對ACA目前面臨的困境,相關(guān)的研究人員在探索ACA方法的優(yōu)化上正朝著兩個方向發(fā)展。
3.1間接法的發(fā)展趨勢
一個方向是繼續(xù)沿著傳統(tǒng)方法進(jìn)行ACA分析,在相關(guān)的步驟上進(jìn)行漸進(jìn)性和嘗試性的改革,比如根據(jù)具體數(shù)據(jù)選擇合適的相似性度量,選擇更優(yōu)的相似矩陣生成方式,由通過傳統(tǒng)的多元分析技術(shù)擴(kuò)展到引入社會網(wǎng)絡(luò)分析軟件如Pajek,UCINET,VxOrd等來生成可視化地圖。這是目前大多數(shù)研究人員采用的方法,我們稱之間接法。因為該途徑用的是間接的相似強(qiáng)度,即原始共被引數(shù)經(jīng)過相似系數(shù)標(biāo)準(zhǔn)化了的,上面在傳統(tǒng)ACA面臨的挑戰(zhàn)部分所舉的實(shí)例都是對間接法的優(yōu)化案例。這些漸進(jìn)性的改革使得研究人員得到了更有可信度和說服力的結(jié)果。
筆者認(rèn)為,間接法經(jīng)歷了時間和實(shí)踐的考驗,邏輯嚴(yán)密,步驟清晰,不存在大的方法論問題。但對于該方向的優(yōu)化思路,我們不得不指出,間接法即使避開了共被引矩陣中主對角線的設(shè)置,選擇引文矩陣來生成相似系數(shù)矩陣,但終究還是需要相似性度量來執(zhí)行標(biāo)準(zhǔn)化。最優(yōu)相似性度量的選取始終與具體數(shù)據(jù)相關(guān)的特性,需要研究人員進(jìn)行更多和更深層次上的實(shí)證探索來總結(jié)經(jīng)驗法則?梢,兩個階段的爭論最終還是指向了相似性度量的選取。因此,相似性度量的選擇始終是間接法邁向著精確化時亟待突破的瓶頸。
3.2直接法的發(fā)展趨勢
另外一個方向是使用直接的相似強(qiáng)度,即共被引矩陣中的原始共被引數(shù),我們稱之直接法。傳統(tǒng)ACA中存在相關(guān)系數(shù)選擇難題和共被引矩陣中主對角線值設(shè)定問題,在依賴多元分析技術(shù)生成二維可視化地圖后,還要通過肉眼觀察人工為散點(diǎn)劃定邊界形成研究社區(qū)等,不但增加了ACA的復(fù)雜性,也嚴(yán)重阻礙了ACA的廣泛應(yīng)用。為此,人們開始尋找新的技術(shù)方法替代傳統(tǒng)方法。White(2003年)將網(wǎng)絡(luò)尋址定位(Pathfinder Network Scaling,PFNETs)引入ACA,直接使用共被引矩陣中的原始共被引數(shù)據(jù),將ACA分析推進(jìn)到網(wǎng)絡(luò)分析:在PFNETs生成的可視化地圖里,節(jié)點(diǎn)代表作者,節(jié)點(diǎn)之間的實(shí)線連接代表加權(quán)路徑,權(quán)數(shù)在這里即共引數(shù)。比起傳統(tǒng)的ACA,PFNETs可直接產(chǎn)生于原始共被引矩陣,而不需要再將它轉(zhuǎn)化為皮爾遜相關(guān)系數(shù)矩陣,減少了ACA的計算強(qiáng)度,結(jié)果也更為可信。2003年White采用此法對1998年的同一實(shí)驗數(shù)據(jù)進(jìn)行了第二次分析,得到了更為準(zhǔn)確可靠的分析結(jié)果。此外,Wallace和Gingras(2008年)利用了最近由Blondel等研發(fā)的一門新技術(shù)來從作者共被引網(wǎng)絡(luò)里探索科學(xué)范式。它使用的也是原始的共被引數(shù)據(jù),繞開了使用相似性度量。相比起之前大多數(shù)聚類方法來,它只依賴于加權(quán)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),而且能擴(kuò)展應(yīng)用到相對較大的網(wǎng)絡(luò)上。最重要的是它不需要設(shè)定任何自由參數(shù),不需要對數(shù)據(jù)前置或者后置處理,也不需要對共被引數(shù)據(jù)或者被發(fā)現(xiàn)的社區(qū)進(jìn)行主觀解釋,也具有一定的可取性。
筆者認(rèn)為,與間接法相比,直接法將復(fù)雜的操作嵌入分析軟件中,步驟簡潔,計算強(qiáng)度低,易于操作。但直接法還是有著不可忽略的缺點(diǎn),例如它直接使用原始共被引次數(shù)作為共被引強(qiáng)度,在避開相似性度量的選取的同時,卻忽略了數(shù)據(jù)標(biāo)準(zhǔn)化的步驟。關(guān)于共被引數(shù)據(jù)標(biāo)準(zhǔn)化的問題,此前很多研究人員認(rèn)為都是必不可省的步驟,如Waltman & Eck(2007年),Leydesdor-ff(2007年)等,因為原始的共被引次數(shù)沒有修正作者間被引次數(shù)的差異。若按照直接法,以共被引絕對數(shù)直接來代表相似性強(qiáng)度大小,那么我們就可以推論:一個高被引的作者(可能是由于發(fā)表的文章多,也可能是因為文章數(shù)量少而質(zhì)量高)平均說來該作者與其他作者間有較高的相似性,而一個低被引的作者平均說來與其他作者間有較低的相似性。我們認(rèn)為,這是頗有問題的。因為作者被引的次數(shù)多少或許是對其著作重要性的一個顯著度量,但是對于該作者與其他作者的相似程度根本沒有影響。因此,筆者認(rèn)為,要想展現(xiàn)作者間的相似性,對數(shù)值進(jìn)行標(biāo)準(zhǔn)化是不可或缺的步驟。
3.3新階段下ACA分析應(yīng)注意的問題
此外,在兩個優(yōu)化方向的發(fā)展趨勢上,我們發(fā)現(xiàn)基于更大規(guī)模數(shù)據(jù)分析的需要,越來越多的研究人員采用社會網(wǎng)絡(luò)分析軟件來生成可視化地圖,如Pajek,UCIENT,VxOrd等。這些軟件包括Cite space等逐漸將ACA推進(jìn)到了網(wǎng)絡(luò)分析階段。社會網(wǎng)絡(luò)分析工具固然有其優(yōu)點(diǎn),但是也面臨著網(wǎng)絡(luò)分割等難題。筆者認(rèn)為在處理時要注意以下幾個問題:首先,作者間連接的權(quán)重(相似值)非常關(guān)鍵,這里也是大多數(shù)信息存儲的地方。因此,任何基于網(wǎng)絡(luò)的方法必須不僅考慮到作者間聯(lián)系的存在,而且還包括聯(lián)系的強(qiáng)度。第二,考慮到要識別的聚類(學(xué)派、社區(qū)或范式),研究人員不應(yīng)做出任何選擇,也不該提前對社區(qū)的數(shù)目或總體的數(shù)量作出限制。第三,除了極大的網(wǎng)絡(luò)外,對于網(wǎng)絡(luò)的規(guī);蛲?fù)浣Y(jié)構(gòu)不該有任何限制。若有些網(wǎng)絡(luò)比其他網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)更清晰,那么這應(yīng)該在輸出的結(jié)果里被反映出來。最后,對于網(wǎng)絡(luò)本身,不該有任何的前提假設(shè)。換句話說,在應(yīng)用算法前數(shù)據(jù)不應(yīng)變動,只有它們的內(nèi)部結(jié)構(gòu)才是決定它們?nèi)绾畏指畹年P(guān)鍵。
4 結(jié)語
本文綜述了近幾年來作者共被引分析方法面臨的挑戰(zhàn),歸納了其最新的研究進(jìn)展和發(fā)展趨勢,指出了各種優(yōu)化方法目前面臨的問題,并就新的網(wǎng)絡(luò)分析階段下ACA的優(yōu)化問題提出了幾點(diǎn)注意事項。雖然還有很長的路要走,但筆者認(rèn)為隨著研究的深入,會有更多更好的優(yōu)化思路和方法出現(xiàn)?傊,不論是間接法還是直接法,任何一種方法的突破都能進(jìn)一步擴(kuò)展ACA的應(yīng)用范圍,將ACA分析推向深入,也將使最后得到的分析結(jié)果更客觀、更可靠。
相關(guān)熱詞搜索:進(jìn)展 方法 作者 作者共被引分析方法進(jìn)展研究 鐵分析研究進(jìn)展 汞分析研究進(jìn)展論文
熱點(diǎn)文章閱讀