【可視化同被引分析技術綜述】 可視化研究綜述
發(fā)布時間:2020-03-07 來源: 感恩親情 點擊:
摘要 可視化同被引分析步驟主要包括選擇數(shù)據(jù)源、確定分析的元素、計算同被引頻次、對數(shù)據(jù)進行標準化處理、對數(shù)據(jù)進行降維和圖示、對圖形進行分析解釋。這些步驟中的關鍵技術在于對獲得的高維引文關系數(shù)據(jù)進行降維和圖示,目前應用較多的主要有聚類分析、多維尺度分析、因子分析、自組織映射神經(jīng)技術、尋徑網(wǎng)絡技術、最小生成樹法、三角測量、力矢量布局算法等。其中尋徑網(wǎng)絡技術以其較好的圖示效果得到較多的應用。
關鍵詞 同被引分析 可視化 技術
分類號 G354.2
隨著信息可視化技術的發(fā)展,文獻計量學中的引文分析越來越多地借鑒信息可視化的技術,以形象、直觀的圖形方式顯現(xiàn)分析結(jié)果,使得結(jié)論更加具有說服力。在各種引文分析方法中,利用信息可視化技術最多的應屬同被引分析。最近幾年,通過可視化同被引分析生成學科知識圖在國外得到了蓬勃的發(fā)展,并被應用于科學結(jié)構(gòu)的圖示、知識領域的顯現(xiàn)、學科前沿預測等方面。本文將對可視化同被引分析中涉及的一些關鍵技術進行分析和介紹,希望能夠?qū)ξ覈梢暬灰治龅难芯颗c應用起到拋磚引玉的作用。
1 同被引的概念
同被引(co-citation)的概念是由美國人Henry Small在1973年提出的,他最初是以文獻為單位進行分析的,即如果兩篇論文a和b被一篇后來的文獻C同時引用,則a與b之間的關系稱為同被引關系。同時引用a和b的文獻越多,則a和b之間的關系越近,內(nèi)容上的相似度越大。繼HenrySmall之后,1981年美國人Howard D.White把同被引的概念擴展到著者,進行了著者同被引分析。之后,學者們把同被引分析擴展到了學科、期刊甚至類目等,形成了文獻同被引分析、著者同被引分析、學科同被引分析、期刊同被引分析、類目同被引分析等。雖然分析對象不同,但這些不同類型的同被引分析有一個共同原理,就是同時引用兩個單元的文獻越多,則這兩個單元之間的同被引強度越大,兩者的關系越緊密。
2 可視化同被引的步驟和關鍵技術分析
可視化同被引分析的步驟,包含以下幾個過程:①根據(jù)要進行的研究選擇合適的數(shù)據(jù)源,抽取數(shù)據(jù);②選定要分析的元素對象,例如期刊、論文、著者、類目等;③計算元素對象之間的同被引頻次,構(gòu)造原始同被引頻次矩陣;④確定合適的相似度算法對原始同被引頻次矩陣進行標準化處理;⑤用一定的算法把多維數(shù)據(jù)在二維或三維空間中聚合并圖示出來;⑥對圖形進行分析和解釋。
考慮到操作和應用的便利,目前的一些可視化軟件常常把上述步驟中的④和⑤集成到一起供用戶選擇使用。由于可視化同被引分析是一個比較復雜的過程,以上每個步驟涉及到的技術也有很大差異,下面對這些關鍵技術進行簡要的對比分析。
2.1 數(shù)據(jù)源的選擇
進行同被引分析首先需要計算數(shù)據(jù)元素之間的同被引次數(shù),這一般要依托某一引文數(shù)據(jù)庫的相關統(tǒng)計數(shù)據(jù)來進行,但是元素之間的同被引次數(shù)的多寡有可能隨所選擇引文數(shù)據(jù)庫的不同而有所區(qū)別。以我國中國科學院推出的《中國科學引文數(shù)據(jù)庫》和清華同方推出的《中國引文數(shù)據(jù)庫》為例:2007年3月,以同樣的數(shù)據(jù)獲取方式計算我國水稻研究專家袁隆平和程式華的同被引次數(shù),在《中國科學引文數(shù)據(jù)庫》中,兩者的同被引次數(shù)為2;而在《中國引文數(shù)據(jù)庫中》,兩者的同被引次數(shù)則是6。造成這一差別的原因是兩個數(shù)據(jù)庫的期刊收錄范圍大小不一樣,前者只收錄核心刊,后者收錄范圍則比較廣。因此,作為同被引分析數(shù)據(jù)源的引文數(shù)據(jù)庫的選擇十分重要,既要保證最后計算所得的同被引次數(shù)不能過低,也要兼顧數(shù)據(jù)庫所選擇期刊的標準,因為引文數(shù)據(jù)庫期刊收錄范圍如果過于龐雜,容易使論文被引用作為影響力的測度標準失去公正性,被高水平的學術期刊引用一次和被一般推廣性科普雜志引用一次顯然是不等價的。國外學者做同被引分析一般選用《美國科學引文數(shù)據(jù)庫》(簡稱SCI)作為數(shù)據(jù)源。而國內(nèi)目前可用的具有引文檢索功能的數(shù)據(jù)庫較多,這就需根據(jù)將要分析的專業(yè)學科范圍以及同被引次數(shù)獲得的難易程度來選擇。國內(nèi)的幾個數(shù)據(jù)庫中能夠直接檢索獲得同被引頻次的有清華同方的《中國學術期刊全文數(shù)據(jù)庫》和重慶維普公司的《中國科技期刊數(shù)據(jù)庫》,對于其他幾個引文數(shù)據(jù)庫,則必須根據(jù)下載的引文數(shù)據(jù),利用一定的程序進行計算,才能得到同被引頻次。
2.2 分析元素對象的確立
這里的元素對象既可以是期刊,也可以是成篇的文獻,或者是著者,或者是類目,甚至是學科類別。數(shù)據(jù)元素不同,所得到的學科知識圖反映的內(nèi)容和作用也有所不同。
用期刊或類目或?qū)W科類別作為分析元素時,往往能夠圖示出科學的宏觀結(jié)構(gòu),可以顯示出比較大的主要學科專業(yè)之間的相對位置和關系,但有時也被用于對某一學科內(nèi)各專業(yè)分支之間關系的圖示分析。例如,Kevin W Boackv、LoetLeydesdorff、J.M.Campanario、I.Samoylenko等人就分別對期刊引用關系進行可視化分析,展示了大科學的結(jié)構(gòu);而Kevin W.Boacky在其另一篇論文中,則用期刊引用數(shù)據(jù)對有關科技管理這一學科的領域結(jié)構(gòu)進行了可視化顯示。
文獻(論文、專利文獻等)是同被引分析時最常用的數(shù)據(jù)元素,以文獻為元素進行可視化同被引分析生成的學科知識圖被廣泛應用于領域分析、文獻檢索、科學管理等方面。
以著者為分析元素時,比較常見的是通過著者的同被引關系來展示某一學科范圍內(nèi)由不同著者代表的學科結(jié)構(gòu)或劃分科學家群體等。
2.3 元素范圍的確定和原始同被引頻次矩陣的構(gòu)造
這一步就是根據(jù)分析元素的特點選擇一定數(shù)量的元素,兩兩計算它們之間的同被引頻次,構(gòu)造出原始同被引頻次矩陣。利用期刊或類目、學科作為分析元素時,可以根據(jù)要分析的學科范圍選擇該學科里的所有期刊或類目、專題學科;而利用文獻或著者進行可視化同被引分析構(gòu)造某一專業(yè)學科的學科知識圖時,就涉及到文獻或著者的選擇問題。目前還沒有一個統(tǒng)一的方法,較為普遍又相對客觀的方法是通過被引用頻次的高低來確定,即通過檢索引文數(shù)據(jù)庫確定某個被引用頻次為閾值,選擇在閾值之上的文獻或著者。在選擇閾值時,一方面不能過低,過低容易使無意義的數(shù)據(jù)量增加太多,徒增工作量;同時也不能過高,過高有可能過濾掉重要的文獻或著者,不能全面代表該學科的研究狀況。確定好文獻或著者后,就要通過一定的方式計算文獻或著者的同被引頻次,以便構(gòu)造出同被引矩陣。
目前計算著者或文獻的同被引頻次時,主要有以下三種方法:
?通過下載相關文獻和它們的參考文獻來計算。這是目前比較通用又相對簡便的一種方法,就是根據(jù)自己要分析研究的學科專題,從所選定的數(shù)據(jù)庫中檢索下載有關這一專題的所有文獻及它們對應的參考文獻條目,用一定的計算機程序來計算選定文獻或著者之間的同被引頻次。相對于用 下面的第二種和第三種方法在整個數(shù)據(jù)庫范圍內(nèi)計算而言,這樣獲得的同被引頻次由于是在專業(yè)學科范圍內(nèi)計算,數(shù)值往往較低,生成的可視化圖也有所偏差。
?直接在線手工檢索。這只能用于著者同被引分析。SCI過去曾經(jīng)支持直接通過在線檢索獲得兩個著者之間的同被引頻次,但現(xiàn)在已經(jīng)不再支持。國內(nèi)的清華同方出版的《中國期刊全文數(shù)據(jù)庫》和維普公司出版的《中文科技期刊數(shù)據(jù)庫》現(xiàn)在有這方面的功能。
?根據(jù)選定著者發(fā)表的文獻和引用它們的文獻來計算。即對于選定著者,在數(shù)據(jù)庫中查找所有引用這些著者發(fā)表的論文的文獻,把這些文獻目錄進行處理,編寫一定的程序計算著者之間的同被引頻次。這種方法同樣是基于整個數(shù)據(jù)庫的統(tǒng)計來計算的。為了簡化數(shù)據(jù)處理過程,一般只計算著者作為第一著者與其他第一著者之間的同被引頻次。
2.4 數(shù)據(jù)的標準化處理技術
對于關系矩陣中的原始數(shù)據(jù),從目前的研究情況看,有學者對其進行了標準化處理,有學者則主張直接采用原始數(shù)據(jù)。進行標準化處理一般采用皮爾遜相關系數(shù)法或Cosine法等。但在采用皮爾遜相關系數(shù)法時,由于SPSS軟件的限制,數(shù)據(jù)量不能超過256對。隨著可視化算法和軟件的開發(fā),有學者開始采用原始數(shù)據(jù),并獲得了良好的效果。How-ard D White在2003年采用與1998年相同的數(shù)據(jù)對情報科學著者重新作的同被引分析中就是采用了原始同被引頻次。Steven Noel等把采用原始同被引頻次和經(jīng)過皮爾遜相關系數(shù)轉(zhuǎn)換而所得的圖進行比較后認為,經(jīng)過轉(zhuǎn)換,那些同被引次數(shù)高的元素(文獻或著者)和同被引次數(shù)低的元素(文獻或著者)的差別減少,顯示在圖上的結(jié)果就是未經(jīng)轉(zhuǎn)換時居于中心的核心元素(文獻或著者)在轉(zhuǎn)換后其核心地位不再明顯。
2.5 引文關系數(shù)據(jù)的降維和圖示技術
經(jīng)過上述幾個步驟形成的引文關系矩陣反映了各元素之間的關系的遠近,這是一個多維的空間關系,有多少個元素就有多少個維數(shù),對多維數(shù)據(jù)之間的復雜關系進行可視化生成圖表必須進行降維處理,把高維的數(shù)據(jù)轉(zhuǎn)換成低維數(shù)據(jù),從而在低維空間上簡單地表現(xiàn)高維空間中的復雜對象間的關系。目前在可視化同被引分析中應用較多的主要有以下幾種技術:
2.5.1 聚類分析 聚類分析是指把分析對象根據(jù)彼此之間的相關程度分成類群,使群內(nèi)盡量相似,群間盡量相異,然后進行分析研究的過程。聚類分析的一般過程是計算分析對象之間的相似系數(shù)矩陣,然后把相似系數(shù)矩陣作為輸入數(shù)據(jù),根據(jù)一定的聚類算法把分析對象分成類群。聚類方法有多種,但目前使用最多的是非重疊的、內(nèi)在的,即把分類對象的各屬性數(shù)據(jù)同等對待,每個對象都只能屬于最后劃分成的類群之一,而不能同時屬于兩個以上的類群。在對引文數(shù)據(jù)進行分析,特別是進行同被引分析時,運用最多的是等級聚類法,并用樹狀圖表示結(jié)果。目前常用的統(tǒng)計軟件如SPSS等可以用來進行聚類分析,并生成樹狀圖。
用等級聚類進行數(shù)據(jù)分析,整個分析對象集合與任何最后分組之間有著很簡化的聯(lián)系路線,聚類結(jié)果樹狀圖中可以反映這種路線和聚類過程的細節(jié)信息。但是,等級聚類樹狀圖無法直觀反映對象之間的距離與結(jié)構(gòu)關系。
2.5.2 多維尺度分析 多維尺度分析(MultidimensionalSealing,簡稱MDS)是指通過某種非線性變換把高維空間的數(shù)據(jù)轉(zhuǎn)換成低維空間中的數(shù)據(jù),以疏密不同的散點在低維空間中近似地表現(xiàn)原高維數(shù)據(jù)間關系的一種技術。通過MDS可以在較低維空間中直觀地看到一些高維樣本點相互關系的近似圖像,該技術己經(jīng)成為當今較流行的統(tǒng)計分析軟件SPSS中的一個分析模塊。雖然多維尺度分析中點的疏密遠近可以反映一定的類群關系,但不夠明確,同時由于是用散點方式代表分析對象節(jié)點,不能表示出對象節(jié)點之間的連接。因此,同被引分析中常把多維尺度分析與聚類分析結(jié)合起來使用。做法是首先用多維尺度分析把對象表示成平面上的散列的點,然后根據(jù)聚類分析的結(jié)果把這些點用線圈成點群,最后根據(jù)點與點之間、點與點群之間、點群與點群之間的位置關系進行分析研究。國外在20世紀90年代中期以前采用這種方式進行同被引分析的研究較多,近幾年國內(nèi)學者在同被引分析研究中采用的也是這種多維尺度分析與聚類分析相結(jié)合的方法。多維尺度分析的一個局限性是由于通常借助于通用統(tǒng)計軟件SPSS來進行,而SPSS能處理的數(shù)據(jù)數(shù)量有限,特別是當對數(shù)據(jù)進行標準化處理時,如果用相似系數(shù),則數(shù)據(jù)量不能超過100對。例如Howard D.White和MacCain在1998年對情報科學進行著者同被引分析可視化,采用多維尺度分析時就不得不把著者數(shù)量限制在頭100名著者。
2.5.3 因子分析 因子分析(Factor Analysis)是最早被應用于學科結(jié)構(gòu)分析和圖示的降維技術之一。在分析處理多元素間的關系時,元素間的關系往往極為密切,使觀測數(shù)據(jù)反映的信息有重疊,因此,人們希望找出較少的彼此間互不關聯(lián)的綜合元素,盡可能近似地反映原來元素之間的信息,這些不可觀測的少數(shù)幾個綜合性的元素被稱為公共因子或潛在因子。表現(xiàn)在學科知識結(jié)構(gòu)分析上,因子分析能夠把大量的數(shù)據(jù)歸結(jié)為少數(shù)幾類,從而把某一學科劃分成多個學科分支。但因子分析一般通過表格的形式反映分析結(jié)果,其圖示功能很差,現(xiàn)在一般僅作為輔助分析的工具,和其他降維圖示技術如多維尺度分析等配合使用。Chaomei Chen在進行著者同被引分析時,曾把因子分析和后文將要介紹到的尋徑網(wǎng)絡技術配合在一起使用。
2.5.4 自組織映射神經(jīng)技術 Kohonen依據(jù)大腦對信號處理的特點,提出了一種神經(jīng)網(wǎng)絡模型一自組織映射神經(jīng)模型(Self-Organizing Feature Map,簡稱SOM)。這是一種無監(jiān)督的自組織和自學習網(wǎng)絡,主要功能是將輸入的N維空間數(shù)據(jù)映射到一個較低的維度(通常是一維或者二維)輸出,同時保持數(shù)據(jù)原有的拓撲邏輯關系。它與其他類型神經(jīng)網(wǎng)絡的區(qū)別在于:它不是以一個神經(jīng)元或網(wǎng)絡的狀態(tài)矢量反映分類結(jié)果,而是以若干神經(jīng)元同時(并行)反映分類結(jié)果。這種特征映射神經(jīng)網(wǎng)絡通過對輸入模式的反復學習,使連接權矢量的空間分布能反映輸入模式的統(tǒng)計特性。
SOM已經(jīng)被應用于文獻的聚合分類圖示中,特別是網(wǎng)絡文獻。Xia Lin是第一個把SOM應用于信息可視化的人”。他的可視化系統(tǒng)Visual SiteMap就是利用SOM對從數(shù)據(jù)庫中挖掘出的概念進行了分類集簇和可視化顯示。而Campanario則利用SOM對期刊間的引用關系進行了可視化分析,生成了相關圖。
2.5.5 尋徑網(wǎng)絡技術 尋徑網(wǎng)絡(PathFinder Network Scal-ing,簡稱PFNET)是美國心理學家Schvaneveldt等人1989年提出的用來分析數(shù)據(jù)相似性的一個模型。它根據(jù)經(jīng)驗性的數(shù)據(jù),對不同概念或?qū)嶓w間聯(lián)系的相似或差異程度做出評 估,然后應用圖論中的一些基本概念和原理生成一類特殊的網(wǎng)狀模型。該算法對一個復雜網(wǎng)絡中衡量數(shù)據(jù)相似性的關系進行了簡化,檢查所有數(shù)據(jù)之間的關系,在所有可能的兩點路徑中只保留最強的連接,從而建立數(shù)據(jù)間最有效連接的路徑。最終結(jié)果是將數(shù)據(jù)以及數(shù)據(jù)之間的關系表達成一個圖,圖中節(jié)點表示數(shù)據(jù),邊表示數(shù)據(jù)之間的關系。PFNFT有兩個重要參數(shù):r和q。q是指路徑的最大長度,r參數(shù)是閔可夫斯基度量規(guī)則(Minkawski Metric),是計算路徑長度的一個參數(shù)。對PFNET的一些基本定義,這里不再詳細敘述,但根據(jù)其定義,有以下幾條規(guī)則:①任意點到其自身的距離為O;②對于邊不具有方向性的網(wǎng)絡,距離矩陣是對稱的,對于邊具有方向性的網(wǎng)絡,距離矩陣是非對稱的;③如果將網(wǎng)絡中的節(jié)點作為一個獨立的概念或?qū)嶓w對象,將節(jié)點間的邊看作是概念間的聯(lián)系,邊的權值表示聯(lián)系的差異程度,則根據(jù)該網(wǎng)絡生成的PFNET剔除掉了不必要的節(jié)點聯(lián)系,保證了把節(jié)點間最為密切的聯(lián)系保留在PFNET中。
近幾年,以Chaomei Chen等為代表的一些學者把PFNET應用于著者同被引分析的可視化中,并取得了良好的效果。
目前已經(jīng)有商業(yè)化的軟件把PFNET算法和圖示功能融合在一起,最著名的就是PFNET算法的創(chuàng)始人Schvaneveldt及其同事開發(fā)的KNOT軟件,最初是運行在DOS操作系統(tǒng)上,現(xiàn)在已經(jīng)有了基于Windows的版本。Howard D.White2003年采用1998年的有關情報學研究的著者同被引數(shù)據(jù)第二次對情報學學科結(jié)構(gòu)進行可視化顯示,就是采用了KNOT軟件。
2.5.6 最小生成樹法 最小生成樹算法(Minimum SpanningTree,簡稱MST)與PFNET比較相似,其基本思想是:把所有的數(shù)據(jù)元素看成分布在一個平面上的距離不等的點,如果有n個點,那么連接各點的可能線路就應該有n(n-1)/2條線路,但是本著節(jié)約成本的原則,根據(jù)各點之間的距離建立不同的連通網(wǎng)絡,最后選擇總的線路距離最短的那個連通網(wǎng)絡。
Samaylenko等對期刊之間的引用數(shù)據(jù)進行分析,就是運用了MST算法來確定各期刊之間的距離。西班牙的FeilixMoya Anegont根據(jù)類目對大科學進行領域可視化時也是采用MST來計算各科學大類之間的距離。
最小生成樹(MST)和尋逕網(wǎng)絡(PFNET)優(yōu)于多維尺度分析(MDS)的一點就是生成的可視化圖中可以表示出對象節(jié)點之間的連接關系。
2.5.7 三角測量 三角測量(Triangulation)是一個把n維空間中的點排列到2維圖形的技術,其思想是隨機選擇其中的一個點,將其安排到一個位置,然后選擇在原來空間中與該點距離最短的第二個點放于另一位置,第三個點的位置則要根據(jù)它與前兩個點的相對位置構(gòu)成一個三角形,依次把各點根據(jù)相似度計算所得的距離進行安排,最后使所形成的圖中的任意三個點都能構(gòu)成三角形,并且各三角形的最小角最大。同其他的排列技術相比,三角測量的計算量較小,且所形成的圖形較準確地反映了單個數(shù)據(jù)點之間的距離。
Henry Small在其1999年發(fā)表的那篇文獻同被引可視化分析中就采用了三角測量技術,他所做出的“科學圖”是一系列的鳥巢狀的圓形互相嵌套,并以等級形式反映各學科之間的關系。
2.5.8 力矢量布局算法 力矢量布局算法(Force DirectedPlacement,簡稱FDP)是把本來屬于多維空間的節(jié)點按照它們之間的相似關系在平面圖上進行映射的一種技術。其基本思想是:把節(jié)點看做物理實體,把表示它們之間距離的邊看成提供連接兩點的力矢量。節(jié)點的移動和布局遵從局部能量最小的原則。
傳統(tǒng)的力矢量布局算法比較容易理解和操作,但是由于在對節(jié)點進行布局時,每增加一個新的節(jié)點都要對每個節(jié)點間的力矢量進行重新計算,因此在處理大量數(shù)據(jù)時速度很慢。最近出現(xiàn)了一些力矢量布局算法的改進模型,可視化軟件系統(tǒng)Vxlnsight就是采用了改進的力矢量布局算法,而Kevin W.Boyack等利用期刊引用數(shù)據(jù)對科學領域進行可視化分析就是采用了Vxlnsight。
3 研究展望
除了揭示著者之間的關系外,應用各種可視化同被引分析技術對期刊之間關系、類目之間關系甚至學科之間關系進行圖示的研究近年來在國際上有逐漸增多的趨勢。但是在進行可視化分析時,雖然已經(jīng)有一些可供利用的軟件,但目前還沒有一個成熟的、能夠綜合各項技術供學者們選用的軟件包,要進行可視化同被引分析依然費時費力?梢灶A見,隨著各種可視化軟件系統(tǒng)的開發(fā),可視化同被引分析的各項技術也會更加豐富而有效,其應用范圍也將更加廣泛。
相關熱詞搜索:可視化 綜述 分析 可視化同被引分析技術綜述 大數(shù)據(jù)可視化技術綜述 同引分析與可視化技術
熱點文章閱讀