信息檢索論文【信息檢索可枧化研究發(fā)展規(guī)律探析】
發(fā)布時(shí)間:2020-03-10 來源: 感悟愛情 點(diǎn)擊:
[摘要]將HistCite與Bibexcel、UCINET相結(jié)合,從一個(gè)全新的視角探析國際信息檢索可視化研究的發(fā)展規(guī)律。通過研究,劃分國際信息檢索可視化研究的發(fā)展階段,發(fā)現(xiàn)其發(fā)展軌跡中引證關(guān)系鏈所隱含的學(xué)術(shù)流派,并分析關(guān)鍵詞特征向量中心性網(wǎng)絡(luò)圖譜,確定該領(lǐng)域研究的熱點(diǎn)。
[關(guān)鍵詞]信息檢索可視化 引文編年 引文共現(xiàn) 網(wǎng)絡(luò)圖譜
[分類號]G350
1.引言
信息檢索可視化是將信息資源、用戶提問、信息檢索模型、檢索過程以及檢索結(jié)果中各種語義關(guān)系或關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換成圖形,顯示在一個(gè)二維、三維或多維的可視化空間中。它能有效地幫助用戶理解檢索結(jié)果,把握檢索方向,提高信息檢索的效率與性能。信息檢索可視化為用戶展示了一種全新體驗(yàn)式發(fā)現(xiàn)信息的檢索模式,能使用戶對文檔的內(nèi)容進(jìn)行整體的跟進(jìn),幫助用戶真正確定查找的方向。為了解國際信息檢索可視化研究的發(fā)展脈絡(luò)與趨勢,筆者擬將HistCite與BibexceI、UCINET相結(jié)合,從一個(gè)全新的視角對其發(fā)展規(guī)律進(jìn)行探究。
2.數(shù)據(jù)來源與研究方法
2.1數(shù)據(jù)來源
本文以Thomson.ISI的引文索引數(shù)據(jù)庫SCI網(wǎng)絡(luò)版――Web of Science中的科學(xué)引文索引擴(kuò)展版(SCIE)和SSC!數(shù)據(jù)庫為文獻(xiàn)來源。檢索方法選定為高級檢索,檢索式為:“TS=Information visual retrievalOR TS=Visual inlornmtion retrieval OR TS=Informationretrieval visual”。檢索年限設(shè)定為“默認(rèn)所有年限”,其中文獻(xiàn)類型設(shè)定為“Article”,共得到1441條符合條件的記錄。數(shù)據(jù)下載的方式設(shè)定為“作者、標(biāo)題、來源出版物、摘要以及所引用的參考文獻(xiàn)”,數(shù)據(jù)下載結(jié)束的時(shí)間為2011年1月4日。
2.2研究思路與方法
本文的基本研究思路是:首先利用引文編年可視化軟件,繪制出引文編年圖,以此方式揭示出信息檢索可視化研究的發(fā)展歷程與引文規(guī)律,然后通過關(guān)鍵詞共現(xiàn)分析得出其熱點(diǎn)問題,從而探析信息檢索可視化研究的發(fā)展趨勢。
引文編年可視化使用的軟件是世界著名的文獻(xiàn)計(jì)量學(xué)家尤金?加菲爾德博士(Eugene Garfiled)開發(fā)的HistCite。該軟件可以指導(dǎo)人們從眾多的科學(xué)文獻(xiàn)資料中找出各個(gè)學(xué)科本身以及之間的研究歷史軌跡、發(fā)展規(guī)律和未來趨勢。在科學(xué)史研究中,該程序繪制的引文編年圖可以幫助研究者識別重要文獻(xiàn)和它們之間的關(guān)系,把握整個(gè)專題的發(fā)展軌跡和走向,在一定程度上使得科學(xué)史研究更加“精確”和“客觀”。
引文共現(xiàn)分析則借助于Btbexcel和社會網(wǎng)絡(luò)分析軟件UCINET來完成。BibexceI是由瑞典著名科學(xué)計(jì)量學(xué)家佩爾松(Persson)開發(fā)的引文共現(xiàn)與分析軟件;UCINET是由美國加州大學(xué)歐文(Irvine)分校開發(fā)的社會網(wǎng)絡(luò)分析集成軟件,目前該軟件已被國內(nèi)外圖書情報(bào)學(xué)研究領(lǐng)域廣泛應(yīng)用。
3.研究結(jié)果與分析
3.1信息檢索可視化研究的發(fā)展脈絡(luò)
3.1.1信息檢索可視化研究的時(shí)間分布 通過分析研究論文的時(shí)間分布,有助于了解其所在學(xué)科領(lǐng)域發(fā)展的歷史進(jìn)程。國際信息檢索可視化研究文獻(xiàn)的時(shí)間分布情況如圖1所示:
信息檢索可視化研究起源于1988年。開山之作是日本廣島大學(xué)著名科學(xué)家Ichikawa Tadao等的文章《基于語義功能的信息檢索可視化用戶界面》。1988―1997年連續(xù)10年的文獻(xiàn)發(fā)表量僅有121篇,占所下載全部文獻(xiàn)總量的8.39%,年均12篇,這一時(shí)期是信息檢索可視化研究的萌芽時(shí)期;1998―2004年文獻(xiàn)數(shù)量逐年穩(wěn)步增加,7年發(fā)表文獻(xiàn)578篇,占所下載全部文獻(xiàn)總量的40.11%,年均82.57篇,這一時(shí)期是信息檢索可視化研究的興起時(shí)期;2005-2010年,文獻(xiàn)數(shù)量雖有較大的起伏,但6年的文獻(xiàn)發(fā)表量高達(dá)742篇,占所下載全部文獻(xiàn)總量的51.49%,年均123.67篇。這一時(shí)期可視為信息檢索可視化研究的穩(wěn)定時(shí)期。圖1以折線清晰地反映了信息檢索可視化研究發(fā)展歷程。
3.1.2信息檢索可視化研究的引文編年 將所下載的全部數(shù)據(jù)導(dǎo)入HistCite,該軟件會自動運(yùn)行并生成文獻(xiàn)記錄年度分布表,該表直觀地按照時(shí)間由遠(yuǎn)及近的順序分年度列出了信息檢索可視化研究領(lǐng)域中全部文獻(xiàn)記錄的基本書目信息及其被引頻次,這也就從原始文獻(xiàn)(施引文獻(xiàn))的角度描述了信息檢索可視化研究的發(fā)展軌跡。如表1所示:
從表1可以看出,該表包含的文獻(xiàn)記錄計(jì)1441條,共有文獻(xiàn)著者3644名。原始文獻(xiàn)分布于529種期刊之中。全部文獻(xiàn)記錄包含引文42051條,關(guān)鍵詞2847個(gè)。表中文獻(xiàn)記錄的排序方式既可以按年度,也可以按期刊或按作者,還可以按照被引頻次進(jìn)行。文獻(xiàn)記錄的上方還有一些藍(lán)色字體的按鈕:點(diǎn)擊這些按鈕,可以進(jìn)行相應(yīng)分析。如點(diǎn)擊authors,軟件會列出所有作者,并將每位作者的文獻(xiàn)數(shù)、引用次數(shù)等信息列出來。在默認(rèn)窗口的右側(cè),有LCS、GCS、LCR、CR 4個(gè)藍(lán)色按鈕。GCS是global citation score,即引用次數(shù),也就是文獻(xiàn)在Web of Science網(wǎng)站上看到的引用次數(shù)。如果點(diǎn)擊GCS,軟件會按照GCS進(jìn)行排序,此時(shí)的結(jié)果與WOS網(wǎng)站按被引頻次排序的結(jié)果是一樣的;CR是cited references,即文章引用的參考文獻(xiàn)數(shù)量;LCS和LCR是histCite里比較重要的兩個(gè)參數(shù)。LCS是localcitation score的簡寫,即本地引用次數(shù);與LCS相對應(yīng),GCS是總被引次數(shù)。LCS是某篇文章在當(dāng)前數(shù)據(jù)庫中被引用的次數(shù)。所以LCS一定是小于或等于GCS的。一篇文章GCS很高,說明被全球科學(xué)家關(guān)注較多。但是如果一篇文章GCS很高,而LCS很小,說明這種關(guān)注主要來自與你不是同一領(lǐng)域的科學(xué)家。此時(shí),這篇文獻(xiàn)對你的參考意義可能不大。根據(jù)LCS可以快速定位一個(gè)領(lǐng)域的經(jīng)典文獻(xiàn),LCR是與CR對應(yīng)local citedyeferences,是指某篇文獻(xiàn)引用的所有文獻(xiàn)中,有多少篇文獻(xiàn)在當(dāng)前數(shù)據(jù)庫中。根據(jù)LCR可以快速找出最新的文獻(xiàn)中哪些是和自己研究方向最相關(guān)的文章。
對表1可視化,可以得到引文編年圖。對于HistCite而言,用戶可以自己確定一個(gè)GCS或LCS的值作為閾值,系統(tǒng)就會選取文獻(xiàn)集合中用戶規(guī)定閾值以上的文獻(xiàn)。閾值太低時(shí),文獻(xiàn)之間的相互關(guān)系反映不充分;閾值太高時(shí),形成的引文編年圖又不容易分辨。筆者根據(jù)所下載文獻(xiàn)記錄的實(shí)際情況,將LCS閾值設(shè)定為50。圖2即為在“LCS=50”時(shí)生成的引文編年圖:
圖2中每一個(gè)圓圈表示一篇文獻(xiàn),圓圈的大小代表文獻(xiàn)被引頻次的多少。被引頻次越高,圓圈就越大。帶箭頭的連線代表文獻(xiàn)節(jié)點(diǎn)之間的引用關(guān)系,箭頭指 向的文獻(xiàn)是被引文獻(xiàn),圓圈內(nèi)所標(biāo)數(shù)字指明陔節(jié)點(diǎn)文獻(xiàn)在文獻(xiàn)集合中的順序號。引文編年圖以從上到下的空間順序表示由先到后的時(shí)間順序,各文獻(xiàn)按照其發(fā)表年份的先后給予序號并安排在圖中相應(yīng)位置。HistCite生成的引文編年圖,可清楚地顯示信息檢索可視化研究的歷史沿革、研究文獻(xiàn)之問的繼承關(guān)系及其在各研究階段的發(fā)展程度。
從圖2可以看出,1992年以前與2005年以后的文獻(xiàn)節(jié)點(diǎn)是空白,這表明在這兩個(gè)時(shí)間段內(nèi),沒有出現(xiàn)具有一定影響力的經(jīng)典文獻(xiàn)(即高被引文獻(xiàn))。而在i993―2004年之間既有獨(dú)立的文獻(xiàn)節(jié)點(diǎn),又有相互連接的文獻(xiàn)節(jié)點(diǎn)引證關(guān)系鏈。其中以l和2兩個(gè)引證關(guān)系鏈最具代表性。引汪關(guān)系鏈1由文獻(xiàn)記錄55、92、162、207、255、366、477、492和634共9個(gè)文獻(xiàn)節(jié)點(diǎn)組成,從現(xiàn)代信息技術(shù)層面對信息檢索可視化做了一定的探討,提出并完善了基于內(nèi)容的圖像檢索系統(tǒng),其中以文獻(xiàn)55和文獻(xiàn)162最有代表性;引證關(guān)系鏈2則由23、48、53、70、150、189、306、307、346、402、526、557、561、649和669共15個(gè)文獻(xiàn)節(jié)點(diǎn)組成,從生理解剖與認(rèn)知科學(xué)的角度對信息檢索可視化的研究做了深層次的考察,認(rèn)為人的大腦皮層以及顳葉對視覺的刺激非常敏感,可視化的圖像刺激有助于人記憶的關(guān)聯(lián)與喚醒,其中以文獻(xiàn)23、48、306和307具有代表性。
由此可見,引證關(guān)系鏈的出現(xiàn),不僅客觀地反映了信息檢索可視化研究領(lǐng)域存在的學(xué)術(shù)流派,也從引文的角度揭示了信息檢索可視化研究的內(nèi)部發(fā)展規(guī)律。
3.2信息檢索可視化研究的熱點(diǎn)分析
關(guān)鍵詞是表述文獻(xiàn)主題、內(nèi)容、思路以及研究方法的關(guān)鍵性詞匯,是信息計(jì)量研究的重要指標(biāo)。由于關(guān)鍵詞能夠揭示文獻(xiàn)主題的核心信息,可以從一個(gè)側(cè)面反映出論文的主要研究領(lǐng)域和方向,因而國內(nèi)外的一些學(xué)者經(jīng)常通過關(guān)鍵詞的共現(xiàn)分析來描述某學(xué)科領(lǐng)域的研究方向與研究熱點(diǎn),并取得了一定的成果。
將全部文獻(xiàn)記錄導(dǎo)入Bibexcel并加以處理,得到相應(yīng)的關(guān)鍵詞頻率分布表,如表2所示:
從表2中選取高頻關(guān)鍵詞(被引頻次≥11)導(dǎo)出高頻關(guān)鍵詞的共現(xiàn)矩陣,然后將共現(xiàn)矩陣導(dǎo)入社會網(wǎng)絡(luò)分析軟件UCINET,利用UCINET組件Netdraw可視化以后,得到了高頻關(guān)鍵詞特征向量中心性網(wǎng)絡(luò)――高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,如圖3所示:
特征向量中心性是社會網(wǎng)絡(luò)分析中中心性分析的一項(xiàng)重要指標(biāo),該指標(biāo)能夠比較準(zhǔn)確地反映出某個(gè)關(guān)鍵詞在整個(gè)網(wǎng)絡(luò)中的地位?梢灾苯舆\(yùn)用關(guān)鍵詞特征向量中心性網(wǎng)絡(luò)圖譜確定出有關(guān)學(xué)科的主要前沿領(lǐng)域和核心主題。
從圖3可以看出,信息檢索可視化的研究熱點(diǎn)主要集中在記憶、信息檢索、機(jī)能性磁共振成像、圖像檢索、工作記憶、基于內(nèi)容的圖像檢索、識別、神經(jīng)影像學(xué)、信息可視化、語義記憶以及神經(jīng)心理學(xué)等領(lǐng)域。其中共現(xiàn)頻次最高的關(guān)鍵詞是記憶(memory),位于整體網(wǎng)絡(luò)的中心;其次是信息檢索(information retrieval)與機(jī)能性磁共振成像(IMRI),共現(xiàn)頻次分別為54和43,也很接近整體網(wǎng)絡(luò)中心。從網(wǎng)絡(luò)結(jié)構(gòu)上看,關(guān)鍵詞共現(xiàn)整體網(wǎng)絡(luò)由兩個(gè)子網(wǎng)與幾個(gè)獨(dú)立點(diǎn)所構(gòu)成。左上方的子網(wǎng)主要由關(guān)鍵詞信息檢索、信息可視化(information visualization)、圖像檢索(image retrieval)、基于內(nèi)容的圖像檢索(content-based image retrieval)、目標(biāo)識別(object recognition)與相關(guān)反饋(relevance feedback)所構(gòu)成,其核心關(guān)鍵詞是基于內(nèi)容的圖像檢索,共現(xiàn)頻次為33。該子網(wǎng)關(guān)鍵詞所代表的研究方向是信息檢索可視化研究的主體方向,也是學(xué)科研究熱點(diǎn)之所在;右下方子網(wǎng)主要由關(guān)鍵詞記憶、機(jī)能性磁共振成像、正電子發(fā)射型計(jì)算機(jī)斷層顯像(PET)、海馬體(hippoeampus)、源記憶(source memory)、前額葉皮層(prefrontalcortex)、識別(recognition)、檢索(ret~evaI)、注意(attention)、熟悉(familiarity)、編碼(encoding)、回憶(reeollection)、情節(jié)記憶(episodic memol7)、神經(jīng)影像學(xué)(neuroimaging)、語義記憶(semantic memory)所構(gòu)成,其核心關(guān)鍵詞是檢索,共現(xiàn)頻次20次。該子網(wǎng)關(guān)鍵詞所呈現(xiàn)的則是信息檢索可視化研究在生理、神經(jīng)網(wǎng)絡(luò)與認(rèn)知科學(xué)等領(lǐng)域的技術(shù)支撐。兩個(gè)子網(wǎng)之間依靠記憶、機(jī)能性磁共振成像與目標(biāo)識別三個(gè)關(guān)鍵詞相聯(lián)系,共同構(gòu)成一個(gè)網(wǎng)絡(luò)整體。除此以外,腦電圖(EEG)、MPEG-7、老化(aging)、認(rèn)知(cogm‘tlon)、基于內(nèi)容的檢索(content-based retrieval)、人臉識別(face recognltion)、工作記憶(working memory)、事件相關(guān)電位(event-related potentials)等幾個(gè)獨(dú)立節(jié)點(diǎn)游離于整體網(wǎng)絡(luò)之外,難以形成研究熱點(diǎn)問題。
4.討論
通過以上研究與分析,可以得出如下結(jié)論:
?信息檢索可視化研究大體經(jīng)歷了萌芽、興起與穩(wěn)步增長三個(gè)歷史階段,研究文獻(xiàn)與引文數(shù)量也逐年增加。引文編年圖中呈現(xiàn)的兩個(gè)重要引證關(guān)系鏈,不僅客觀地反映了信息檢索可視化研究領(lǐng)域存在的學(xué)術(shù)流派,也從引文的角度揭示了信息檢索可視化研究的內(nèi)部發(fā)展規(guī)律。而關(guān)鍵詞特征向量中心性整體網(wǎng)絡(luò)圖譜中兩個(gè)子網(wǎng)的出現(xiàn),不僅揭示了信息檢索可視化研究的熱點(diǎn)所在,而且從“共現(xiàn)”研究的角度印證了引文編年圖譜中兩個(gè)重要引證關(guān)系鏈的客觀存在。
?HistCite繪制的引文編年圖雖然能夠通過不同年代文獻(xiàn)節(jié)點(diǎn)之間的引用與被引用關(guān)系反映出某一學(xué)科領(lǐng)域發(fā)展歷史軌跡,卻無法反映出文獻(xiàn)之間引證關(guān)系的密切程度以及有關(guān)研究領(lǐng)域的研究熱點(diǎn)與發(fā)展趨勢;Bibexcel的強(qiáng)大功能在于知識單元的共現(xiàn)分析。原始數(shù)據(jù)記錄通過Bibexcel處理,即可得到高頻關(guān)鍵詞共現(xiàn)矩陣,矩陣通過UCINET繪制高頻關(guān)鍵詞特征向量中心性整體網(wǎng)絡(luò)圖譜并加以分析,不但可以科學(xué)合理、客觀公正地評價(jià)信息檢索可視化研究文獻(xiàn)之間引證關(guān)系的密切程度,而且可以了解其研究熱點(diǎn)與發(fā)展趨勢。將HistCite與Bibexeel、UCINET結(jié)合應(yīng)用,則能使它們?nèi)¢L補(bǔ)短,收到良好的研究效果。
相關(guān)熱詞搜索:探析 發(fā)展規(guī)律 信息檢索 信息檢索可枧化研究發(fā)展規(guī)律探析 多媒體信息檢索研究 信息檢索論文
熱點(diǎn)文章閱讀