什么是信息組織 從信息組織視角解析CNKI
發(fā)布時間:2020-03-07 來源: 感恩親情 點擊:
摘要 從信息組織的視角對CNKI知識網(wǎng)絡(luò)服務(wù)平臺分別從宏觀(資源集合的導(dǎo)航組織;檢索結(jié)果集合后處理組織)、中觀(基于文獻單元的引文鏈接組織)、微觀(基于知識單元的知識元鏈接組織;概念關(guān)系詞典技術(shù))層面進行剖析;認為CNKI提供一個相對較為完善和深入的數(shù)字圖書館信息組織方法體系,可以作為我國數(shù)字圖書館信息組織的典范。并期望CNKI通過優(yōu)化信息組織能提供更高質(zhì)量的知識服務(wù)。
關(guān)鍵詞 信息組織 知識組織 數(shù)字信息組織 CNKI 引文鏈接 知識元鏈接
分類號 G354
作為中國國家知識基礎(chǔ)設(shè)施的CNKI,經(jīng)過多年的發(fā)展,無論在資源數(shù)量、信息組織水平、檢索平臺功能還是信息服務(wù)方面都取得了長足的進步,知識增值效應(yīng)得到了充分的顯現(xiàn),也為我國數(shù)字圖書館的建設(shè)與發(fā)展樹立了典范。
1 數(shù)字信息組織與CNKI信息組織概述
信息組織是為了方便人們檢索、獲取信息而將龐雜、無序的信息進行系統(tǒng)化和有序化的信息增值過程,是信息獲取和利用的基礎(chǔ)。數(shù)字網(wǎng)絡(luò)環(huán)境下,信息組織的外延不斷拓展,信息資源的采集、信息內(nèi)容的揭示和關(guān)聯(lián)、信息鏈接組織、信息內(nèi)容和信息體系重組、信息系統(tǒng)整合組織、檢索結(jié)果后處理組織都是信息組織的重要內(nèi)容和任務(wù),遠遠超出了圖書情報系統(tǒng)傳統(tǒng)信息組織的范圍。
目前,數(shù)字圖書館信息組織面臨的最大挑戰(zhàn)是如何增強信息組織的適應(yīng)性和有效性,通過對系統(tǒng)與內(nèi)容的靈活組織及深層組織,從而實現(xiàn)全面滿足用戶各方面、各層次的信息需要。作為我國數(shù)字圖書館建設(shè)的一面旗幟,CNKI基于其相當(dāng)完備和充足的資源數(shù)量,充分體現(xiàn)了數(shù)字圖書館信息組織的靈活性、深入性、適應(yīng)性、有效性特征,為實現(xiàn)知識搜索提供了充分的信息組織和知識組織保證。
在CNKI的開發(fā)過程中,先后制定了“CNKI系列數(shù)據(jù)庫產(chǎn)品標(biāo)準(zhǔn)”,涉及到從數(shù)據(jù)入編、加工到最后形成數(shù)據(jù)庫產(chǎn)品的全過程,從數(shù)據(jù)源頭、數(shù)據(jù)質(zhì)量等方面為開展深入的知識挖掘提供了基礎(chǔ);建設(shè)了各種知識庫資源,包括:CNKI知識詞典、引文數(shù)據(jù)庫、各種索引數(shù)據(jù)庫、概念關(guān)系詞典等,對實現(xiàn)知識搜索、提高搜索性能起到了基礎(chǔ)性作用。
CNKI自主開發(fā)的網(wǎng)絡(luò)資源檢索和服務(wù)的共享平臺,簡稱KNS。目前KNS已從3.0版升級到5.0版。2008年CNKI推出中國學(xué)術(shù)文獻網(wǎng)絡(luò)出版總庫檢索平臺,依托強大的知識網(wǎng)絡(luò)服務(wù)平臺KNS5.2,與其他文獻資源實現(xiàn)跨庫檢索,并通過知網(wǎng)節(jié)構(gòu)建成知識型數(shù)據(jù)庫。新平臺深度整合了CNKI的系列數(shù)據(jù)庫,信息揭示的維度和深度、平臺檢索和服務(wù)功能均得到顯著提升,真正形成了知識資源的深度開發(fā)和利用平臺。
CNKI以多維導(dǎo)航、檢索結(jié)果分組聚類和排序顯示、引文鏈接、知識元鏈接、概念關(guān)系詞典等主要信息組織技術(shù)為支撐,提供強大的信息檢索功能和知識發(fā)現(xiàn)功能,極大地提高了信息資源的增值利用程度。
2 宏觀信息組織
宏觀層面的信息組織是指應(yīng)用組成信息集合的資源標(biāo)識系統(tǒng)為用戶生成導(dǎo)航路徑,其目的是為了去支持用戶隨機的瀏覽和定向的檢索。宏觀信息組織的核心是按資源的一個或多個屬性的不同對信息集合重新分組整合形成子集合的過程。筆者把宏觀的信息組織分為前檢索階段資源集合的導(dǎo)航組織和后檢索階段上的檢索結(jié)果集合聚類組織。
2.1 資源集合的導(dǎo)航組織
導(dǎo)航體系決定用戶對系統(tǒng)信息資源的選擇和搜尋策略。當(dāng)信息集合覆蓋多學(xué)科、多層次、多類型的巨量內(nèi)容資源時,如何引導(dǎo)用戶快速定位到目標(biāo)子集合、找到所需要的信息內(nèi)容就是信息集合可用性和易用性的一個重要指標(biāo),這就是資源的導(dǎo)航組織。
數(shù)據(jù)庫或信息系統(tǒng)等信息集合通常通過提供分類、主題瀏覽等方式進行導(dǎo)航組織。當(dāng)然,具體導(dǎo)航方式的選擇取決于信息資源集合的特點、信息資源的構(gòu)成、信息用戶群等因素。一個優(yōu)秀的復(fù)雜信息集合往往采用多種導(dǎo)航方式,讓用戶在巨量的信息集合中任意選擇自己的搜索路徑,快速定位到最精確的目標(biāo)子集合。多維導(dǎo)航方式的選擇從信息組織原理來分析,實質(zhì)是根據(jù)信息集合或資源的屬性進行分面分類的過程。
CNKI將《中國知識資源總庫》中各數(shù)據(jù)庫整合為一個檢索平臺,使每種數(shù)據(jù)庫都支持單庫和跨庫檢索。為此,CNKI平臺提供了多維導(dǎo)航和個性化導(dǎo)航,并在最新版平臺中實現(xiàn)了多維導(dǎo)航和個性化的集成。多維導(dǎo)航分為學(xué)科內(nèi)容分類導(dǎo)航、數(shù)據(jù)庫資源類型導(dǎo)航、期刊導(dǎo)航(按期刊榮譽和權(quán)威性)、基金導(dǎo)航(根據(jù)期刊發(fā)文的特點)和機構(gòu)導(dǎo)航等。個性化導(dǎo)航,主要體現(xiàn)在最新版的CNKI中,《中國學(xué)術(shù)文獻網(wǎng)絡(luò)出版總庫》收錄的所有文獻,均按《中國圖書分類法》分成168個學(xué)科數(shù)字圖書館和3 000多個子專業(yè)數(shù)字圖書館,各學(xué)科專業(yè)數(shù)字圖書館均是該學(xué)科專業(yè)的學(xué)術(shù)文獻總庫。用戶可根據(jù)自己的研究領(lǐng)域,選擇進入某學(xué)科專業(yè)領(lǐng)域的數(shù)字圖書館,既可縱覽本學(xué)科全部文獻內(nèi)容,又可涉獵本學(xué)科的相關(guān)領(lǐng)域。各專業(yè)館詳細揭示本學(xué)科及其邊緣和交叉學(xué)科的重要研究成果、進展與動態(tài),并可使用戶了解、掌握重要研究項目和相關(guān)研究人員與機構(gòu)的研究歷史和最新動向。表1羅列了“圖書情報與數(shù)字圖書館”專業(yè)數(shù)字圖書館的所有導(dǎo)航欄目名稱:
2.2 檢索結(jié)果集合后處理組織
如果說前檢索階段資源集合的導(dǎo)航組織主要用于定位檢索目標(biāo),那么檢索后處理階段對檢索結(jié)果集合的聚類組織和排序顯示是對檢索結(jié)果的進一步重組,有助于用戶快速定位到準(zhǔn)確的檢索結(jié)果,減輕檢索負擔(dān)。大規(guī)模應(yīng)答檢索結(jié)果集的后處理,即聚類組織和排序顯示的作用隨著Web海量搜索的發(fā)展突顯了出來,表現(xiàn)為:一方面可實現(xiàn)從多角度、多層次反映文獻與查詢要求;另一方面改變了傳統(tǒng)檢索過程中不考慮用戶檢索偏好,缺少根據(jù)用戶具體需求的變化動態(tài)調(diào)整檢索策略的缺憾,進而提高了查準(zhǔn)率和易用性。
CNKI新平臺對檢索結(jié)果集合進行了深入的細化分組聚類和排序組織,一是提供多角度的文獻分組聚類:學(xué)科類別、中文關(guān)鍵詞、研究層次、文獻作者、文獻出版來源、期刊名稱、研究資助基金、來源數(shù)據(jù)庫、發(fā)表年度、作者單位;二是提供相關(guān)性、發(fā)表時間、被引頻次和下載頻次多種排序顯示方式。將傳統(tǒng)上線性、一維、散列的檢索結(jié)果立體化、多維化、計量化,從而實現(xiàn)檢索結(jié)果的快速篩選和準(zhǔn)確定位。表2為“信息共享空間”86條檢索結(jié)果的部分分組聚類顯示:
3 中觀知識組織
知識是相互聯(lián)系的,也是在這種聯(lián)系中繼承并創(chuàng)新發(fā)展的。發(fā)現(xiàn)、理解這種聯(lián)系,是人們有效學(xué)習(xí)和成功創(chuàng)新的關(guān)鍵。“站在巨人的肩膀上”揭示了文獻引用的動機――原文獻的科學(xué)參考價值,這是引文存在的本原。1955年,Dr.Garfield在《Science》發(fā)表論文提出將引文索引作為一種新的文獻檢索與分類工具,即將一篇文獻作為檢索字段從而跟蹤一個Idea的發(fā)展過程狀態(tài)。自此,引文索引成為文獻信息組織的重要方法,成就了一大批權(quán)威的引文索引數(shù)據(jù)庫,如IsI 的SCI(現(xiàn)發(fā)展為IsI Web 0f Knowledge平臺)、EI《工程索引》等;進而,基于引文分析鏈接組織的引文檢索也成為重要的知識發(fā)現(xiàn)和知識創(chuàng)新的科學(xué)查詢方法。
就知識組分的層次而言,引文鏈接組織屬于文獻單元知識組織的范疇。通過文獻引文鏈接,人們可以從一篇高質(zhì)量的文獻出發(fā)沿著科學(xué)研究的發(fā)展道路,通過對被引文獻(cited reference)的追溯――越查越舊;追蹤引用文獻(times cited)――越查越新;挖掘相關(guān)文獻(related records)――越查越深,從而實現(xiàn)科研的創(chuàng)新與發(fā)展。此外,引文分析有助于人們發(fā)現(xiàn)學(xué)科分布、發(fā)展趨勢以及評價機構(gòu)、作者的學(xué)術(shù)水平等。
在數(shù)字化、網(wǎng)絡(luò)化出版載體中,引文鏈接揭示文獻之間學(xué)術(shù)關(guān)聯(lián)的特性得到了充分的釋放和展示。數(shù)字鏈接技術(shù)讓引文鏈接分析組織技術(shù)如虎添翼,得到了極致發(fā)揮,一大批網(wǎng)絡(luò)引文系統(tǒng)應(yīng)運而生,如GoogleScholar、CrossRef等。CNKI也是一個非常成功的網(wǎng)絡(luò)引文數(shù)據(jù)庫。
CNKI平臺的基礎(chǔ)之一就是引文鏈接網(wǎng)絡(luò),它充分利用引文鏈接組織技術(shù),對所收錄的每一篇文獻進行引文分析,切分引文條目,分析引文元數(shù)據(jù)項,建立深度關(guān)聯(lián)的引文網(wǎng)絡(luò),包括參考文獻、引證文獻、共引文獻、同被引文獻、二級參考文獻、二級引證文獻。此外,CNKI還通過對相關(guān)知識元(如作者、機構(gòu))的分析,以及基于Web日志分析和關(guān)聯(lián)規(guī)則挖掘,設(shè)置了相似文獻、同作者與相關(guān)作者文獻、同機構(gòu)與相關(guān)機構(gòu)文獻、同類文獻、同行關(guān)注文獻(見最新版CNKI)等相天文獻的鏈接!耙木W(wǎng)絡(luò)+相關(guān)文獻鏈接”構(gòu)成了CNKI的核心――“知網(wǎng)節(jié)”。以“中國知網(wǎng)”期刊庫為例,某一篇文獻的“知網(wǎng)節(jié)”(見圖1)充分展示了“節(jié)點文獻”的引文網(wǎng)絡(luò)(左虛線框)和相關(guān)文獻(右虛線框),并沒置時間軸展示每一年度的引文文獻數(shù)。
博碩士學(xué)位論文、會議論文等CNKI系列數(shù)據(jù)庫,也都配備了形式相同的“知網(wǎng)節(jié)”,而且各種文獻的“知網(wǎng)節(jié)”都打破了源數(shù)據(jù)庫的限制,構(gòu)成了,跨庫“知網(wǎng)節(jié)”。而且,CNKI系列數(shù)據(jù)庫的“知網(wǎng)節(jié)”還與國家科技圖書館的所有英文文獻進行引文鏈接,并可跨平臺檢索,提供遠程原文傳送服務(wù)。此外,CMKI已實現(xiàn)了與國外一些重要數(shù)據(jù)庫(如Springer,Highwire等)的跨平臺鏈接和檢索也在迅速推進之中。CNKI引文鏈接準(zhǔn)確率達98%,從而為引文檢索和評價分析提供了保障。
通過深度引文分析鏈接關(guān)聯(lián)起來的“知網(wǎng)節(jié)”,人們可以追溯課題的發(fā)展歷史和研究背景,把握目前的研究進展與研究現(xiàn)狀,并探索未來的發(fā)展趨向及研究空間。同時,“知網(wǎng)節(jié)”又是一個強大的檢索平臺,通過它所提供的個性化知識服務(wù)(推服務(wù)),有助于激發(fā)、引導(dǎo)、類比、聯(lián)想等各種創(chuàng)新思維,促進科學(xué)發(fā)現(xiàn)和技術(shù)創(chuàng)新。
CNKI的引文鏈接功能,除了可以構(gòu)建相關(guān)的知識網(wǎng)絡(luò)外,還可用于個人、機構(gòu)、論文、期刊等方面的計量與評價,預(yù)測學(xué)科分布、學(xué)術(shù)趨勢,評價期刊質(zhì)量和機構(gòu)、作者的學(xué)術(shù)水平等。
4 微觀知識組織
4.1 基于知識單元的知識元鏈接組織
知識組織顆粒度一旦實現(xiàn)從文獻單元深入到文獻中的知識元,大量文獻中所包含的知識元及相關(guān)信息之間的關(guān)聯(lián)將產(chǎn)生極大的知識增值。因此,我們說知識元是知識組織的核心和基元。
知識元是構(gòu)成知識結(jié)構(gòu)的最小獨立單元,用來表示一個個針對特定問題的解決方案,可以是概念、方法、規(guī)則、公理等數(shù)據(jù)或事實以及實例化的知識。由于知識元的內(nèi)容比較單一、獨立,比較容易選擇與之相適應(yīng)的最佳存儲和查詢,便于知識庫的構(gòu)建與檢索,便于用戶直接查詢、組合知識元。必須指出的是,知識元檢索足建立在對文獻內(nèi)容細粒度標(biāo)引基礎(chǔ)上的。就知識組分的層次而言,知識元鏈接屬于知識單元組織的范疇。
基于知識元的知識組織,首先要實現(xiàn)對文獻知識元的提取和標(biāo)引,在此基礎(chǔ)上在知識元間建立鏈接,進而形成知識網(wǎng)絡(luò);谥R元的知識網(wǎng)絡(luò)對知識發(fā)現(xiàn)、知識創(chuàng)新和知識集成服務(wù)的實現(xiàn)提供最大可能。
在引文鏈接的基礎(chǔ)上,CNKI深入到文獻中的微觀層面,提煉出知識元,通過知識之間在微觀水平上的聯(lián)系把知識直接關(guān)聯(lián)起來,從而真正形成“知識網(wǎng)絡(luò)”,支持知識搜索。
CNKI知識元數(shù)據(jù)庫是由獨立的知識元素構(gòu)成的數(shù)據(jù)庫。通過對《中國知識資源總庫》資源的加工,提取出具有獨立性和完整性的知識單元,然后以知識網(wǎng)絡(luò)為基礎(chǔ),為“知識單元”設(shè)置鏈接,構(gòu)建成知識元數(shù)據(jù)庫。具體地,CNKI的知識元數(shù)據(jù)庫分為三類:
?理論與方法型知識元:包括思想方法、公理、原理、定律及正在探索中的觀念,觀點,方法與技巧。
?事實型知識元:包括自然,社會存在和演變的事實信息。
?數(shù)值型知識元:包括各種數(shù)據(jù)類知識和科學(xué)數(shù)據(jù),具有數(shù)值分析和知識推理功能。
CNKI知識元數(shù)據(jù)庫還包括從其他文獻中挖掘出來的最新知識元,該知識元庫是不斷動態(tài)變化的;谏鲜鲋R元庫,CNKI以知識網(wǎng)絡(luò)中心為基礎(chǔ),對作者、機構(gòu)、刊名、關(guān)鍵詞以及相關(guān)作者、相關(guān)機構(gòu)、相關(guān)關(guān)鍵詞等“知識單元”設(shè)置鏈接,通過這些鏈接可以檢索知識網(wǎng)絡(luò)中心配制的數(shù)據(jù)庫的相應(yīng)字段,獲取檢索結(jié)果。
CAJViewer7.0及7.02的“知識元鏈接及釋義”功能,在線鏈接了許多來自各種百科全書、辭典、字典、圖譜、年鑒等工具書的概念、術(shù)語、定理、公理、定律、人物、事件以及數(shù)字、圖片、表格等各種知識元和從其他文獻中挖掘出來的最新知識元所形成知識元庫,對每篇文章的專業(yè)術(shù)語與詞匯都做出標(biāo)示,并給出這些專業(yè)術(shù)語與詞匯在各種專業(yè)工具書中的權(quán)威釋義。
目前,在基于知識單元的知識元鏈接組織層面上,CNKI提供的知識搜索包括對文獻、數(shù)值、學(xué)術(shù)圖形、歷史事件、學(xué)術(shù)定義、學(xué)術(shù)趨勢、新概念、表格等的搜索以及翻譯助手、學(xué)術(shù)統(tǒng)計分析、熱點趨勢分析等,在常規(guī)檢索中可以實現(xiàn)相關(guān)詞和相似詞的擴展推薦。
4.2 概念關(guān)系詞典技術(shù)
概念關(guān)系的揭示與組織是實現(xiàn)語義挖掘和關(guān)聯(lián)的基礎(chǔ)。概念關(guān)系包含同義、近義、等級、相關(guān)關(guān)系及其他隱含語義關(guān)系。檢索系統(tǒng)中內(nèi)嵌概念關(guān)系詞典,主要用于檢索控制,人們稱之為后控制。從后控制的角度來分析,在執(zhí)行檢索的過程中,系統(tǒng)通過基于內(nèi)置的概念關(guān)系詞典的相似性或相關(guān)性運算,可以實現(xiàn)后控制檢索,如可以幫助用戶修正查詢式,實現(xiàn)查詢擴展,從而提高檢全率和檢準(zhǔn)率。概念關(guān)系詞典還可以輔助實現(xiàn)自動分類與聚類,概念關(guān)系詞典的構(gòu)造技術(shù)及完備性直接決定了檢索系統(tǒng)的智能處理水平。
CNKI的KNS平臺內(nèi)嵌概念關(guān)系詞典,用來支撐語義知識資源挖掘。CNKI概念關(guān)系詞典是一個以揭示各學(xué)科專業(yè)詞匯(關(guān)鍵詞、術(shù)語、主題詞)所代表的概念之間的關(guān)系為基本內(nèi)容的專業(yè)知識庫系統(tǒng),詞與詞之間包含同義、縮略語、譯名、上下位等各種關(guān)系。CNKI概念關(guān)系詞典中詞之間的概念關(guān)系主要來自系統(tǒng)對CNKI系列數(shù)據(jù)庫中大量文獻內(nèi)容的智能分析;谠撛~典,檢索系統(tǒng)設(shè)置了檢索詞智能擴展功能(包括概念擴展和詞形擴展)和概念導(dǎo)航功能,其中:
?檢索詞智能擴展基于概念關(guān)系詞典相關(guān)語義場運算技術(shù),實現(xiàn)了不同字段間的智能擴展,有助于提高了檢全率和檢準(zhǔn)率,便于發(fā)現(xiàn)新知識,實現(xiàn)知識漫游服務(wù),如圖2所示:
?概念導(dǎo)航基于概念關(guān)系詞典相近語義場運算技術(shù),以文本形式表現(xiàn)概念之間的相近關(guān)系,實現(xiàn)概念導(dǎo)航,有助于提高查全率,便于發(fā)現(xiàn)新知識,如圖3所示:
5 結(jié)語
CNKI數(shù)字圖書館知識網(wǎng)絡(luò)平臺的成功運行依托于對信息資源和信息系統(tǒng)從宏觀到微觀層面的信息有序組織和知識揭示組織技術(shù)。通過剖析,筆者認為CNKI為人們提供了一個相對較為完善和深入的數(shù)字圖書館信息組織方法體系,可以作為我國數(shù)字圖書館信息組織的典范。
當(dāng)然,筆者也期待CNKI在下一步發(fā)展的過程中,汲取權(quán)威數(shù)據(jù)庫檢索平臺(如IsI Web of Knowledge)的某些信息和知識組織理念和方法,在來源刊物的優(yōu)選控制機制、引文的完整性和引文深度、概念關(guān)系詞典和相關(guān)算法方面作進一步的優(yōu)化與完善。
相關(guān)熱詞搜索:視角 解析 組織 從信息組織視角解析CNKI 從女性主義視角下解析 從女性主義的視角分析
熱點文章閱讀