【從檢索技術的實現方式看三大全文數據庫的發(fā)展】 三大檢索數據庫
發(fā)布時間:2020-03-07 來源: 散文精選 點擊:
[摘要] 通過三個有針對性的檢索實例對清華同方、萬方數據、重慶維普三大全文數據庫檢索技術實現的特點進行分析,從其目前提供的功能和招聘信息分析它們在競爭中所處的位置,指出全文數據庫的三大核心競爭力是:歷史數據回溯、當前數據質量和未來增值服務。進而對未來的增值服務進行分析與預測,包括計量分析自動生成系統(tǒng)、句子級文獻自動審稿系統(tǒng)、參考文獻自動標注系統(tǒng)、觀點型搜索,并指出這些系統(tǒng)的實現將使文獻服務真正走向知識服務。
[關鍵詞] 全文檢索 全文數據庫 檢索技術 全文數據庫商 清華同方 萬方數據 重慶維普 核心競爭力
[分類號] G35 TP391
1、引言
中國期刊全文數據庫(簡稱清華同方)、數字化期刊全文數據庫(簡稱萬方數據)、中文科技期刊數據庫(簡稱重慶維普)是國內公認的三大期刊全文數據庫。三大數據庫之間既有許多相似之處,又各具特色:從檢索形式上看,三大全文數據庫都支持初級檢索、高級檢索、專業(yè)檢索,都支持復雜的邏輯表達式的提問,都支持跨庫檢索,支持鏈接導航。但它們也有許多不同之處,如清華同方支持真正的全文檢索,而其他兩家目前還不能做到這一點。
目前,討論全文數據庫使用技巧及存在問題的文章非常多,但對全文數據庫檢索技術的實現以及未來的發(fā)展趨勢的探討還很少。本文作者既進行過常規(guī)的手工操作,也寫過進行自動下載的下載程序。通過對數據庫的不斷測試,特別是通過某些特殊的、有針對性的系列檢索,判斷出系統(tǒng)所使用的一些基本的檢索技術。進而在對這些技術探討的基礎上,分析并預測這二三大全文數據庫商的競爭優(yōu)勢及未來的發(fā)展方向。
2、通過針對性的檢索實例分析檢索技術的實現
目前,信息檢索大都致力于對主題檢索的支持,卻忽略了利用特征與結構的檢索。向量分詞檢索在索引空間、檢索效率等方面優(yōu)于字符匹配型,但柃素質量并不總是高于字符匹配。例如,想查找某一期刊連載的文章。這種檢索需求不是主題相關的,而是從特征入手。通常,連載的文章標題后有(上)、(下)或(一)、(二)或(I)、(Ⅱ)、(Ⅲ)等字樣。筆者于2006年12月19日分別對清華同方、重慶維普、萬方數據的期刊全文數據庫在標題檢索里精確匹配“(上)”,檢索結果分別為301 137,269 222和6l條。查看結果后發(fā)現,清華同方和重慶維普都濾掉了括號,不支持括號作為檢索條件,而只有萬方實現了用戶的檢索目的。這就說明前兩者是基于關鍵詞的索引,而萬方數據并沒有使用關鍵詞索引,而是使用單字符索引。
在另一個機構檢索實例中,對重慶維普,以“機構=北大*核心期刊*年=1989-2006”進行檢索,得到23 839條檢索結果,結果中主要包括西北大學、東北大學、河北大學、湖北大學等,說明重慶維普的機構檢索是字符匹配。而從清華同方的數據庫中限定1989―2006年期間的核心期刊,選擇模糊匹配得到了33027條結果,而精確匹配則只有7條。在通過精確匹配所得到的7條檢索結果中,作者單位都是直接寫的“北大”,事實上這是一種不規(guī)范的寫法。也就是說,如果這幾名作者使用規(guī)范的機構名稱的話,使用清華同方精確匹配的檢索結果將為0條。而在萬方期刊論文庫以“1989―2006期刊機構=北大”作為檢索條件,得到43073條檢索結果,說明它也是使用字符匹配。也就是說沒有一個數據庫使用同義詞,能夠讓用戶輸入“北大”,也能把“北京大學”檢索出來。萬方數據與重慶維普的機構檢索都沒有采用分詞,直接使用的單字符索引或like檢索,如果采用分詞的話,就不會出現這種情況。清華同方的模糊匹配結果很多,精確匹配結果卻很少,說明模糊匹配采用的是全字符索引或like檢索,而精確匹配卻是分詞后的索引。
在第三個檢索實例中,在中國期刊全文數據庫(清華同方)進行檢索,檢索范圍是1980-2007年的全部數據,檢索條件為在篇名中精確檢索“圖書”,得到21630條檢索結果,而把檢索詞換成“圖書館”后,檢索結果卻變成了95636條。“圖書館”包含“圖書”字樣,按常規(guī)思維,“圖書館”的檢索結果應該比“圖書”的檢索結果要少,可事實上檢索詞變長了,檢索結果卻多了。這說明該數據庫的篇名檢索采取的不是全字符切分,檢索時采取的不是單字索引,而是向量切分,可能是正向最大向量切分。如果進一步把檢索詞拉長,變成“數字圖書館”,檢索結果又變成了4885條,也就是說檢索詞變長了,檢索結果卻又變少了!皥D書館”肯定包含“圖書”,“數字圖書館”肯定包含“圖書館”,同樣的現象,卻有不同的結果。為了進一步驗證,把檢索詞換成“數據”,檢索結果變成75792條,而改成“元數據”,檢索結果又變成了958條,檢索詞長了,檢索結果卻變少了,由此斷定該數據庫采取的不是正向最大向量切分,而是逆向最小向量切分或逆向最大向量切分。因為如果采取的是正向最小向量的話,“圖書館”的檢索結果就不會比“圖書”的檢索結果多。事實上,根據漢語中心語靠后的特點,逆向切分比正向切分的準確率要高得多。而萬方數據與重慶維普都是遵循詞條變長、結果一定會少的原則,因此可以斷定是全字符索引。實驗過程與數據如表1所示。
為了進一步驗證索引的方式,采用二次檢索來比較結果的變化。用清華同方數據庫標題檢索“數據”得到75792條檢索結果,從結果中再進行標題檢索“元數據”與“元”分別得到958條與1207條,說明對元數據這個詞做了三個索引:元、數據、元數據。用“圖書館員”進行標題檢索得到3234條檢索結果,在結果中再檢索“圖書”,只有9條,這9條記錄的標題中既含“圖書館員”,又含“圖書”(獨立于圖書館員),在結果中檢索“館員”,只有21條,情況與圖書一樣。而在3234條結果中分別檢索“圖書館”與“員”,其結果都是3234條,說明系統(tǒng)把“圖書館員”切分成“圖書館/員,"’而不是“圖書/館員/”;而在圖書館的95634條結果中二次檢索“圖書”,得到1425條,說明沒有把“圖書館”切分成“圖書/館/”。為了進一步的驗證,采用更長的詞條進行測試,表2的結果說明“網絡信息計量學”被切分成了“網絡,信息,計量學/”。如果采用最大向量切分,則不能切分出“網絡/信息/”,如果采用正向最小向量應該能切出“計量”。計量學與圖書館一樣,卻與元數據不一樣,把“元數據”切成“元/數據/”,卻不把“圖書館”切成“圖書/館/”,說明肯定是逆向向量切分,而且是二次嵌套切分。此外,檢查結果還證明系統(tǒng)沒有使用MMC(基于上下文的最大向量匹配)進行切分。
3、從文獻服務走向知識服務
從文獻服務走向知識服務的理念已經得到了廣泛認可,但實現什么樣的知識服務、如何實現真正的知識服務才是未來圖書情報機構獲取核心競爭力的關鍵。中國學術期刊網(WWW.省略)改名為中國知網,由提供學術文獻服務向提 供知識服務進軍,以引文鏈接、學術定義、學術趨勢等新功能為起點,以回答學術問題、打破以篇為單位的知識組織方式,提供知識點與知識點之間的鏈接為目標,旨在實現真正的以知識點為處理單元的知識服務,也就是從物理層次的文獻單元向認知識層次的知識單元轉換“。除了學術定義外,它還會抽取歷史發(fā)展、分類、特點、方法、關鍵技術、國內研究進展、國外研究進展、應用前景、實驗數據、實驗結果等諸多內容,即按照寫作的結構把文章所有內容進行模塊化抽;萬方數據于2006年推出了知識鏈接門戶,通過作者、分類號、關鍵詞字段等提供文獻之間的鏈接;重慶維普也推出了知識頻道。
數據庫商紛紛使用知識概念為知識服務造勢,雖然可以從服務觀念和目標定位上進行強化,但要實現真正的知識服務還有很長的路要走。實現這一轉變的根本是人才,所以通過三大數據庫商對人才特別是研發(fā)工程師的需求也能看出他們的研發(fā)重點和相應進展:①通過招聘信息可以發(fā)現他們的研究計劃。例如,清華同方的招聘信息中進一步強化需要CNKI文獻搜索產品、知識元搜索產品和各種垂直搜索產品的數據采集加工、整合更新和系統(tǒng)開發(fā)人才,重點解決文本挖掘、中文信息處理、知識系統(tǒng)等;萬方數據招聘研發(fā)工程師的要求是跟蹤信息技術發(fā)展,在信息檢索、文本挖掘等相關研發(fā)領域開展研發(fā)工作;而重慶維普的網站上沒有發(fā)布招聘研發(fā)工程師的信息。②從公司招聘研發(fā)工程師的描述中可以看出研發(fā)深度的不同。在不涉及商業(yè)秘密的情況下,研究專業(yè)方向越具體,研究內容越深入,公司的研發(fā)力量就越強,推出的產品價值也就越高。因此,從招聘信息可以推斷出,目前清華同方的技術研發(fā)似乎強于萬方數據,而萬方數據又強于重慶維普。事實上,通過他們所推出的增值服務,也就是新功能也可以驗證這一關系。例如清華同方的知識鏈接(引文分析)的推出早干萬方數據的知識鏈接。近期清華同方又推出了學術定義、圖表搜索、搜索趨勢等,這些服務已經開始對文本特別是正文內容進行分析,并充分利用了信息抽取技術。計量分析自動化已經實現了數值的統(tǒng)計計算,盡管還沒有實現計量分析報告的自動生成,但以目前的勢頭來看,相信在不久的將來,也會實現的。③從清華同方招聘研發(fā)工程師的任務和要求來看,已不再關注傳統(tǒng)的信息檢索技術,而是要解決文本挖掘、信息抽取等問題,以實現自動分類與聚類、自動摘要以及問答系統(tǒng)等目標。
4、全文數據庫的三大核心競爭力
期刊全文數據庫的競爭主要體現在三個方面:歷史數據的回溯;當前的數據質量;未來的增值服務,即數據的深加工程度。
對于歷史數據的回溯建庫問題,目前中國知網走在前列,很多期刊已經回溯至創(chuàng)刊號。歷史數據除了掃描全文外,重點是關鍵詞的提取與摘要的自動生成以及自動分類(或歸類),因為在20世紀90年代前,很多期刊的文章都沒有關鍵詞,更不用說摘要了。
當前的數據質量主要反映在數字化程度的比例。就是從編輯部那兒得到多少篇純電子版文章,而不是利用紙版進行掃描。因為只有用純電子版,才有可能提供真正的全文檢索,如果不能對正文字段進行檢索,那檢索只能稱之為假全文檢索,因為沒有比正文字段更能反映文章內容的了。如果沒有電子版的數據,增值服務也就無從談起。
這些增值服務除了提供更好的檢索服務外(如中英文摘要語料對齊后的雙語檢索),還包括(但不僅限于)以下的應用:
提供文獻計量自動分析的查詢,如清華同方已推出的“中國學術期刊文獻評價統(tǒng)計分析系統(tǒng)”。
提供學術調研報告的自動生成,在文獻計量自動分析的基礎上,對國內外某領域進展情況進行評述。學術調研評價可以指導論文的選題和前期調研,特別有利于論文選題、項目評審等工作。
可以從句子級提供文獻自動審稿輔助功能以及參考文獻自動標注功能。
提供更小粒度的檢索,支持句子檢索、真正的圖片檢索(首先是流程圖、系統(tǒng)結構圖、數據表等的檢索,以后會支持圖像檢索,從顏色、紋理、形狀等各個要素進行分析),大量使用信息抽取技術,提供列表式搜索。
支持學術問答,支持觀點型搜索、流派型搜索,能夠提供學者譜系圖,利用學位論文的致謝提供導師自動評價系統(tǒng)。
提供知識點與知識點之間的鏈接,實現真正的知識服務。正如由過去買本整刊進行閱讀到現在的只看某篇文章,將來可能實現只看某篇文章的某一部分。
5、增值服務是核心競爭力的核心
文獻計量自動分析系統(tǒng),可以統(tǒng)計分析任意一個學科、專業(yè)或方向的核心作者,主要研究機構,地域分布,關鍵詞、標題、文摘及分類號的關系,提供研究熱點及趨勢等統(tǒng)計分析,以TopN、統(tǒng)計圖表等形式提供給用戶,并用文獻計量的定律來進行驗證。而現在的計量分析方面文章大都是由人來寫的,而且主要分布在圖書情報領域。其實自然科學領域也非常需要他們本學科的文獻計量統(tǒng)計分析,如果能有這樣的一個自動統(tǒng)計分析系統(tǒng),會為科研人員節(jié)省很多時間和精力,為研究工作提供很大方便(關于計量分析的技術實現請參閱文獻[5―6])。
當前,信息爆炸與信息泛濫的問題日益突出,解決的根本方法是使大量創(chuàng)新性很低的文章沒有發(fā)表的可能。為此,編輯部會使用“學術抄襲與科學引用自動判定系統(tǒng)”輔助審稿,從而在源頭上利用技術手段解決學術抄襲的腐敗問題,而這種系統(tǒng)可以由全文數據庫商聯(lián)合提供。這類句子級分析匹配系統(tǒng)既可以對學術抄襲與科學引用進行自動判定,同時也可以幫助作者進行參考文獻的自動標注。句子匹配分析系統(tǒng)的難點主要表現在:異構數據的獲。粴v史數據的回溯建庫;跨語言之間的判定。
現在的數據庫商以篇為單位提供數據,未來的數據庫商不僅能提供句子級的搜索與分析,還能提供以知識點為單位的搜索與分析。將來的系統(tǒng)還將會提供學習型搜索和觀點型搜索:①學習型搜索相當于文獻自動綜述,對于現在的檢索而言,如果用戶不打開檢索結果進行全文閱讀就很難判斷哪些文章是需要的,哪些文章是不需要的,而看過的文章又有許多重復的內容。如果能夠讓計算機進行濾重與知識重組來完成這一工作,那將是一件非常有意義的事情。未來的搜索將可以實現知識的重組,把上千篇文獻組織成一篇,相當于以百科全書的形式進行組織,用戶只需要看“書”中感興趣的部分就可以了。②觀點型搜索是指根據某觀點進行搜索,以自然語言形式輸入查詢,搜索含有某個觀點的文章,或者關于某個知識點的所有觀點。未來的檢索結果將不再是一篇一篇的文章,而是一個列表。列表列出每種觀點以及每一種觀點的支持人數。當我們想詳細了解某一種觀點時,就點擊相應記錄,系統(tǒng)會顯示關于這種觀點有哪些論述方式,是如何來論述的,也就是真正的知識鏈。這是解決信息泛濫與知識貧乏的關鍵途徑。
6、結論
清華同方率先實現了真正的全文搜索,并推出了參考文獻與引用文獻相關的文獻鏈接,今年又推出了一系列的學術服務,這也是CNKI的價格較高同時市場占有率也很高的原因之一。因此,數字化程度與數據深加工程度將是數據商的核心競爭力的反映。同行數據庫商之間的競爭除數據質量外還有:在范圍上體現為對歷史數據的回溯程度――對歷史數據回溯得越多,數據就越有競爭力;在深度上將反映在對數據的深加工程度上,對數據加工的越深越細,將會越有競爭力。
未來針對全文數據庫的應用系統(tǒng)可能會很多,新功能的名字也可能有很多不同,但整體上會朝著以下幾個方向發(fā)展:分析粒度越來越小(句子分析是重點和核心),分析數量越來越大(大規(guī)模異構數據綜合分析),分析范圍越來越廣(正文內容分析成為重點),分析程度越來越深(不再以詞為重點,會支持結構檢索、語用檢索等)。
自動問答、信息抽取、列表式搜索、觀點型搜索等都是一些新的趨勢,但是搜索技術要取得突破性進展,知識獲取無疑是關鍵。三大全文數據庫商擁有如此豐富而權威的資源,在這些文獻中蘊含著大量的專家知識,如果能把這些知識都抽取出來,就可以進行學術的自動問答了。未來的IT用戶所強調的不是擁有技術,而是擁有可以用的知識。發(fā)揮計算機的速度優(yōu)勢主要依靠算法,發(fā)揮計算機的存儲優(yōu)勢主要依靠知識庫。建好人用知識庫可以解決很多問題,如果這樣的知識庫(如CYC)同時還能為計算機所用,那么許多問題便會迎刃而解。擁有這樣的知識庫必將引領未來的IT,必將印證“得資源者得天下”的道理。
參考文獻:
[1]李保利,陳玉忠,俞士汶.信息抽取研究綜述.計算機工程與應用,2003,39(10):1-5,66.
[2]李芳,盛煥燁,姚天?.信息檢索與信息抽取技術的研究.計算機應用研究,2002,22(2):16-18.
[3]賀勝.信息抽取技術內涵及應用.南京師范大學文學院學報,2004(2):184-188.
[4]Baeza-Yates R, Ribeiro-Neto B.現代信息檢索(英文版).北京:機械工業(yè)出版社,2006:24-34.
[5]李珍,田學東.PDF文件信息的抽取與分析.計算機應用,2003,23(12):145-147.
[6]宋艷娟,張文德.基于XML的PDF文檔信息抽取系統(tǒng)的研究.現代圖書情報技術,2005(9):10-13.
[7]崔繼馨,張鵬,楊文柱.基于DOM的Web信息抽取.河北農業(yè)大學學報,2005,28(3):90-93.
[8]孫斌.信息提取技術概述(上).術語標準化與信息技術,2002(3):28-32.
[9]Leonid peshkin and avi pfeffer bayesian information extraction network.[2007-05-27]. http://dli.iiit.ac.in/ijcai/IJCAI-2003/PDF/063.pdf.
[10]袁毓林.用動詞的論元結構跟事件模板相匹配――一種由動詞驅動的信息抽取方法.中文信息學報,2005,19(5):37-43.
[11]袁毓林.用邏輯和篇章知識來約束模板匹配――邏輯結構和篇章結構知識在信息抽取中的運用.中文信息學報,2005,19(4):39-45.
[12]孟憲福,狄惠.基于Agent和XML的web頁面信息抽取研究與設計.計算機工程與設計,2004,25(8):1411-1414.
[13]王勝,朱明.基于最大熵馬爾可夫模型的地址信息抽取.計算機工程與應用,2005,41(21):192-194.
[14]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取.系統(tǒng)仿真學報,2004,16(3):507-510.
[15]張樹瑜,朱仲英.基于MT決策樹的Web信息抽取研究.計算機 工程與應用,2004,40(13):69-71.
[16]陸科進,李新穎.基于Ontology 的文本信息抽取.計算機應用研究,2003(7):46-48.
[17]張成洪,王向安,古曉洪.利用Ontology和規(guī)則表達式的Web信息抽取.計算機工程,2004,30(5):58-60.
相關熱詞搜索:三大 檢索 方式 從檢索技術的實現方式看三大全文數據庫的發(fā)展 數據庫高級檢索技術 中文網絡數據庫的檢索
熱點文章閱讀