www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<delect id="veocb"></delect>

散文精選 蒲公英文摘 > 散文精選 >

【從檢索技術(shù)的實(shí)現(xiàn)方式看三大全文數(shù)據(jù)庫的發(fā)展】三大檢索數(shù)據(jù)庫

發(fā)布時(shí)間:2020-03-07 來源: 散文精選點(diǎn)擊：

　　[摘要]　通過三個(gè)有針對(duì)性的檢索實(shí)例對(duì)清華同方、萬方數(shù)據(jù)、重慶維普三大全文數(shù)據(jù)庫檢索技術(shù)實(shí)現(xiàn)的特點(diǎn)進(jìn)行分析，從其目前提供的功能和招聘信息分析它們?cè)诟?jìng)爭(zhēng)中所處的位置，指出全文數(shù)據(jù)庫的三大核心競(jìng)爭(zhēng)力是：歷史數(shù)據(jù)回溯、當(dāng)前數(shù)據(jù)質(zhì)量和未來增值服務(wù)。進(jìn)而對(duì)未來的增值服務(wù)進(jìn)行分析與預(yù)測(cè)，包括計(jì)量分析自動(dòng)生成系統(tǒng)、句子級(jí)文獻(xiàn)自動(dòng)審稿系統(tǒng)、參考文獻(xiàn)自動(dòng)標(biāo)注系統(tǒng)、觀點(diǎn)型搜索，并指出這些系統(tǒng)的實(shí)現(xiàn)將使文獻(xiàn)服務(wù)真正走向知識(shí)服務(wù)。
　　[關(guān)鍵詞]　全文檢索　全文數(shù)據(jù)庫　檢索技術(shù)　全文數(shù)據(jù)庫商　清華同方　萬方數(shù)據(jù)　重慶維普　核心競(jìng)爭(zhēng)力
　　[分類號(hào)]　G35　TP391
　　
　　1、引言
　　
　　中國(guó)期刊全文數(shù)據(jù)庫(簡(jiǎn)稱清華同方)、數(shù)字化期刊全文數(shù)據(jù)庫(簡(jiǎn)稱萬方數(shù)據(jù))、中文科技期刊數(shù)據(jù)庫(簡(jiǎn)稱重慶維普)是國(guó)內(nèi)公認(rèn)的三大期刊全文數(shù)據(jù)庫。三大數(shù)據(jù)庫之間既有許多相似之處，又各具特色：從檢索形式上看，三大全文數(shù)據(jù)庫都支持初級(jí)檢索、高級(jí)檢索、專業(yè)檢索，都支持復(fù)雜的邏輯表達(dá)式的提問，都支持跨庫檢索，支持鏈接導(dǎo)航。但它們也有許多不同之處，如清華同方支持真正的全文檢索，而其他兩家目前還不能做到這一點(diǎn)。
　　目前，討論全文數(shù)據(jù)庫使用技巧及存在問題的文章非常多，但對(duì)全文數(shù)據(jù)庫檢索技術(shù)的實(shí)現(xiàn)以及未來的發(fā)展趨勢(shì)的探討還很少。本文作者既進(jìn)行過常規(guī)的手工操作，也寫過進(jìn)行自動(dòng)下載的下載程序。通過對(duì)數(shù)據(jù)庫的不斷測(cè)試，特別是通過某些特殊的、有針對(duì)性的系列檢索，判斷出系統(tǒng)所使用的一些基本的檢索技術(shù)。進(jìn)而在對(duì)這些技術(shù)探討的基礎(chǔ)上，分析并預(yù)測(cè)這二三大全文數(shù)據(jù)庫商的競(jìng)爭(zhēng)優(yōu)勢(shì)及未來的發(fā)展方向。
　　
　　2、通過針對(duì)性的檢索實(shí)例分析檢索技術(shù)的實(shí)現(xiàn)
　　
　　目前，信息檢索大都致力于對(duì)主題檢索的支持，卻忽略了利用特征與結(jié)構(gòu)的檢索。向量分詞檢索在索引空間、檢索效率等方面優(yōu)于字符匹配型，但柃素質(zhì)量并不總是高于字符匹配。例如，想查找某一期刊連載的文章。這種檢索需求不是主題相關(guān)的，而是從特征入手。通常，連載的文章標(biāo)題后有(上)、(下)或(一)、(二)或(I)、(Ⅱ)、(Ⅲ)等字樣。筆者于2006年12月19日分別對(duì)清華同方、重慶維普、萬方數(shù)據(jù)的期刊全文數(shù)據(jù)庫在標(biāo)題檢索里精確匹配“(上)”，檢索結(jié)果分別為301 137，269 222和6l條。查看結(jié)果后發(fā)現(xiàn)，清華同方和重慶維普都濾掉了括號(hào)，不支持括號(hào)作為檢索條件，而只有萬方實(shí)現(xiàn)了用戶的檢索目的。這就說明前兩者是基于關(guān)鍵詞的索引，而萬方數(shù)據(jù)并沒有使用關(guān)鍵詞索引，而是使用單字符索引。
　　在另一個(gè)機(jī)構(gòu)檢索實(shí)例中，對(duì)重慶維普，以“機(jī)構(gòu)=北大*核心期刊*年=1989-2006”進(jìn)行檢索，得到23 839條檢索結(jié)果，結(jié)果中主要包括西北大學(xué)、東北大學(xué)、河北大學(xué)、湖北大學(xué)等，說明重慶維普的機(jī)構(gòu)檢索是字符匹配。而從清華同方的數(shù)據(jù)庫中限定1989―2006年期間的核心期刊，選擇模糊匹配得到了33027條結(jié)果，而精確匹配則只有7條。在通過精確匹配所得到的7條檢索結(jié)果中，作者單位都是直接寫的“北大”，事實(shí)上這是一種不規(guī)范的寫法。也就是說，如果這幾名作者使用規(guī)范的機(jī)構(gòu)名稱的話，使用清華同方精確匹配的檢索結(jié)果將為0條。而在萬方期刊論文庫以“1989―2006期刊機(jī)構(gòu)=北大”作為檢索條件，得到43073條檢索結(jié)果，說明它也是使用字符匹配。也就是說沒有一個(gè)數(shù)據(jù)庫使用同義詞，能夠讓用戶輸入“北大”，也能把“北京大學(xué)”檢索出來。萬方數(shù)據(jù)與重慶維普的機(jī)構(gòu)檢索都沒有采用分詞，直接使用的單字符索引或like檢索，如果采用分詞的話，就不會(huì)出現(xiàn)這種情況。清華同方的模糊匹配結(jié)果很多，精確匹配結(jié)果卻很少，說明模糊匹配采用的是全字符索引或like檢索，而精確匹配卻是分詞后的索引。
　　在第三個(gè)檢索實(shí)例中，在中國(guó)期刊全文數(shù)據(jù)庫(清華同方)進(jìn)行檢索，檢索范圍是1980-2007年的全部數(shù)據(jù)，檢索條件為在篇名中精確檢索“圖書”，得到21630條檢索結(jié)果，而把檢索詞換成“圖書館”后，檢索結(jié)果卻變成了95636條�！皥D書館”包含“圖書”字樣，按常規(guī)思維，“圖書館”的檢索結(jié)果應(yīng)該比“圖書”的檢索結(jié)果要少，可事實(shí)上檢索詞變長(zhǎng)了，檢索結(jié)果卻多了。這說明該數(shù)據(jù)庫的篇名檢索采取的不是全字符切分，檢索時(shí)采取的不是單字索引，而是向量切分，可能是正向最大向量切分。如果進(jìn)一步把檢索詞拉長(zhǎng)，變成“數(shù)字圖書館”，檢索結(jié)果又變成了4885條，也就是說檢索詞變長(zhǎng)了，檢索結(jié)果卻又變少了�！皥D書館”肯定包含“圖書”，“數(shù)字圖書館”肯定包含“圖書館”，同樣的現(xiàn)象，卻有不同的結(jié)果。為了進(jìn)一步驗(yàn)證，把檢索詞換成“數(shù)據(jù)”，檢索結(jié)果變成75792條，而改成“元數(shù)據(jù)”，檢索結(jié)果又變成了958條，檢索詞長(zhǎng)了，檢索結(jié)果卻變少了，由此斷定該數(shù)據(jù)庫采取的不是正向最大向量切分，而是逆向最小向量切分或逆向最大向量切分。因?yàn)槿绻扇〉氖钦蜃钚∠蛄康脑�，“圖書館”的檢索結(jié)果就不會(huì)比“圖書”的檢索結(jié)果多。事實(shí)上，根據(jù)漢語中心語靠后的特點(diǎn)，逆向切分比正向切分的準(zhǔn)確率要高得多。而萬方數(shù)據(jù)與重慶維普都是遵循詞條變長(zhǎng)、結(jié)果一定會(huì)少的原則，因此可以斷定是全字符索引。實(shí)驗(yàn)過程與數(shù)據(jù)如表1所示。
　　
　　為了進(jìn)一步驗(yàn)證索引的方式，采用二次檢索來比較結(jié)果的變化。用清華同方數(shù)據(jù)庫標(biāo)題檢索“數(shù)據(jù)”得到75792條檢索結(jié)果，從結(jié)果中再進(jìn)行標(biāo)題檢索“元數(shù)據(jù)”與“元”分別得到958條與1207條，說明對(duì)元數(shù)據(jù)這個(gè)詞做了三個(gè)索引：元、數(shù)據(jù)、元數(shù)據(jù)。用“圖書館員”進(jìn)行標(biāo)題檢索得到3234條檢索結(jié)果，在結(jié)果中再檢索“圖書”，只有9條，這9條記錄的標(biāo)題中既含“圖書館員”，又含“圖書”(獨(dú)立于圖書館員)，在結(jié)果中檢索“館員”，只有21條，情況與圖書一樣。而在3234條結(jié)果中分別檢索“圖書館”與“員”，其結(jié)果都是3234條，說明系統(tǒng)把“圖書館員”切分成“圖書館／員，"’而不是“圖書／館員／”；而在圖書館的95634條結(jié)果中二次檢索“圖書”，得到1425條，說明沒有把“圖書館”切分成“圖書／館／”。為了進(jìn)一步的驗(yàn)證，采用更長(zhǎng)的詞條進(jìn)行測(cè)試，表2的結(jié)果說明“網(wǎng)絡(luò)信息計(jì)量學(xué)”被切分成了“網(wǎng)絡(luò)，信息，計(jì)量學(xué)／”。如果采用最大向量切分，則不能切分出“網(wǎng)絡(luò)／信息／”，如果采用正向最小向量應(yīng)該能切出“計(jì)量”。計(jì)量學(xué)與圖書館一樣，卻與元數(shù)據(jù)不一樣，把“元數(shù)據(jù)”切成“元／數(shù)據(jù)／”，卻不把“圖書館”切成“圖書／館／”，說明肯定是逆向向量切分，而且是二次嵌套切分。此外，檢查結(jié)果還證明系統(tǒng)沒有使用MMC(基于上下文的最大向量匹配)進(jìn)行切分。
　　
　　3、從文獻(xiàn)服務(wù)走向知識(shí)服務(wù)
　　
　　從文獻(xiàn)服務(wù)走向知識(shí)服務(wù)的理念已經(jīng)得到了廣泛認(rèn)可，但實(shí)現(xiàn)什么樣的知識(shí)服務(wù)、如何實(shí)現(xiàn)真正的知識(shí)服務(wù)才是未來圖書情報(bào)機(jī)構(gòu)獲取核心競(jìng)爭(zhēng)力的關(guān)鍵。中國(guó)學(xué)術(shù)期刊網(wǎng)(WWW.省略)改名為中國(guó)知網(wǎng)，由提供學(xué)術(shù)文獻(xiàn)服務(wù)向提供知識(shí)服務(wù)進(jìn)軍，以引文鏈接、學(xué)術(shù)定義、學(xué)術(shù)趨勢(shì)等新功能為起點(diǎn)，以回答學(xué)術(shù)問題、打破以篇為單位的知識(shí)組織方式，提供知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的鏈接為目標(biāo)，旨在實(shí)現(xiàn)真正的以知識(shí)點(diǎn)為處理單元的知識(shí)服務(wù)，也就是從物理層次的文獻(xiàn)單元向認(rèn)知識(shí)層次的知識(shí)單元轉(zhuǎn)換“。除了學(xué)術(shù)定義外，它還會(huì)抽取歷史發(fā)展、分類、特點(diǎn)、方法、關(guān)鍵技術(shù)、國(guó)內(nèi)研究進(jìn)展、國(guó)外研究進(jìn)展、應(yīng)用前景、實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)結(jié)果等諸多內(nèi)容，即按照寫作的結(jié)構(gòu)把文章所有內(nèi)容進(jìn)行模塊化抽取；萬方數(shù)據(jù)于2006年推出了知識(shí)鏈接門戶，通過作者、分類號(hào)、關(guān)鍵詞字段等提供文獻(xiàn)之間的鏈接；重慶維普也推出了知識(shí)頻道。
　　
　　數(shù)據(jù)庫商紛紛使用知識(shí)概念為知識(shí)服務(wù)造勢(shì)，雖然可以從服務(wù)觀念和目標(biāo)定位上進(jìn)行強(qiáng)化，但要實(shí)現(xiàn)真正的知識(shí)服務(wù)還有很長(zhǎng)的路要走。實(shí)現(xiàn)這一轉(zhuǎn)變的根本是人才，所以通過三大數(shù)據(jù)庫商對(duì)人才特別是研發(fā)工程師的需求也能看出他們的研發(fā)重點(diǎn)和相應(yīng)進(jìn)展：①通過招聘信息可以發(fā)現(xiàn)他們的研究計(jì)劃。例如，清華同方的招聘信息中進(jìn)一步強(qiáng)化需要CNKI文獻(xiàn)搜索產(chǎn)品、知識(shí)元搜索產(chǎn)品和各種垂直搜索產(chǎn)品的數(shù)據(jù)采集加工、整合更新和系統(tǒng)開發(fā)人才，重點(diǎn)解決文本挖掘、中文信息處理、知識(shí)系統(tǒng)等；萬方數(shù)據(jù)招聘研發(fā)工程師的要求是跟蹤信息技術(shù)發(fā)展，在信息檢索、文本挖掘等相關(guān)研發(fā)領(lǐng)域開展研發(fā)工作；而重慶維普的網(wǎng)站上沒有發(fā)布招聘研發(fā)工程師的信息。②從公司招聘研發(fā)工程師的描述中可以看出研發(fā)深度的不同。在不涉及商業(yè)秘密的情況下，研究專業(yè)方向越具體，研究?jī)?nèi)容越深入，公司的研發(fā)力量就越強(qiáng)，推出的產(chǎn)品價(jià)值也就越高。因此，從招聘信息可以推斷出，目前清華同方的技術(shù)研發(fā)似乎強(qiáng)于萬方數(shù)據(jù)，而萬方數(shù)據(jù)又強(qiáng)于重慶維普。事實(shí)上，通過他們所推出的增值服務(wù)，也就是新功能也可以驗(yàn)證這一關(guān)系。例如清華同方的知識(shí)鏈接(引文分析)的推出早干萬方數(shù)據(jù)的知識(shí)鏈接。近期清華同方又推出了學(xué)術(shù)定義、圖表搜索、搜索趨勢(shì)等，這些服務(wù)已經(jīng)開始對(duì)文本特別是正文內(nèi)容進(jìn)行分析，并充分利用了信息抽取技術(shù)。計(jì)量分析自動(dòng)化已經(jīng)實(shí)現(xiàn)了數(shù)值的統(tǒng)計(jì)計(jì)算，盡管還沒有實(shí)現(xiàn)計(jì)量分析報(bào)告的自動(dòng)生成，但以目前的勢(shì)頭來看，相信在不久的將來，也會(huì)實(shí)現(xiàn)的。③從清華同方招聘研發(fā)工程師的任務(wù)和要求來看，已不再關(guān)注傳統(tǒng)的信息檢索技術(shù)，而是要解決文本挖掘、信息抽取等問題，以實(shí)現(xiàn)自動(dòng)分類與聚類、自動(dòng)摘要以及問答系統(tǒng)等目標(biāo)。
　　
　　4、全文數(shù)據(jù)庫的三大核心競(jìng)爭(zhēng)力
　　
　　期刊全文數(shù)據(jù)庫的競(jìng)爭(zhēng)主要體現(xiàn)在三個(gè)方面：歷史數(shù)據(jù)的回溯；當(dāng)前的數(shù)據(jù)質(zhì)量；未來的增值服務(wù)，即數(shù)據(jù)的深加工程度。
　　對(duì)于歷史數(shù)據(jù)的回溯建庫問題，目前中國(guó)知網(wǎng)走在前列，很多期刊已經(jīng)回溯至創(chuàng)刊號(hào)。歷史數(shù)據(jù)除了掃描全文外，重點(diǎn)是關(guān)鍵詞的提取與摘要的自動(dòng)生成以及自動(dòng)分類(或歸類)，因?yàn)樵?0世紀(jì)90年代前，很多期刊的文章都沒有關(guān)鍵詞，更不用說摘要了。
　　當(dāng)前的數(shù)據(jù)質(zhì)量主要反映在數(shù)字化程度的比例。就是從編輯部那兒得到多少篇純電子版文章，而不是利用紙版進(jìn)行掃描。因?yàn)橹挥杏眉冸娮影�，才有可能提供真正的全文檢索，如果不能對(duì)正文字段進(jìn)行檢索，那檢索只能稱之為假全文檢索，因?yàn)闆]有比正文字段更能反映文章內(nèi)容的了。如果沒有電子版的數(shù)據(jù)，增值服務(wù)也就無從談起。
　　這些增值服務(wù)除了提供更好的檢索服務(wù)外(如中英文摘要語料對(duì)齊后的雙語檢索)，還包括(但不僅限于)以下的應(yīng)用：
　　提供文獻(xiàn)計(jì)量自動(dòng)分析的查詢，如清華同方已推出的“中國(guó)學(xué)術(shù)期刊文獻(xiàn)評(píng)價(jià)統(tǒng)計(jì)分析系統(tǒng)”。
　　提供學(xué)術(shù)調(diào)研報(bào)告的自動(dòng)生成，在文獻(xiàn)計(jì)量自動(dòng)分析的基礎(chǔ)上，對(duì)國(guó)內(nèi)外某領(lǐng)域進(jìn)展情況進(jìn)行評(píng)述。學(xué)術(shù)調(diào)研評(píng)價(jià)可以指導(dǎo)論文的選題和前期調(diào)研，特別有利于論文選題、項(xiàng)目評(píng)審等工作。
　　可以從句子級(jí)提供文獻(xiàn)自動(dòng)審稿輔助功能以及參考文獻(xiàn)自動(dòng)標(biāo)注功能。
　　提供更小粒度的檢索，支持句子檢索、真正的圖片檢索(首先是流程圖、系統(tǒng)結(jié)構(gòu)圖、數(shù)據(jù)表等的檢索，以后會(huì)支持圖像檢索，從顏色、紋理、形狀等各個(gè)要素進(jìn)行分析)，大量使用信息抽取技術(shù)，提供列表式搜索。
　　支持學(xué)術(shù)問答，支持觀點(diǎn)型搜索、流派型搜索，能夠提供學(xué)者譜系圖，利用學(xué)位論文的致謝提供導(dǎo)師自動(dòng)評(píng)價(jià)系統(tǒng)。
　　提供知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的鏈接，實(shí)現(xiàn)真正的知識(shí)服務(wù)。正如由過去買本整刊進(jìn)行閱讀到現(xiàn)在的只看某篇文章，將來可能實(shí)現(xiàn)只看某篇文章的某一部分。
　　
　　5、增值服務(wù)是核心競(jìng)爭(zhēng)力的核心
　　
　　文獻(xiàn)計(jì)量自動(dòng)分析系統(tǒng)，可以統(tǒng)計(jì)分析任意一個(gè)學(xué)科、專業(yè)或方向的核心作者，主要研究機(jī)構(gòu)，地域分布，關(guān)鍵詞、標(biāo)題、文摘及分類號(hào)的關(guān)系，提供研究熱點(diǎn)及趨勢(shì)等統(tǒng)計(jì)分析，以TopN、統(tǒng)計(jì)圖表等形式提供給用戶，并用文獻(xiàn)計(jì)量的定律來進(jìn)行驗(yàn)證。而現(xiàn)在的計(jì)量分析方面文章大都是由人來寫的，而且主要分布在圖書情報(bào)領(lǐng)域。其實(shí)自然科學(xué)領(lǐng)域也非常需要他們本學(xué)科的文獻(xiàn)計(jì)量統(tǒng)計(jì)分析，如果能有這樣的一個(gè)自動(dòng)統(tǒng)計(jì)分析系統(tǒng)，會(huì)為科研人員節(jié)省很多時(shí)間和精力，為研究工作提供很大方便(關(guān)于計(jì)量分析的技術(shù)實(shí)現(xiàn)請(qǐng)參閱文獻(xiàn)[5―6])。
　　當(dāng)前，信息爆炸與信息泛濫的問題日益突出，解決的根本方法是使大量創(chuàng)新性很低的文章沒有發(fā)表的可能。為此，編輯部會(huì)使用“學(xué)術(shù)抄襲與科學(xué)引用自動(dòng)判定系統(tǒng)”輔助審稿，從而在源頭上利用技術(shù)手段解決學(xué)術(shù)抄襲的腐敗問題，而這種系統(tǒng)可以由全文數(shù)據(jù)庫商聯(lián)合提供。這類句子級(jí)分析匹配系統(tǒng)既可以對(duì)學(xué)術(shù)抄襲與科學(xué)引用進(jìn)行自動(dòng)判定，同時(shí)也可以幫助作者進(jìn)行參考文獻(xiàn)的自動(dòng)標(biāo)注。句子匹配分析系統(tǒng)的難點(diǎn)主要表現(xiàn)在：異構(gòu)數(shù)據(jù)的獲�。粴v史數(shù)據(jù)的回溯建庫；跨語言之間的判定。
　　現(xiàn)在的數(shù)據(jù)庫商以篇為單位提供數(shù)據(jù)，未來的數(shù)據(jù)庫商不僅能提供句子級(jí)的搜索與分析，還能提供以知識(shí)點(diǎn)為單位的搜索與分析。將來的系統(tǒng)還將會(huì)提供學(xué)習(xí)型搜索和觀點(diǎn)型搜索：①學(xué)習(xí)型搜索相當(dāng)于文獻(xiàn)自動(dòng)綜述，對(duì)于現(xiàn)在的檢索而言，如果用戶不打開檢索結(jié)果進(jìn)行全文閱讀就很難判斷哪些文章是需要的，哪些文章是不需要的，而看過的文章又有許多重復(fù)的內(nèi)容。如果能夠讓計(jì)算機(jī)進(jìn)行濾重與知識(shí)重組來完成這一工作，那將是一件非常有意義的事情。未來的搜索將可以實(shí)現(xiàn)知識(shí)的重組，把上千篇文獻(xiàn)組織成一篇，相當(dāng)于以百科全書的形式進(jìn)行組織，用戶只需要看“書”中感興趣的部分就可以了。②觀點(diǎn)型搜索是指根據(jù)某觀點(diǎn)進(jìn)行搜索，以自然語言形式輸入查詢，搜索含有某個(gè)觀點(diǎn)的文章，或者關(guān)于某個(gè)知識(shí)點(diǎn)的所有觀點(diǎn)。未來的檢索結(jié)果將不再是一篇一篇的文章，而是一個(gè)列表。列表列出每種觀點(diǎn)以及每一種觀點(diǎn)的支持人數(shù)。當(dāng)我們想詳細(xì)了解某一種觀點(diǎn)時(shí)，就點(diǎn)擊相應(yīng)記錄，系統(tǒng)會(huì)顯示關(guān)于這種觀點(diǎn)有哪些論述方式，是如何來論述的，也就是真正的知識(shí)鏈。這是解決信息泛濫與知識(shí)貧乏的關(guān)鍵途徑。
　　
　　6、結(jié)論
　　
　　清華同方率先實(shí)現(xiàn)了真正的全文搜索，并推出了參考文獻(xiàn)與引用文獻(xiàn)相關(guān)的文獻(xiàn)鏈接，今年又推出了一系列的學(xué)術(shù)服務(wù)，這也是CNKI的價(jià)格較高同時(shí)市場(chǎng)占有率也很高的原因之一。因此，數(shù)字化程度與數(shù)據(jù)深加工程度將是數(shù)據(jù)商的核心競(jìng)爭(zhēng)力的反映。同行數(shù)據(jù)庫商之間的競(jìng)爭(zhēng)除數(shù)據(jù)質(zhì)量外還有：在范圍上體現(xiàn)為對(duì)歷史數(shù)據(jù)的回溯程度――對(duì)歷史數(shù)據(jù)回溯得越多，數(shù)據(jù)就越有競(jìng)爭(zhēng)力；在深度上將反映在對(duì)數(shù)據(jù)的深加工程度上，對(duì)數(shù)據(jù)加工的越深越細(xì)，將會(huì)越有競(jìng)爭(zhēng)力。
　　未來針對(duì)全文數(shù)據(jù)庫的應(yīng)用系統(tǒng)可能會(huì)很多，新功能的名字也可能有很多不同，但整體上會(huì)朝著以下幾個(gè)方向發(fā)展：分析粒度越來越小(句子分析是重點(diǎn)和核心)，分析數(shù)量越來越大(大規(guī)模異構(gòu)數(shù)據(jù)綜合分析)，分析范圍越來越廣(正文內(nèi)容分析成為重點(diǎn))，分析程度越來越深(不再以詞為重點(diǎn)，會(huì)支持結(jié)構(gòu)檢索、語用檢索等)。
　　自動(dòng)問答、信息抽取、列表式搜索、觀點(diǎn)型搜索等都是一些新的趨勢(shì)，但是搜索技術(shù)要取得突破性進(jìn)展，知識(shí)獲取無疑是關(guān)鍵。三大全文數(shù)據(jù)庫商擁有如此豐富而權(quán)威的資源，在這些文獻(xiàn)中蘊(yùn)含著大量的專家知識(shí)，如果能把這些知識(shí)都抽取出來，就可以進(jìn)行學(xué)術(shù)的自動(dòng)問答了。未來的IT用戶所強(qiáng)調(diào)的不是擁有技術(shù)，而是擁有可以用的知識(shí)。發(fā)揮計(jì)算機(jī)的速度優(yōu)勢(shì)主要依靠算法，發(fā)揮計(jì)算機(jī)的存儲(chǔ)優(yōu)勢(shì)主要依靠知識(shí)庫。建好人用知識(shí)庫可以解決很多問題，如果這樣的知識(shí)庫(如CYC)同時(shí)還能為計(jì)算機(jī)所用，那么許多問題便會(huì)迎刃而解。擁有這樣的知識(shí)庫必將引領(lǐng)未來的IT，必將印證“得資源者得天下”的道理。　　
　　參考文獻(xiàn)：
　　[1]李保利,陳玉忠,俞士汶.信息抽取研究綜述.計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5,66.
　　[2]李芳,盛煥燁,姚天?.信息檢索與信息抽取技術(shù)的研究.計(jì)算機(jī)應(yīng)用研究,2002,22(2):16-18.
　　[3]賀勝.信息抽取技術(shù)內(nèi)涵及應(yīng)用.南京師范大學(xué)文學(xué)院學(xué)報(bào),2004(2):184-188.
　　[4]Baeza-Yates R, Ribeiro-Neto B.現(xiàn)代信息檢索(英文版).北京：機(jī)械工業(yè)出版社,2006:24-34.
　　[5]李珍,田學(xué)東.PDF文件信息的抽取與分析.計(jì)算機(jī)應(yīng)用,2003,23(12):145-147.
　　[6]宋艷娟,張文德.基于XML的PDF文檔信息抽取系統(tǒng)的研究.現(xiàn)代圖書情報(bào)技術(shù),2005(9):10-13.
　　[7]崔繼馨,張鵬,楊文柱.基于DOM的Web信息抽取.河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2005,28(3):90-93.
　　[8]孫斌.信息提取技術(shù)概述(上).術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2002(3):28-32.
　　[9]Leonid peshkin and avi pfeffer bayesian information extraction network.[2007-05-27]. http://dli.iiit.ac.in/ijcai/IJCAI-2003/PDF/063.pdf．
　　[10]袁毓林.用動(dòng)詞的論元結(jié)構(gòu)跟事件模板相匹配――一種由動(dòng)詞驅(qū)動(dòng)的信息抽取方法.中文信息學(xué)報(bào),2005,19(5):37-43.
　　[11]袁毓林.用邏輯和篇章知識(shí)來約束模板匹配――邏輯結(jié)構(gòu)和篇章結(jié)構(gòu)知識(shí)在信息抽取中的運(yùn)用.中文信息學(xué)報(bào),2005,19(4):39-45.
　　[12]孟憲福,狄惠.基于Agent和XML的web頁面信息抽取研究與設(shè)計(jì).計(jì)算機(jī)工程與設(shè)計(jì),2004,25(8):1411-1414.
　　[13]王勝,朱明.基于最大熵馬爾可夫模型的地址信息抽取.計(jì)算機(jī)工程與應(yīng)用,2005,41(21):192-194.
　　[14]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取.系統(tǒng)仿真學(xué)報(bào),2004,16(3):507-510.
　　[15]張樹瑜,朱仲英.基于MT決策樹的Web信息抽取研究.計(jì)算機(jī) 工程與應(yīng)用,2004,40(13):69-71.
　　[16]陸科進(jìn),李新穎.基于Ontology 的文本信息抽取.計(jì)算機(jī)應(yīng)用研究,2003(7):46-48.
　　[17]張成洪,王向安,古曉洪.利用Ontology和規(guī)則表達(dá)式的Web信息抽取.計(jì)算機(jī)工程,2004,30(5):58-60.

相關(guān)熱詞搜索：三大檢索方式從檢索技術(shù)的實(shí)現(xiàn)方式看三大全文數(shù)據(jù)庫的發(fā)展數(shù)據(jù)庫高級(jí)檢索技術(shù) 中文網(wǎng)絡(luò)數(shù)據(jù)庫的檢索

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.newchangjing.com