漢語(yǔ)分詞技術(shù)綜述_無(wú)監(jiān)督漢語(yǔ)分詞
發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄 點(diǎn)擊:
[摘要]首先介紹漢語(yǔ)自動(dòng)分詞技術(shù)及基于詞索引的中文全文檢索技術(shù),接著分別從文獻(xiàn)自動(dòng)標(biāo)引、文摘自動(dòng)生成、文本自動(dòng)分類(lèi)、文本信息過(guò)濾、自然語(yǔ)言檢索接口和智能檢索等方面詳細(xì)地闡述漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用,并對(duì)目前漢語(yǔ)自動(dòng)分詞技術(shù)存在的局限性進(jìn)行分析,提出發(fā)展思路,最后對(duì)漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用前景進(jìn)行預(yù)測(cè)。
[關(guān)鍵詞]漢語(yǔ)自動(dòng)分詞 中文全文檢索文獻(xiàn)自動(dòng)標(biāo)引 自然語(yǔ)言檢索
[分類(lèi)號(hào)]G354
1 漢語(yǔ)自動(dòng)分詞技術(shù)
詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,自然語(yǔ)言的處理必須以詞為單位,然而,漢語(yǔ)文本中詞與詞之間沒(méi)有明確的分隔標(biāo)記,而是連續(xù)的漢字串,因此理解和處理漢語(yǔ)的首要任務(wù)就是把連續(xù)的漢字串分割成詞的序列,即自動(dòng)分詞。
近20年來(lái),國(guó)內(nèi)語(yǔ)言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者們對(duì)漢語(yǔ)自動(dòng)分詞這一研究領(lǐng)域給予了極大的關(guān)注,提出了許多解決漢語(yǔ)自動(dòng)分詞的方法,歸納起來(lái)主要有四種類(lèi)型:基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點(diǎn),分別代表著不同的發(fā)展方向。其中基于詞典的分詞方法由于其算法成熟,易于實(shí)現(xiàn),是目前普遍使用的切分方法;诮y(tǒng)計(jì)的分詞方法由于有良好的歧義切分能力和低頻詞識(shí)別能力,受到越來(lái)越多的研究人員的重視,發(fā)展較快,但實(shí)際使用中,單獨(dú)使用的較少,一般都與基于詞典匹配的分詞方法結(jié)合使用;基于理解的分詞方法是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義的分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象,因而具有良好的歧義切分能力,但因?yàn)橐獙?duì)語(yǔ)言自身信息進(jìn)行更多的處理,因而加大了實(shí)現(xiàn)的難度;基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類(lèi)分詞方法的研究還處于初級(jí)階段,并且由于漢語(yǔ)自然語(yǔ)言復(fù)雜靈活,知識(shí)表示困難,所以對(duì)于這類(lèi)分詞技術(shù)還需要進(jìn)行更深入和全面的研究。
2 基于詞索引的中文全文檢索
全文檢索是一種面向全文和提供全文的檢索技術(shù),其核心是將文檔中所有基本元素的出現(xiàn)信息記錄到索引庫(kù)中,在中文全文檢索系統(tǒng)中,這些基本元素可以是單個(gè)漢字,也可以是詞,因此存在兩種基本的索引結(jié)構(gòu),即基于字的索引和基于詞的索引。
基于詞索引的中文全文檢索系統(tǒng)首先必須進(jìn)行漢語(yǔ)自動(dòng)分詞,其次是把文檔中出現(xiàn)的所有有意義的詞建立倒排索引,檢索時(shí)將用戶輸入的檢索要求按照一定的匹配機(jī)制與詞索引庫(kù)中的信息進(jìn)行匹配,最后將檢索結(jié)果返回給用戶。
建立詞索引庫(kù)時(shí),需要掃描整個(gè)文檔,并利用自動(dòng)分詞技術(shù)對(duì)文檔中的漢字串進(jìn)行切分,對(duì)切分出來(lái)的每一個(gè)有效詞,計(jì)算其在文檔中出現(xiàn)的位置和頻率,同時(shí)將該位置信息和頻率的值以及所屬文檔號(hào)加入到詞索引庫(kù)中,建立基于詞的倒排索引。
典型的基于詞的倒排索引結(jié)構(gòu)(見(jiàn)圖1)包含兩部分.①中文詞組成向量(稱之為詞匯表),包含詞的基本信息和詞索引在索引文件中的偏移量;②對(duì)于詞匯表中的每一個(gè)詞,都有一個(gè)它出現(xiàn)過(guò)的文檔列表,包含了出現(xiàn)文檔編號(hào)和在此文檔中該詞的詞頻以及出現(xiàn)位置序列,也可以在詞索引中記下段落號(hào)、句子號(hào)等。
詞索引庫(kù)建立之后,就可根據(jù)一定的檢索模型來(lái)處理用戶的檢索請(qǐng)求,常用的信息模型有:布爾邏輯模型、向量空間模型以及概率模型等,其中布爾邏輯模型是目前中文全文檢索系統(tǒng)采用最多的一種模型。
3 漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用
3.1 文獻(xiàn)自動(dòng)標(biāo)引
標(biāo)引是對(duì)文獻(xiàn)進(jìn)行分析,提取關(guān)鍵信息,產(chǎn)生對(duì)文獻(xiàn)的描述,它是全文檢索實(shí)現(xiàn)的主要支持。目前,對(duì)網(wǎng)上日益豐富的信息資源進(jìn)行人工標(biāo)引變得越來(lái)越困難,因而利用計(jì)算機(jī)進(jìn)行文獻(xiàn)自動(dòng)標(biāo)引的需求也越來(lái)越迫切。要實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)標(biāo)引,其重要的前提是漢語(yǔ)自動(dòng)分詞,只有正確地把具有檢索意義的漢語(yǔ)詞切分出來(lái),才能提取足以描述文檔內(nèi)容的關(guān)鍵信息,并在此基礎(chǔ)上進(jìn)行文獻(xiàn)的自動(dòng)標(biāo)引。
常見(jiàn)的文獻(xiàn)自動(dòng)標(biāo)引的方式有:①全文標(biāo)引:將整篇文章中出現(xiàn)的所有具有檢索意義的漢語(yǔ)詞切分出來(lái),統(tǒng)計(jì)詞頻并標(biāo)注其位置信息,存入全文數(shù)據(jù)庫(kù);②主題詞自動(dòng)抽取:根據(jù)文獻(xiàn)所論述和研究的具體對(duì)象和問(wèn)題,賦予文獻(xiàn)以恰當(dāng)?shù)闹黝}詞,其首要的工作是對(duì)需要處理的文獻(xiàn)進(jìn)行自動(dòng)分詞處理,去掉停用詞,并計(jì)算詞頻和權(quán)值,然后進(jìn)行排序,選出系統(tǒng)規(guī)定數(shù)量的詞匯作為主題詞。
3.2 文摘自動(dòng)生成
文摘自動(dòng)生成是把文檔內(nèi)容從邏輯和語(yǔ)義上進(jìn)行分析,縮寫(xiě)成有限的可讀摘要,標(biāo)志文章的主題內(nèi)容,從而有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度。文摘自動(dòng)生成常用的是基于統(tǒng)計(jì)的方法,即首先對(duì)全文進(jìn)行自動(dòng)分詞,然后計(jì)算文章中各個(gè)詞出現(xiàn)的頻率和權(quán)重,并按照某種準(zhǔn)則確定出關(guān)鍵詞,將關(guān)鍵詞所在的語(yǔ)句抽取出來(lái),再依據(jù)各種句子權(quán)重指標(biāo)計(jì)算句子綜合權(quán)重,選出一組最能代表文獻(xiàn)主題內(nèi)容的句子,并對(duì)句子進(jìn)行排序作為文摘句,最后生成文摘。
3.3 文本自動(dòng)分類(lèi)
文本自動(dòng)分類(lèi)的任務(wù)是基于內(nèi)容將大量的用自然語(yǔ)言寫(xiě)成的文本按照一定的主題類(lèi)別自動(dòng)進(jìn)行分類(lèi),它能將信息文檔分類(lèi)并自動(dòng)將其歸人事先給定的最接近的類(lèi)中,從而使用戶能夠更加準(zhǔn)確地查找所需的信息。
為完成分類(lèi)任務(wù),需要對(duì)文本進(jìn)行必要的表示和預(yù)處理,在此基礎(chǔ)上再運(yùn)用分類(lèi)算法對(duì)其進(jìn)行分類(lèi)。目前在信息處理方向上,文本的表示主要采用向量空間模型。向量空間模型的基本思想是以向量來(lái)表示文本,其中W為第i個(gè)特征項(xiàng)的權(quán)重,一般選擇詞作為特征項(xiàng)。因此,要將文本表示為向量空間中的一個(gè)向量,就首先要將文本分詞以獲取文本中所有的詞,繼而將文本用詞頻來(lái)表示,形成表示文本的特征向量,用于以后的文本分類(lèi)。
3.4 文本信息過(guò)濾
信息過(guò)濾是根據(jù)用戶的信息需求,運(yùn)用一定的標(biāo)準(zhǔn)和技術(shù),從大量的動(dòng)態(tài)信息流中將與用戶無(wú)關(guān)的信息濾掉,把滿足用戶需求的信息提供給用戶,從而提高用戶獲取信息的效率。信息過(guò)濾的首要工作是:對(duì)采集到的Web頁(yè)面進(jìn)行預(yù)處理,將HTML頁(yè)面里的文本提取出來(lái),然后使用中文分詞技術(shù)將Web文本切分成單個(gè)的中文詞語(yǔ)并進(jìn)行詞頻統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)的結(jié)果從得到的中文詞向量中提取出能夠表達(dá)出該文本主題的特征向量,這就是特征信息提取,它是信息過(guò)濾的基礎(chǔ)工作。
3.5 自然語(yǔ)言檢索接口
檢索接口是連接用戶和全文檢索系統(tǒng)之間的橋梁,沒(méi)有一個(gè)有效的用戶接口,系統(tǒng)的功能就難以充分發(fā)揮。自然語(yǔ)言檢索接口允許用戶以自然語(yǔ)言的方式和機(jī)器交互,是一種人性化的智能接口,它的主要功能是分析用戶用自然語(yǔ)句輸入的查詢請(qǐng)求,“理解”人們檢索的真正意圖。其工作原理是:首先對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行分詞,識(shí)別每個(gè)詞的詞性,提取關(guān)鍵詞,然后從邏輯上進(jìn)行語(yǔ)法語(yǔ)義分析,生成中間形式的表現(xiàn)形式,再經(jīng)過(guò)翻譯模塊翻譯成目標(biāo)數(shù)據(jù)庫(kù)查詢語(yǔ)言表示的語(yǔ)句,最后對(duì)文本進(jìn)行語(yǔ)義上的概念匹配。在此過(guò)程中, 分詞的準(zhǔn)確性對(duì)查詢效率的影響較大。
3.6 智能搜索
智能搜索是結(jié)合了人工智能技術(shù)的新一代搜索技術(shù),它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力。它的主要任務(wù)是對(duì)信息進(jìn)行智能處理和智能理解用戶的檢索需求。而漢語(yǔ)自動(dòng)分詞技術(shù)正是使搜索具備“智力”的前提,它是自然語(yǔ)言理解、語(yǔ)法語(yǔ)義分析、概念匹配、機(jī)器翻譯等技術(shù)的基礎(chǔ),將這些相關(guān)技術(shù)應(yīng)用到全文檢索系統(tǒng)中,可使檢索系統(tǒng)更加深入細(xì)致地獲取用戶需求,從關(guān)鍵詞的選擇、檢索范圍的確定到檢索結(jié)果的精確,系統(tǒng)都能幫助用戶從知識(shí)的海洋中及時(shí)準(zhǔn)確地獲取所需信息。
4 漢語(yǔ)自動(dòng)分詞技術(shù)的局限及發(fā)展
經(jīng)過(guò)十幾年的研究,漢語(yǔ)自動(dòng)分詞技術(shù)取得了令人矚目的成果,出現(xiàn)了一些實(shí)用的自動(dòng)分詞系統(tǒng),如:北京航空航天大學(xué)的CDWS分詞系統(tǒng)、清華大學(xué)的SEG分詞系統(tǒng)和SEGTAG分詞系統(tǒng)等,這些系統(tǒng)在分詞的精確度(精度達(dá)到99%以上)和分詞速度(速度達(dá)到千字,s)方面都具有相當(dāng)?shù)乃,并在一些中文全文檢索系統(tǒng)中得到了應(yīng)用,如百度、北大天網(wǎng)、北京易用寶公司的TRS系統(tǒng)等都使用了漢語(yǔ)自動(dòng)分詞技術(shù)。但與此同時(shí)又應(yīng)該看到目前漢語(yǔ)自動(dòng)分詞的技術(shù)還在一定的局限性,需要從以下幾個(gè)方面加以進(jìn)一步的研究。
4.1 分詞算法
分詞算法是漢語(yǔ)自動(dòng)分詞技術(shù)中的重點(diǎn)和難點(diǎn),它是影響切分效率的關(guān)鍵因素,切分效率的衡量指標(biāo)是分詞速度和分詞精度,F(xiàn)有的分詞算法基本上都是基于規(guī)則和詞典的分詞方法,它們都必須在分詞速度和精度之間做出選擇。要提高速度,就要適當(dāng)放棄精度的追求,縮減詞典,減少匹配次數(shù);而要提高切分精度,就得舍棄速度,無(wú)限擴(kuò)充詞典,匹配次數(shù)也會(huì)無(wú)限增加。對(duì)此,目前還沒(méi)有找到有效的破解方法。
分詞的精度常常直接影響到對(duì)全文檢索結(jié)果的相關(guān)度排序,分詞的速度也會(huì)嚴(yán)重影響檢索系統(tǒng)內(nèi)容更新的速度,因此對(duì)于全文檢索系統(tǒng)來(lái)說(shuō)分詞的精度和速度兩者都需要達(dá)到很高的要求。傳統(tǒng)的漢語(yǔ)自動(dòng)分詞要獲得新的突破,只有在現(xiàn)有的切分算法的基礎(chǔ)上,充分吸收自然語(yǔ)言處理、人工智能和專(zhuān)家系統(tǒng)的最新研究成果,著重從漢語(yǔ)句法和語(yǔ)義入手,并加強(qiáng)對(duì)漢字串統(tǒng)計(jì)性質(zhì)的研究,將基于知識(shí)和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來(lái),對(duì)漢語(yǔ)分詞算法進(jìn)行更加深入的研究,這是今后漢語(yǔ)自動(dòng)分詞努力的重要方向之一。
4.2 分詞詞典與分詞規(guī)范
分詞詞典是漢語(yǔ)自動(dòng)分詞過(guò)程中的重要工具之一,目前,互聯(lián)網(wǎng)上信息膨脹,各種概念說(shuō)法繁多,如何使詞典收錄的詞粒度適中,提高信息檢索的查全率和查準(zhǔn)率,是詞典編制面臨的一大挑戰(zhàn)。另外,分詞詞典的組織方式、通用的核心詞典和各個(gè)領(lǐng)域的專(zhuān)業(yè)詞典的編制和更新也是未來(lái)需要進(jìn)一步關(guān)注的問(wèn)題。與此同時(shí),詞與詞素、短語(yǔ)之間的概念模糊,給分詞詞典的規(guī)范化造成了困難。雖然目前已有《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》指導(dǎo)分詞,但該規(guī)范還不成熟,有很多地方有待商榷,需要改進(jìn),需要計(jì)算機(jī)科學(xué)家和漢語(yǔ)言學(xué)家共同努力。
4.3 岐義消除
漢語(yǔ)詞與詞之間沒(méi)有沒(méi)有任何區(qū)分標(biāo)志,加上漢語(yǔ)詞理解的多義性、復(fù)雜性,因而歧義消除是自動(dòng)分詞過(guò)程中的一大難題,切分岐義的存在將嚴(yán)重影響著分詞系統(tǒng)的切分精度,而目前的分詞系統(tǒng)大多在消除岐義方面不理想,因而也就直接影響到中文檢索的查準(zhǔn)率和查全率。未來(lái)在岐義消除方面的研究除了完善分詞詞典以外,還需要深入細(xì)致地分析各種岐義產(chǎn)生的原因,針對(duì)不同類(lèi)型的岐義提出不同的消岐方法;同時(shí)深入研究漢語(yǔ)的構(gòu)詞規(guī)則和詞法規(guī)則,增強(qiáng)歧義判別的能力。
4.4 未登錄詞的識(shí)別
未登錄詞即是指未包含在分詞詞表中的詞,包括各類(lèi)專(zhuān)名(人名、地名、企業(yè)字號(hào)和商標(biāo)號(hào)等)、某些術(shù)語(yǔ)、縮略語(yǔ)和新詞等,由于專(zhuān)用術(shù)語(yǔ)繁多,新名詞、新概念層出不窮,這些詞一般很難全部收錄到詞典中,但這些詞往往在一定時(shí)期內(nèi)呈現(xiàn)較高的檢索概率。因而未登錄詞識(shí)別也是中文信息處理中的一個(gè)難點(diǎn),在大規(guī)模中文文本的自動(dòng)分詞中,未被識(shí)別的新詞是造成分詞錯(cuò)誤的一個(gè)重要原因。
目前,未登錄詞辨識(shí)的研究基礎(chǔ)還比較薄弱,同時(shí)擁有多種未登錄詞辨識(shí)能力的系統(tǒng)尚不多見(jiàn),因此未登錄詞的綜合識(shí)別問(wèn)題還沒(méi)有引起足夠的重視,現(xiàn)行的識(shí)別方法主要是基于分解與動(dòng)態(tài)規(guī)劃策略的識(shí)別方法和基于語(yǔ)料學(xué)習(xí)的檢測(cè)方法,這些方法的識(shí)別能力還非常有限,未來(lái)的發(fā)展方向主要是探究新詞自身的構(gòu)成規(guī)律和特點(diǎn),充分利用語(yǔ)料庫(kù)等網(wǎng)上語(yǔ)言信息資源,提出更有效的識(shí)別新詞的方法。
4.5 漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)和應(yīng)用
漢語(yǔ)語(yǔ)料庫(kù)對(duì)中文全文檢索的輔助是必不可少的,目前,語(yǔ)料庫(kù)對(duì)于信息檢索的輔助作用還沒(méi)有得到充分的發(fā)揮,未來(lái)對(duì)漢語(yǔ)料庫(kù)的工作主要包括兩方面:①充分利用現(xiàn)有的語(yǔ)料庫(kù)資源,如國(guó)家語(yǔ)言文字工作委員會(huì)的“國(guó)家現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”,它是一個(gè)大型的國(guó)家級(jí)的、通用語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)2005年通過(guò)鑒定,其中包有豐富的語(yǔ)料資源,這些語(yǔ)料信息使計(jì)算機(jī)能從中學(xué)到漢語(yǔ)的構(gòu)成規(guī)律,也就增強(qiáng)了計(jì)算機(jī)自動(dòng)識(shí)別的能力,這對(duì)漢語(yǔ)自動(dòng)分詞的切分精度有非常大的幫助。②進(jìn)一步進(jìn)行語(yǔ)料庫(kù)的建設(shè),尤其是大規(guī)模真實(shí)語(yǔ)料庫(kù)的建設(shè)更為需要。
4.6 詞索引數(shù)據(jù)庫(kù)的結(jié)構(gòu)
詞索引數(shù)據(jù)庫(kù)是全文檢索系統(tǒng)實(shí)現(xiàn)的基礎(chǔ),由于全文檢索系統(tǒng)通常處理的數(shù)據(jù)量很大,經(jīng)過(guò)處理生成的索引數(shù)據(jù)也很大,這對(duì)系統(tǒng)的存儲(chǔ)容量和檢索速度都帶來(lái)了極大的挑戰(zhàn),因此,未來(lái)還需要繼續(xù)對(duì)詞索引數(shù)據(jù)庫(kù)記錄內(nèi)容的確定、數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu)和存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)庫(kù)的壓縮存儲(chǔ)等方面進(jìn)行進(jìn)一步的研究。
5 漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用前景
漢語(yǔ)自動(dòng)分詞技術(shù)的每一次突破都會(huì)使中文全文檢索的效率得到很大的提高,未來(lái)的中文全文檢索技術(shù)必定是以提高其系統(tǒng)的查準(zhǔn)率、查全率和查詢速度為目標(biāo),因此,漢語(yǔ)自動(dòng)分詞技術(shù)在中文全文檢索中的應(yīng)用將會(huì)在以下方面得到進(jìn)一步拓展。
5.1 文獻(xiàn)信息的深度處理
信息搜索的真正對(duì)象是標(biāo)引的結(jié)果,因而高性能的檢索需要有效的索引支持。目前,中文信息處理的深度還不十分理想,隨著漢語(yǔ)詞的切分精度和自然語(yǔ)言處理水平的提高,未來(lái)的標(biāo)引是按照一定的格式,建立詞法、句法/語(yǔ)義層次的深度標(biāo)引,與此同時(shí),文摘自動(dòng)生成和文本自動(dòng)分類(lèi)的準(zhǔn)確性將會(huì)得到大幅度的提高,這些對(duì)中文全文檢索的速度和效率都會(huì)產(chǎn)生很大的影響。
5.2 匹配機(jī)制的進(jìn)一步優(yōu)化
信息檢索的目的是在信息收藏中查找包含用戶所需的信息內(nèi)容的文檔,當(dāng)前的全文檢索系統(tǒng)采用自由詞匹配,其優(yōu)點(diǎn)是靈活,缺點(diǎn)是有大量的誤檢和漏檢。未來(lái)的信息系統(tǒng)應(yīng)當(dāng)是概念匹配,即系統(tǒng)自動(dòng)抽取能夠描述文獻(xiàn)內(nèi)容的概念,用文中的關(guān)鍵詞或與之相應(yīng)的主題詞加以標(biāo)引;用戶在系統(tǒng)的輔助下選用合適的詞語(yǔ)表達(dá)自己的信息需求,在此基礎(chǔ)上兩者之間執(zhí)行概念匹配,匹配在語(yǔ)義上相同、相近、相包含的詞語(yǔ),使檢索更逼近人的智能程度,以減少誤檢和漏檢。
5.3 自然語(yǔ)言檢索的智能化
自然語(yǔ)言應(yīng)用于全文檢索主要體現(xiàn)在兩方面:一是用自然語(yǔ)言標(biāo)引全文;二是向用戶提供自然語(yǔ)言檢索接口。目前,在自然語(yǔ)言標(biāo)引方面多數(shù)限于詞形或詞匯層次,即使在詞匯層次,也沒(méi)有很好的解決由于詞的同義、近義現(xiàn)象而需要擴(kuò)展檢索的問(wèn)題,不能從語(yǔ)義上理解,因此漏檢和誤檢問(wèn)題非常嚴(yán)重;在自然語(yǔ)言檢索接口方面,目前大多數(shù)中文全文檢索系統(tǒng)在這方面的功能比較缺乏。要改變這一現(xiàn)狀,一方面,必須將自然語(yǔ)言與受控語(yǔ)言進(jìn)行有機(jī)的融合,融合的手段主要是通過(guò)有效的詞匯控制技術(shù),如停用詞表、同義\近義詞表、入口詞表、后控詞表等;另一方面,充分利用自然語(yǔ)言處理的最新研究成果,使自然語(yǔ)言檢索具有更高的智能,其智能化主要表現(xiàn)在:①?gòu)膬?nèi)容上真正的理解文獻(xiàn)所論述的主題;②使用適當(dāng)?shù)闹R(shí)表示方法來(lái)充分體現(xiàn)各主題概念和標(biāo)識(shí)之間的分、屬、交叉等復(fù)雜關(guān)系;③能準(zhǔn)確分析用戶的自然語(yǔ)言提問(wèn),并通過(guò)人機(jī)交互推斷出其真正需求。
6 結(jié)束語(yǔ)
漢語(yǔ)分詞是中文信息處理的基礎(chǔ),也是中文全文檢索中的“瓶頸”問(wèn)題,因而,中文全文檢索系統(tǒng)的檢索效率的提高,依賴于漢語(yǔ)自動(dòng)分詞技術(shù)的發(fā)展;依賴于對(duì)漢語(yǔ)的語(yǔ)詞結(jié)構(gòu)、句結(jié)構(gòu)、語(yǔ)義等語(yǔ)言知識(shí)的深入系統(tǒng)的研究;依賴于對(duì)語(yǔ)言與思維的本質(zhì)的揭示;同時(shí),在很大程度上還寄希望于人工智能技術(shù)的突破。相信在不久的將來(lái),隨著相關(guān)領(lǐng)域知識(shí)的研究越來(lái)越成熟,未來(lái)的中文全文檢索將最終達(dá)到真正的語(yǔ)義、語(yǔ)用、語(yǔ)境層次的智能信息檢索,檢索結(jié)果更加全面和準(zhǔn)確。
相關(guān)熱詞搜索:漢語(yǔ) 分詞 綜述 漢語(yǔ)分詞技術(shù)綜述 分詞技術(shù) 中文分詞技術(shù)
熱點(diǎn)文章閱讀