漢語分詞技術(shù)綜述_無監(jiān)督漢語分詞
發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:
[摘要]首先介紹漢語自動分詞技術(shù)及基于詞索引的中文全文檢索技術(shù),接著分別從文獻(xiàn)自動標(biāo)引、文摘自動生成、文本自動分類、文本信息過濾、自然語言檢索接口和智能檢索等方面詳細(xì)地闡述漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用,并對目前漢語自動分詞技術(shù)存在的局限性進(jìn)行分析,提出發(fā)展思路,最后對漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用前景進(jìn)行預(yù)測。
[關(guān)鍵詞]漢語自動分詞 中文全文檢索文獻(xiàn)自動標(biāo)引 自然語言檢索
[分類號]G354
1 漢語自動分詞技術(shù)
詞是最小的能夠獨(dú)立活動的有意義的語言成分,自然語言的處理必須以詞為單位,然而,漢語文本中詞與詞之間沒有明確的分隔標(biāo)記,而是連續(xù)的漢字串,因此理解和處理漢語的首要任務(wù)就是把連續(xù)的漢字串分割成詞的序列,即自動分詞。
近20年來,國內(nèi)語言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者們對漢語自動分詞這一研究領(lǐng)域給予了極大的關(guān)注,提出了許多解決漢語自動分詞的方法,歸納起來主要有四種類型:基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點(diǎn),分別代表著不同的發(fā)展方向。其中基于詞典的分詞方法由于其算法成熟,易于實(shí)現(xiàn),是目前普遍使用的切分方法。基于統(tǒng)計(jì)的分詞方法由于有良好的歧義切分能力和低頻詞識別能力,受到越來越多的研究人員的重視,發(fā)展較快,但實(shí)際使用中,單獨(dú)使用的較少,一般都與基于詞典匹配的分詞方法結(jié)合使用;基于理解的分詞方法是在分詞的同時(shí)進(jìn)行句法、語義的分析,利用句法信息和語義信息來處理歧義現(xiàn)象,因而具有良好的歧義切分能力,但因?yàn)橐獙φZ言自身信息進(jìn)行更多的處理,因而加大了實(shí)現(xiàn)的難度;基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類分詞方法的研究還處于初級階段,并且由于漢語自然語言復(fù)雜靈活,知識表示困難,所以對于這類分詞技術(shù)還需要進(jìn)行更深入和全面的研究。
2 基于詞索引的中文全文檢索
全文檢索是一種面向全文和提供全文的檢索技術(shù),其核心是將文檔中所有基本元素的出現(xiàn)信息記錄到索引庫中,在中文全文檢索系統(tǒng)中,這些基本元素可以是單個漢字,也可以是詞,因此存在兩種基本的索引結(jié)構(gòu),即基于字的索引和基于詞的索引。
基于詞索引的中文全文檢索系統(tǒng)首先必須進(jìn)行漢語自動分詞,其次是把文檔中出現(xiàn)的所有有意義的詞建立倒排索引,檢索時(shí)將用戶輸入的檢索要求按照一定的匹配機(jī)制與詞索引庫中的信息進(jìn)行匹配,最后將檢索結(jié)果返回給用戶。
建立詞索引庫時(shí),需要掃描整個文檔,并利用自動分詞技術(shù)對文檔中的漢字串進(jìn)行切分,對切分出來的每一個有效詞,計(jì)算其在文檔中出現(xiàn)的位置和頻率,同時(shí)將該位置信息和頻率的值以及所屬文檔號加入到詞索引庫中,建立基于詞的倒排索引。
典型的基于詞的倒排索引結(jié)構(gòu)(見圖1)包含兩部分.①中文詞組成向量(稱之為詞匯表),包含詞的基本信息和詞索引在索引文件中的偏移量;②對于詞匯表中的每一個詞,都有一個它出現(xiàn)過的文檔列表,包含了出現(xiàn)文檔編號和在此文檔中該詞的詞頻以及出現(xiàn)位置序列,也可以在詞索引中記下段落號、句子號等。
詞索引庫建立之后,就可根據(jù)一定的檢索模型來處理用戶的檢索請求,常用的信息模型有:布爾邏輯模型、向量空間模型以及概率模型等,其中布爾邏輯模型是目前中文全文檢索系統(tǒng)采用最多的一種模型。
3 漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用
3.1 文獻(xiàn)自動標(biāo)引
標(biāo)引是對文獻(xiàn)進(jìn)行分析,提取關(guān)鍵信息,產(chǎn)生對文獻(xiàn)的描述,它是全文檢索實(shí)現(xiàn)的主要支持。目前,對網(wǎng)上日益豐富的信息資源進(jìn)行人工標(biāo)引變得越來越困難,因而利用計(jì)算機(jī)進(jìn)行文獻(xiàn)自動標(biāo)引的需求也越來越迫切。要實(shí)現(xiàn)計(jì)算機(jī)自動標(biāo)引,其重要的前提是漢語自動分詞,只有正確地把具有檢索意義的漢語詞切分出來,才能提取足以描述文檔內(nèi)容的關(guān)鍵信息,并在此基礎(chǔ)上進(jìn)行文獻(xiàn)的自動標(biāo)引。
常見的文獻(xiàn)自動標(biāo)引的方式有:①全文標(biāo)引:將整篇文章中出現(xiàn)的所有具有檢索意義的漢語詞切分出來,統(tǒng)計(jì)詞頻并標(biāo)注其位置信息,存入全文數(shù)據(jù)庫;②主題詞自動抽取:根據(jù)文獻(xiàn)所論述和研究的具體對象和問題,賦予文獻(xiàn)以恰當(dāng)?shù)闹黝}詞,其首要的工作是對需要處理的文獻(xiàn)進(jìn)行自動分詞處理,去掉停用詞,并計(jì)算詞頻和權(quán)值,然后進(jìn)行排序,選出系統(tǒng)規(guī)定數(shù)量的詞匯作為主題詞。
3.2 文摘自動生成
文摘自動生成是把文檔內(nèi)容從邏輯和語義上進(jìn)行分析,縮寫成有限的可讀摘要,標(biāo)志文章的主題內(nèi)容,從而有助于用戶快速評價(jià)檢索結(jié)果的相關(guān)程度。文摘自動生成常用的是基于統(tǒng)計(jì)的方法,即首先對全文進(jìn)行自動分詞,然后計(jì)算文章中各個詞出現(xiàn)的頻率和權(quán)重,并按照某種準(zhǔn)則確定出關(guān)鍵詞,將關(guān)鍵詞所在的語句抽取出來,再依據(jù)各種句子權(quán)重指標(biāo)計(jì)算句子綜合權(quán)重,選出一組最能代表文獻(xiàn)主題內(nèi)容的句子,并對句子進(jìn)行排序作為文摘句,最后生成文摘。
3.3 文本自動分類
文本自動分類的任務(wù)是基于內(nèi)容將大量的用自然語言寫成的文本按照一定的主題類別自動進(jìn)行分類,它能將信息文檔分類并自動將其歸人事先給定的最接近的類中,從而使用戶能夠更加準(zhǔn)確地查找所需的信息。
為完成分類任務(wù),需要對文本進(jìn)行必要的表示和預(yù)處理,在此基礎(chǔ)上再運(yùn)用分類算法對其進(jìn)行分類。目前在信息處理方向上,文本的表示主要采用向量空間模型。向量空間模型的基本思想是以向量來表示文本,其中W為第i個特征項(xiàng)的權(quán)重,一般選擇詞作為特征項(xiàng)。因此,要將文本表示為向量空間中的一個向量,就首先要將文本分詞以獲取文本中所有的詞,繼而將文本用詞頻來表示,形成表示文本的特征向量,用于以后的文本分類。
3.4 文本信息過濾
信息過濾是根據(jù)用戶的信息需求,運(yùn)用一定的標(biāo)準(zhǔn)和技術(shù),從大量的動態(tài)信息流中將與用戶無關(guān)的信息濾掉,把滿足用戶需求的信息提供給用戶,從而提高用戶獲取信息的效率。信息過濾的首要工作是:對采集到的Web頁面進(jìn)行預(yù)處理,將HTML頁面里的文本提取出來,然后使用中文分詞技術(shù)將Web文本切分成單個的中文詞語并進(jìn)行詞頻統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)的結(jié)果從得到的中文詞向量中提取出能夠表達(dá)出該文本主題的特征向量,這就是特征信息提取,它是信息過濾的基礎(chǔ)工作。
3.5 自然語言檢索接口
檢索接口是連接用戶和全文檢索系統(tǒng)之間的橋梁,沒有一個有效的用戶接口,系統(tǒng)的功能就難以充分發(fā)揮。自然語言檢索接口允許用戶以自然語言的方式和機(jī)器交互,是一種人性化的智能接口,它的主要功能是分析用戶用自然語句輸入的查詢請求,“理解”人們檢索的真正意圖。其工作原理是:首先對用戶輸入的查詢語句進(jìn)行分詞,識別每個詞的詞性,提取關(guān)鍵詞,然后從邏輯上進(jìn)行語法語義分析,生成中間形式的表現(xiàn)形式,再經(jīng)過翻譯模塊翻譯成目標(biāo)數(shù)據(jù)庫查詢語言表示的語句,最后對文本進(jìn)行語義上的概念匹配。在此過程中, 分詞的準(zhǔn)確性對查詢效率的影響較大。
3.6 智能搜索
智能搜索是結(jié)合了人工智能技術(shù)的新一代搜索技術(shù),它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力。它的主要任務(wù)是對信息進(jìn)行智能處理和智能理解用戶的檢索需求。而漢語自動分詞技術(shù)正是使搜索具備“智力”的前提,它是自然語言理解、語法語義分析、概念匹配、機(jī)器翻譯等技術(shù)的基礎(chǔ),將這些相關(guān)技術(shù)應(yīng)用到全文檢索系統(tǒng)中,可使檢索系統(tǒng)更加深入細(xì)致地獲取用戶需求,從關(guān)鍵詞的選擇、檢索范圍的確定到檢索結(jié)果的精確,系統(tǒng)都能幫助用戶從知識的海洋中及時(shí)準(zhǔn)確地獲取所需信息。
4 漢語自動分詞技術(shù)的局限及發(fā)展
經(jīng)過十幾年的研究,漢語自動分詞技術(shù)取得了令人矚目的成果,出現(xiàn)了一些實(shí)用的自動分詞系統(tǒng),如:北京航空航天大學(xué)的CDWS分詞系統(tǒng)、清華大學(xué)的SEG分詞系統(tǒng)和SEGTAG分詞系統(tǒng)等,這些系統(tǒng)在分詞的精確度(精度達(dá)到99%以上)和分詞速度(速度達(dá)到千字,s)方面都具有相當(dāng)?shù)乃,并在一些中文全文檢索系統(tǒng)中得到了應(yīng)用,如百度、北大天網(wǎng)、北京易用寶公司的TRS系統(tǒng)等都使用了漢語自動分詞技術(shù)。但與此同時(shí)又應(yīng)該看到目前漢語自動分詞的技術(shù)還在一定的局限性,需要從以下幾個方面加以進(jìn)一步的研究。
4.1 分詞算法
分詞算法是漢語自動分詞技術(shù)中的重點(diǎn)和難點(diǎn),它是影響切分效率的關(guān)鍵因素,切分效率的衡量指標(biāo)是分詞速度和分詞精度,F(xiàn)有的分詞算法基本上都是基于規(guī)則和詞典的分詞方法,它們都必須在分詞速度和精度之間做出選擇。要提高速度,就要適當(dāng)放棄精度的追求,縮減詞典,減少匹配次數(shù);而要提高切分精度,就得舍棄速度,無限擴(kuò)充詞典,匹配次數(shù)也會無限增加。對此,目前還沒有找到有效的破解方法。
分詞的精度常常直接影響到對全文檢索結(jié)果的相關(guān)度排序,分詞的速度也會嚴(yán)重影響檢索系統(tǒng)內(nèi)容更新的速度,因此對于全文檢索系統(tǒng)來說分詞的精度和速度兩者都需要達(dá)到很高的要求。傳統(tǒng)的漢語自動分詞要獲得新的突破,只有在現(xiàn)有的切分算法的基礎(chǔ)上,充分吸收自然語言處理、人工智能和專家系統(tǒng)的最新研究成果,著重從漢語句法和語義入手,并加強(qiáng)對漢字串統(tǒng)計(jì)性質(zhì)的研究,將基于知識和推理的深層方法與基于統(tǒng)計(jì)等“淺層”方法結(jié)合起來,對漢語分詞算法進(jìn)行更加深入的研究,這是今后漢語自動分詞努力的重要方向之一。
4.2 分詞詞典與分詞規(guī)范
分詞詞典是漢語自動分詞過程中的重要工具之一,目前,互聯(lián)網(wǎng)上信息膨脹,各種概念說法繁多,如何使詞典收錄的詞粒度適中,提高信息檢索的查全率和查準(zhǔn)率,是詞典編制面臨的一大挑戰(zhàn)。另外,分詞詞典的組織方式、通用的核心詞典和各個領(lǐng)域的專業(yè)詞典的編制和更新也是未來需要進(jìn)一步關(guān)注的問題。與此同時(shí),詞與詞素、短語之間的概念模糊,給分詞詞典的規(guī)范化造成了困難。雖然目前已有《信息處理用現(xiàn)代漢語分詞規(guī)范》指導(dǎo)分詞,但該規(guī)范還不成熟,有很多地方有待商榷,需要改進(jìn),需要計(jì)算機(jī)科學(xué)家和漢語言學(xué)家共同努力。
4.3 岐義消除
漢語詞與詞之間沒有沒有任何區(qū)分標(biāo)志,加上漢語詞理解的多義性、復(fù)雜性,因而歧義消除是自動分詞過程中的一大難題,切分岐義的存在將嚴(yán)重影響著分詞系統(tǒng)的切分精度,而目前的分詞系統(tǒng)大多在消除岐義方面不理想,因而也就直接影響到中文檢索的查準(zhǔn)率和查全率。未來在岐義消除方面的研究除了完善分詞詞典以外,還需要深入細(xì)致地分析各種岐義產(chǎn)生的原因,針對不同類型的岐義提出不同的消岐方法;同時(shí)深入研究漢語的構(gòu)詞規(guī)則和詞法規(guī)則,增強(qiáng)歧義判別的能力。
4.4 未登錄詞的識別
未登錄詞即是指未包含在分詞詞表中的詞,包括各類專名(人名、地名、企業(yè)字號和商標(biāo)號等)、某些術(shù)語、縮略語和新詞等,由于專用術(shù)語繁多,新名詞、新概念層出不窮,這些詞一般很難全部收錄到詞典中,但這些詞往往在一定時(shí)期內(nèi)呈現(xiàn)較高的檢索概率。因而未登錄詞識別也是中文信息處理中的一個難點(diǎn),在大規(guī)模中文文本的自動分詞中,未被識別的新詞是造成分詞錯誤的一個重要原因。
目前,未登錄詞辨識的研究基礎(chǔ)還比較薄弱,同時(shí)擁有多種未登錄詞辨識能力的系統(tǒng)尚不多見,因此未登錄詞的綜合識別問題還沒有引起足夠的重視,現(xiàn)行的識別方法主要是基于分解與動態(tài)規(guī)劃策略的識別方法和基于語料學(xué)習(xí)的檢測方法,這些方法的識別能力還非常有限,未來的發(fā)展方向主要是探究新詞自身的構(gòu)成規(guī)律和特點(diǎn),充分利用語料庫等網(wǎng)上語言信息資源,提出更有效的識別新詞的方法。
4.5 漢語語料庫的建設(shè)和應(yīng)用
漢語語料庫對中文全文檢索的輔助是必不可少的,目前,語料庫對于信息檢索的輔助作用還沒有得到充分的發(fā)揮,未來對漢語料庫的工作主要包括兩方面:①充分利用現(xiàn)有的語料庫資源,如國家語言文字工作委員會的“國家現(xiàn)代漢語語料庫”,它是一個大型的國家級的、通用語料庫。該語料庫2005年通過鑒定,其中包有豐富的語料資源,這些語料信息使計(jì)算機(jī)能從中學(xué)到漢語的構(gòu)成規(guī)律,也就增強(qiáng)了計(jì)算機(jī)自動識別的能力,這對漢語自動分詞的切分精度有非常大的幫助。②進(jìn)一步進(jìn)行語料庫的建設(shè),尤其是大規(guī)模真實(shí)語料庫的建設(shè)更為需要。
4.6 詞索引數(shù)據(jù)庫的結(jié)構(gòu)
詞索引數(shù)據(jù)庫是全文檢索系統(tǒng)實(shí)現(xiàn)的基礎(chǔ),由于全文檢索系統(tǒng)通常處理的數(shù)據(jù)量很大,經(jīng)過處理生成的索引數(shù)據(jù)也很大,這對系統(tǒng)的存儲容量和檢索速度都帶來了極大的挑戰(zhàn),因此,未來還需要繼續(xù)對詞索引數(shù)據(jù)庫記錄內(nèi)容的確定、數(shù)據(jù)庫的邏輯結(jié)構(gòu)和存儲結(jié)構(gòu)、數(shù)據(jù)庫的壓縮存儲等方面進(jìn)行進(jìn)一步的研究。
5 漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用前景
漢語自動分詞技術(shù)的每一次突破都會使中文全文檢索的效率得到很大的提高,未來的中文全文檢索技術(shù)必定是以提高其系統(tǒng)的查準(zhǔn)率、查全率和查詢速度為目標(biāo),因此,漢語自動分詞技術(shù)在中文全文檢索中的應(yīng)用將會在以下方面得到進(jìn)一步拓展。
5.1 文獻(xiàn)信息的深度處理
信息搜索的真正對象是標(biāo)引的結(jié)果,因而高性能的檢索需要有效的索引支持。目前,中文信息處理的深度還不十分理想,隨著漢語詞的切分精度和自然語言處理水平的提高,未來的標(biāo)引是按照一定的格式,建立詞法、句法/語義層次的深度標(biāo)引,與此同時(shí),文摘自動生成和文本自動分類的準(zhǔn)確性將會得到大幅度的提高,這些對中文全文檢索的速度和效率都會產(chǎn)生很大的影響。
5.2 匹配機(jī)制的進(jìn)一步優(yōu)化
信息檢索的目的是在信息收藏中查找包含用戶所需的信息內(nèi)容的文檔,當(dāng)前的全文檢索系統(tǒng)采用自由詞匹配,其優(yōu)點(diǎn)是靈活,缺點(diǎn)是有大量的誤檢和漏檢。未來的信息系統(tǒng)應(yīng)當(dāng)是概念匹配,即系統(tǒng)自動抽取能夠描述文獻(xiàn)內(nèi)容的概念,用文中的關(guān)鍵詞或與之相應(yīng)的主題詞加以標(biāo)引;用戶在系統(tǒng)的輔助下選用合適的詞語表達(dá)自己的信息需求,在此基礎(chǔ)上兩者之間執(zhí)行概念匹配,匹配在語義上相同、相近、相包含的詞語,使檢索更逼近人的智能程度,以減少誤檢和漏檢。
5.3 自然語言檢索的智能化
自然語言應(yīng)用于全文檢索主要體現(xiàn)在兩方面:一是用自然語言標(biāo)引全文;二是向用戶提供自然語言檢索接口。目前,在自然語言標(biāo)引方面多數(shù)限于詞形或詞匯層次,即使在詞匯層次,也沒有很好的解決由于詞的同義、近義現(xiàn)象而需要擴(kuò)展檢索的問題,不能從語義上理解,因此漏檢和誤檢問題非常嚴(yán)重;在自然語言檢索接口方面,目前大多數(shù)中文全文檢索系統(tǒng)在這方面的功能比較缺乏。要改變這一現(xiàn)狀,一方面,必須將自然語言與受控語言進(jìn)行有機(jī)的融合,融合的手段主要是通過有效的詞匯控制技術(shù),如停用詞表、同義\近義詞表、入口詞表、后控詞表等;另一方面,充分利用自然語言處理的最新研究成果,使自然語言檢索具有更高的智能,其智能化主要表現(xiàn)在:①從內(nèi)容上真正的理解文獻(xiàn)所論述的主題;②使用適當(dāng)?shù)闹R表示方法來充分體現(xiàn)各主題概念和標(biāo)識之間的分、屬、交叉等復(fù)雜關(guān)系;③能準(zhǔn)確分析用戶的自然語言提問,并通過人機(jī)交互推斷出其真正需求。
6 結(jié)束語
漢語分詞是中文信息處理的基礎(chǔ),也是中文全文檢索中的“瓶頸”問題,因而,中文全文檢索系統(tǒng)的檢索效率的提高,依賴于漢語自動分詞技術(shù)的發(fā)展;依賴于對漢語的語詞結(jié)構(gòu)、句結(jié)構(gòu)、語義等語言知識的深入系統(tǒng)的研究;依賴于對語言與思維的本質(zhì)的揭示;同時(shí),在很大程度上還寄希望于人工智能技術(shù)的突破。相信在不久的將來,隨著相關(guān)領(lǐng)域知識的研究越來越成熟,未來的中文全文檢索將最終達(dá)到真正的語義、語用、語境層次的智能信息檢索,檢索結(jié)果更加全面和準(zhǔn)確。
相關(guān)熱詞搜索:漢語 分詞 綜述 漢語分詞技術(shù)綜述 分詞技術(shù) 中文分詞技術(shù)
熱點(diǎn)文章閱讀