【國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述】 搜索引擎中文分詞技術(shù)
發(fā)布時(shí)間:2020-03-10 來源: 日記大全 點(diǎn)擊:
[摘要]認(rèn)為分詞是文本自動(dòng)分類、信息檢索、信息過濾、文獻(xiàn)自動(dòng)標(biāo)引、摘要自動(dòng)生成等中文信息處理的基礎(chǔ)與關(guān)鍵技術(shù)之一,中文本身復(fù)雜性及語言規(guī)則的不確定性,使中文分詞技術(shù)成為分詞技術(shù)中的難點(diǎn)。全面歸納中文分詞算法、歧義消除、未登錄詞識(shí)別、自動(dòng)分詞系統(tǒng)等研究,總結(jié)出當(dāng)前中文分詞面臨的難點(diǎn)與研究熱點(diǎn)。
[關(guān)鍵詞]中文分詞 分詞算法 歧義消除 未登錄詞 分詞系統(tǒng)
[分類號(hào)]G354
中文分詞是文本分類、信息檢索、信息過濾、文獻(xiàn)自動(dòng)標(biāo)引、摘要自動(dòng)生成等中文信息處理中的關(guān)鍵技術(shù)及難點(diǎn)。經(jīng)過廣大學(xué)者共同努力,過去2D多年中文分詞取得可喜進(jìn)步,黃昌寧、趙!谒姆矫婵偨Y(jié)了取得的成績(jī)。筆者利用CNKI全文期刊數(shù)據(jù)庫,以“中文and分詞”、“漢語and分詞”、“自動(dòng)and分詞”等為檢索條件,檢索時(shí)段為1987年1月1日~2010年9月1l日,進(jìn)行篇名檢索,經(jīng)篩選分別得到相關(guān)研究論文214、191、165篇,通過文獻(xiàn)歸納總結(jié)出該領(lǐng)域研究現(xiàn)狀、研究?jī)?nèi)容、研究熱點(diǎn)與難點(diǎn),并展望其發(fā)展。
1 中文分詞基礎(chǔ)理論研究
中文分詞理論研究可歸結(jié)為:三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識(shí)別與分詞與詞性標(biāo)注評(píng)測(cè)研究。
1.1 分詞算法研究
衡量分詞算法優(yōu)劣標(biāo)準(zhǔn)是分詞速度與精度,各種算法圍繞精度與速度展開。目前分詞算法很多,大致可歸納為:詞典分詞方法、理解分詞方法、統(tǒng)計(jì)分詞方法、組合分詞算法。
1.1.1 詞典分詞方法
?算法。詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功,該方法需要確定三個(gè)要素:詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有:正向最大匹配法、逆向最大匹配法、雙向最大匹配法、最少切分等。實(shí)際分詞系統(tǒng),都是把詞典分詞作為一種初分手段,再通過各種其他的語言信息進(jìn)一步提高切分的準(zhǔn)確率。
詞典分詞方法包含兩個(gè)核心內(nèi)容:分詞算法與詞典結(jié)構(gòu),算法設(shè)計(jì)可從以下幾方面展開:①字典結(jié)構(gòu)改進(jìn);②改進(jìn)掃描方式;③將詞典中的可按由長(zhǎng)到短遞減順序逐字搜索整個(gè)待處理材料,一直到分出全部詞為止。
?詞典結(jié)構(gòu)。同典結(jié)構(gòu)是詞典分詞算法關(guān)鍵技術(shù),直接影響分詞算法的性能。三個(gè)因素影響詞典性能:①詞查詢速度;②詞典空間利用率;③詞典維護(hù)性能。Hash表是設(shè)計(jì)詞典結(jié)構(gòu)常用方式,先對(duì)GB2312~1980中的漢字排序(即建立Hash表),然后將其后繼詞(包括詞的屬性等信息)放在相應(yīng)的詞庫表中。
孫茂松等設(shè)計(jì)并實(shí)驗(yàn)考察了三種典型的分詞詞典機(jī)制:整詞二分、TRIE索引樹及逐字二分,著重比較它們的時(shí)間、空間效率。姚興山提出首字Hash表、詞次字Hash表、詞次字結(jié)構(gòu)、詞3字Hash表、詞3字結(jié)構(gòu)、詞4字Hash表、詞4字結(jié)構(gòu)、詞索引表和詞典正文的詞典結(jié)構(gòu),該結(jié)構(gòu)提高查詢速度,但增大存儲(chǔ)開銷。陳桂林等介紹了一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu),它支持首字Hash和標(biāo)準(zhǔn)的二分查找,且不限詞條長(zhǎng)度,并給出利用近鄰匹配方法來查找多字詞,提高了分詞效率。目前文獻(xiàn)看,圍繞詞典結(jié)構(gòu)提高分詞性能的主流思想是設(shè)計(jì)Hash表,表數(shù)目隨結(jié)構(gòu)不同而不同,數(shù)目越多,空間開銷越大,但查詢速度也相應(yīng)提高,具體設(shè)計(jì)需要在時(shí)間與空間之間權(quán)衡。
1.1.2 理解分詞方法 基本思想是分詞同時(shí)進(jìn)行句法、語義分析;利用句法信息和語義信息來處理歧義現(xiàn)象,理解分詞方法需要使用大量語言知識(shí)和信息。
?人工智能技術(shù)。人工智能技術(shù)主要包括專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和生成一測(cè)試法三種。分詞專家系統(tǒng)能充分利用詞法知識(shí)、句法知識(shí)、語義知識(shí)和語用知識(shí)進(jìn)行邏輯推理,實(shí)現(xiàn)對(duì)歧義字段的有效切分。何克抗等深入分析了歧義切分字段產(chǎn)生的根源和性質(zhì),把歧義字段從性質(zhì)上劃分為四類,并給出消除每一類歧義切分字段的有效方法。王彩榮設(shè)計(jì)了一個(gè)分詞專家系統(tǒng)的框架:將自動(dòng)分詞過程看作是基于知識(shí)的邏輯推理過程,用知識(shí)推理與語法分析替代傳統(tǒng)的“詞典匹配分詞+歧義校正的過程。”神經(jīng)網(wǎng)絡(luò)摸擬人腦神經(jīng)元工作機(jī)理設(shè)計(jì),將分詞知識(shí)所分散隱式的方法存入神經(jīng)網(wǎng)內(nèi)部,通過自學(xué)習(xí)和訓(xùn)練修改內(nèi)部權(quán)值,以達(dá)到正確的分詞結(jié)果。林亞平、尹鋒利等用BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)分詞系統(tǒng),進(jìn)行大量仿真實(shí)驗(yàn),取得不錯(cuò)分詞效果。
采用神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)的人工智能分詞算法與其他方法相比具有如下特點(diǎn):①知識(shí)的處理機(jī)制為動(dòng)態(tài)演化過程;②字詞或抽象概念與輸入方式對(duì)應(yīng),切分方式與輸出模型對(duì)應(yīng);③能較好地適應(yīng)不斷變化的語言現(xiàn)象,包括結(jié)構(gòu)的自組織和詞語的自學(xué)習(xí);④新知識(shí)的增加對(duì)系統(tǒng)處理速度影響不大,這與一般機(jī)械匹配式分詞方法有很大區(qū)別;⑤有助于利用句法信息和語義信息來處理歧義現(xiàn)象,提高理解分詞的效果。作為智能分詞技術(shù)的一種探討,將神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)思想引入中文分詞,是一種有益嘗試,為后續(xù)智能自動(dòng)分詞技術(shù)取得更多進(jìn)展打下良好基礎(chǔ)。
黃祥喜提出“生成一測(cè)試”法,通過詞典的動(dòng)態(tài)化、分詞知識(shí)的分布化、分詞系統(tǒng)和句法語義系統(tǒng)的協(xié)同工作等手段實(shí)現(xiàn)詞鏈的有效切分和漢語句子切分與理解的并行。該方法具有通用性,實(shí)現(xiàn)容易,分詞和理解能力強(qiáng)。
由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。
?統(tǒng)計(jì)模型技術(shù)。蘇菲等提出基于規(guī)則統(tǒng)計(jì)模型的消歧方法和識(shí)別未登錄詞的詞加權(quán)算法,通過詞頻統(tǒng)計(jì)、加權(quán)技術(shù)與正向逆向最大匹配進(jìn)行消歧與未登錄詞識(shí)別。張茂元等提出基于馬爾可夫鏈的語境中文切分理論,進(jìn)而提出一種語境中文分詞方法,該方法建立在詞法和句法基礎(chǔ)上,從語境角度分析歧義字段,提高分詞準(zhǔn)確率。
1.1.3 統(tǒng)計(jì)分詞方法 統(tǒng)計(jì)方法思想基礎(chǔ)是:詞是穩(wěn)定的漢字的組合,在上下文中漢字與漢字相鄰共現(xiàn)的概率能夠較好地反映成同的可信度。因此對(duì)語料中相鄰共現(xiàn)的漢字的組合頻度進(jìn)行統(tǒng)計(jì),計(jì)算他們的統(tǒng)計(jì)信息并作為分詞的依據(jù)。常用統(tǒng)計(jì)量有如詞頻、互信息、t-測(cè)試差,相關(guān)分詞模型有最大概率分詞模型、最大熵分詞模型、N-Gram元分詞模型、有向圖模型等。孫茂松等提出了一種利用句內(nèi)相鄰字之間的互信息及t-測(cè)試差這兩個(gè)統(tǒng)計(jì)量解決漢語自動(dòng)分詞中交集型歧義切分字段的方法,并進(jìn)一步提出將兩者線性霍加的新的統(tǒng)計(jì)量md,并引入“峰”和“谷”的概念,設(shè)計(jì)了一種無詞表的自動(dòng)分詞算法。王思力等提出一種利用雙字耦合度和t-測(cè)試差解決中文分詞中交叉歧義的方法。孫曉、黃德根提出基于最長(zhǎng)次長(zhǎng)匹配的方法建立漢語切分路徑有向圖,將漢語自動(dòng)分詞轉(zhuǎn)換為在有向圖中選擇正確的切分路徑。
三種主流方法各有優(yōu)缺點(diǎn),其具體比較見表1。
1.1.4 組合方法 單個(gè)方法有優(yōu)點(diǎn),但也存在不足, 實(shí)際分詞算法設(shè)計(jì)時(shí)需要組合幾種方法,利用各自優(yōu)點(diǎn),克服不足,以更好解決分詞難題。
?字典與統(tǒng)計(jì)組合。翟鳳文等提出了一種字典與統(tǒng)計(jì)相結(jié)合的分詞方法,首先利用字典分同方法進(jìn)行第一步處理,然后利用統(tǒng)計(jì)方法處理第一步所產(chǎn)生的歧義問題和未登錄詞問題。該算法通過改進(jìn)字典的存儲(chǔ)結(jié)構(gòu),提高了字典匹配的速度;通過統(tǒng)計(jì)和規(guī)則相結(jié)合提高交集型歧義切分的準(zhǔn)確率,并且一定條件下解決了語境中高頻未登錄詞問題。
?分詞與詞性標(biāo)注組合。詞性標(biāo)注是指對(duì)庫內(nèi)語篇中所有的單詞根據(jù)其語法作用加注詞性標(biāo)記。將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。白拴虎將自動(dòng)分詞和基于隱馬爾可夫鏈的詞性自動(dòng)標(biāo)注技術(shù)結(jié)合起來,利用人工標(biāo)注語料庫中提取出的詞性二元統(tǒng)計(jì)規(guī)律來消解切分歧義。佟曉筠等設(shè)計(jì)N-最短路徑自動(dòng)分詞和詞性自動(dòng)標(biāo)注一體化處理的模型,在分詞階段召回N個(gè)最佳結(jié)果作為候選集,最終的結(jié)果會(huì)在未登錄詞識(shí)別和同性標(biāo)注之后,從這N個(gè)最有潛力的候選結(jié)果中選優(yōu)得到。姜濤等對(duì)Kit提出基于實(shí)例的中文分詞一詞性標(biāo)注模型,通過理論上定性分析和實(shí)驗(yàn)證明得出如下優(yōu)點(diǎn):①對(duì)于訓(xùn)練語料相關(guān)的文本(即與訓(xùn)練語料相同、相似或同領(lǐng)域的文本),EBST系統(tǒng)的分詞一詞性標(biāo)注結(jié)果具有極高的準(zhǔn)確率;②EBST系統(tǒng)的分詞一詞性標(biāo)注結(jié)果與訓(xùn)練語料中的分詞一詞性標(biāo)注具有很好的一致性。
1.2 歧義消除研究
1.2.1 歧義類型 歧義是指同一個(gè)字符串存在不止一種切分形式。歧義字段分為交集型歧義字段(交叉歧義)、組合型歧義字段(覆蓋歧義)兩種。據(jù)統(tǒng)計(jì)交叉歧義字段占到了總歧義字段的86%,所以解決交叉歧義字段是分詞要解決的重點(diǎn)與難點(diǎn)。
1.2.2 消歧方法 目前解決歧義消除的典型方法有:
?窮舉法。找出待分析字串所有可能的詞,該方法簡(jiǎn)單,但時(shí)間開銷大,實(shí)用性不強(qiáng)。多數(shù)時(shí)候采用雙向匹配算法,正向匹配結(jié)果與逆向匹配結(jié)果一致,分詞正確,否則分詞有歧義。
?聯(lián)想一回溯法。李國(guó)臣等提出聯(lián)想一回溯法,先將待切分的漢字符號(hào)串序列依特征詞詞庫分割為若干子串,每個(gè)子串或?yàn)樵~或?yàn)樵~群(幾個(gè)詞組合而成的線性序列),然后利用實(shí)詞詞庫和規(guī)則庫再將詞群細(xì)分為詞。分詞時(shí),利用了一定語法知識(shí)。聯(lián)想和回溯機(jī)制同時(shí)作用于分割和細(xì)分兩個(gè)階段,旨在有效解決歧義組合結(jié)構(gòu)的切分問題。
?詞性標(biāo)注。白拴虎利用馬爾可夫鏈的詞性標(biāo)注技術(shù)結(jié)合分詞算法消解切分歧義,其他學(xué)者也有類似成果出現(xiàn)。
?EM(Expectation Maximization)法。王偉等提出基于EM思想,每個(gè)句子所對(duì)應(yīng)的所有(或一定范圍內(nèi))的分詞結(jié)果構(gòu)成訓(xùn)練集,通過這個(gè)訓(xùn)練集和初始的語言模型可以估計(jì)出一個(gè)新的語言模型,最終的語言模型通過多次迭代而得到。EM是極大似然原則下的建模方法,存在過度擬合問題。
?短語匹配與語義規(guī)則法。姚繼偉、趙東范在短語結(jié)構(gòu)文法的基礎(chǔ)上,提出一種基于局部單一短語匹配和語義規(guī)則相結(jié)合的消歧方法。通過增加短語問的右嵌套規(guī)則和采用有限自動(dòng)機(jī)的實(shí)現(xiàn)方式,解決了短語規(guī)則中存在冗余項(xiàng)的問題,提高了短語匹配效率和歧義消除類型的針對(duì)性。
1.3 未登錄詞研究
1.3.1 未登錄詞類型 未登錄詞大致包含兩大類:①新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語等;②專有名詞,如中國(guó)人名、外國(guó)譯名、地名、機(jī)構(gòu)名(泛指機(jī)關(guān)、團(tuán)體和其他企事業(yè)單位)等。未登錄詞識(shí)別指正確識(shí)別未在詞典中出現(xiàn)的詞,未登錄詞出現(xiàn)極大影響了分詞的精度,如何解決未登錄詞識(shí)別問題成為分詞準(zhǔn)確性的一大難題。
1.3.2 未登錄詞識(shí)別 識(shí)別第一類未登錄詞一般是先根據(jù)某種算法自動(dòng)生成一張候選詞表(無監(jiān)督的機(jī)器學(xué)習(xí)策略),再人工篩選出其中的新詞并補(bǔ)充到詞表中。該方法需要大規(guī)模語料庫支持。第二種常用辦法是:首先依據(jù)從各類專有名詞庫中總結(jié)出的統(tǒng)計(jì)知識(shí)(如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結(jié)構(gòu)規(guī)則,在輸入句子中猜測(cè)可能成為專有名詞的漢字串并給出其置信度,之后利用對(duì)該類專有名詞有標(biāo)識(shí)意義的緊鄰上下文信息如稱謂,以及全局統(tǒng)計(jì)量和局部統(tǒng)計(jì)量參見下文,進(jìn)行進(jìn)一步鑒定。
歸納起來,未登錄詞解決方案有兩大類:專用方法與通用方法。專用方法主要針對(duì)特定領(lǐng)域的未登錄詞如中文人名、中文地名、中文機(jī)構(gòu)名等識(shí)別,此類方法主要基于專有詞庫與規(guī)則展開。通用方法則重在解決所有類別的未登錄詞識(shí)別問題,前面列舉的機(jī)械分詞、理解分詞、統(tǒng)計(jì)分詞方法就是一種通用方法。
?專有名詞庫。對(duì)中文人名、地名、機(jī)構(gòu)名等分別建立詞庫,該方法需要搜集特定資源并制定特定算法,信息集成難度大。
?啟發(fā)式規(guī)則。通過前后綴的修飾詞發(fā)現(xiàn)人名等未登錄詞。如“先生張三”,前面“先生”就是一個(gè)特定的修飾詞,一般后面緊接著是人名。鄭家恒將中文姓氏用字進(jìn)行歸類,并利用分類信息建立規(guī)則以識(shí)別“小張”、“老李”之類的人名,并且有效地區(qū)分出“張”“李”等字的量詞用法。
?通用解決方案。不針對(duì)特定的未登錄詞設(shè)計(jì)算法,適用于各種類型的未登錄詞。前述三種主流分詞及組合算法則屬于通用解決方案。另外,呂雅娟等對(duì)中同人名、中國(guó)地名、外國(guó)譯名進(jìn)行整體識(shí)別為目標(biāo),采用分解處理策略降低了整體處理難度,并使用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)了最佳路徑的搜索,較好地解決了未登錄詞之間的沖突問題。秦文、苑春法提出了決策樹的未登錄詞識(shí)別方法,適用各種未登錄詞識(shí)別。
1.4 分詞與詞性標(biāo)注評(píng)測(cè)
各種算法優(yōu)劣需要在真實(shí)文本上以較大規(guī)模、客觀、定量的方式進(jìn)行公開公正評(píng)測(cè),它是推動(dòng)中文信息處理研究的重要手段。楊爾弘等介紹了2003年“863中文與接口技術(shù)”漢語自動(dòng)分詞與詞性標(biāo)注一體化評(píng)測(cè)內(nèi)容、評(píng)測(cè)方法、測(cè)試試題的選擇與產(chǎn)生、測(cè)試指標(biāo)以及測(cè)試結(jié)果,各種測(cè)試結(jié)果以精確率、召回率、F值度量,并對(duì)參評(píng)系統(tǒng)的切分和標(biāo)注錯(cuò)誤進(jìn)行了總結(jié)。
2 分詞系統(tǒng)研究
中文分詞系統(tǒng)是利用計(jì)算機(jī)對(duì)中文文本進(jìn)行詞語自動(dòng)識(shí)別的系統(tǒng)。一個(gè)高效的、性能優(yōu)良的中文分詞系統(tǒng)應(yīng)該具備幾個(gè)基本要素:分詞精度、分詞速度、系統(tǒng)可維護(hù)性、通用性、適應(yīng)性;诜衷~系統(tǒng)特點(diǎn),將分詞系統(tǒng)研究分為早期自動(dòng)分詞系統(tǒng)與現(xiàn)代分詞系統(tǒng)研究?jī)刹糠帧?
2.1 早期自動(dòng)分詞系統(tǒng)
20世紀(jì)80年代初有學(xué)者開始研究自動(dòng)分詞系統(tǒng),陸續(xù)有一些實(shí)用性系統(tǒng)出現(xiàn)。典型的有:CDWS分詞系統(tǒng)、漢語自動(dòng)分詞系統(tǒng)-NEWS L321、書面漢語自動(dòng)分詞專家系統(tǒng)等。由于受硬件條件及分詞技術(shù)影響,早期分詞實(shí)用系統(tǒng)在分詞速度與精度上還不夠理想,實(shí)用性不高。但這些實(shí)用分詞系統(tǒng)的出現(xiàn)為后續(xù)分詞系統(tǒng)設(shè)計(jì)打下了良好基礎(chǔ)。
2.2 現(xiàn)代分詞系統(tǒng)
2.2.1 中國(guó)科學(xué)院計(jì)算所漢語詞法分析系統(tǒng) ICT-CLAS ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System)是中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制,主要功能包括中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,新詞識(shí)別;支持用戶同典,繁體中文,GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。目前ICTCLAS3.0分詞速度單機(jī)為996KB/s,分詞精度為98.45%,AP[不超過200KB,各種淵典數(shù)據(jù)壓縮后不到3M。
2.2.2 海量智能分詞研究版 海量智能分詞系統(tǒng)較好地解決了分詞領(lǐng)域中的兩大技術(shù)難題:歧義切分和新詞的識(shí)別,分詞準(zhǔn)確率達(dá)到99.6%,分同效率為2000萬字/分鐘。其中組合歧義的處理一直是分詞領(lǐng)域的難點(diǎn)中的難點(diǎn),海量分詞系統(tǒng)能對(duì)絕大多數(shù)的組合歧義進(jìn)行正確的切分。在新詞的識(shí)別上,針對(duì)不同類型采用不同識(shí)別算法,其中包括對(duì)人名、音譯詞、機(jī)構(gòu)團(tuán)體名稱、數(shù)量詞等新同的識(shí)別,其準(zhǔn)確率比較高。
由于計(jì)算機(jī)硬件技術(shù)的大幅提升,分詞技術(shù)的逐步成熟,現(xiàn)在分詞系統(tǒng)在歧義消除、未登錄詞識(shí)別方面取得較大進(jìn)展,分詞速度與精度明顯提高,實(shí)際性越來越強(qiáng),為中文信息處理帶來極大方便。
3 結(jié)語
歧義消除與未登錄詞識(shí)別還是目前中文分詞研究領(lǐng)域難點(diǎn)問題,各種算法圍繞兩大難題展開。論文歸納出中文分詞研究熱點(diǎn):①創(chuàng)新算法,研究者需在更廣泛的方法論上探討算法,創(chuàng)新提出一攬子方案,設(shè)計(jì)出通用的解決歧義與未登錄詞識(shí)別的方法,提高分詞精度與速度。②統(tǒng)計(jì)組合算法,目前大量文獻(xiàn)集中于統(tǒng)計(jì)分詞研究,基于統(tǒng)計(jì)的分詞及與其他方法的組合足以后研究熱點(diǎn),將會(huì)給中文分詞技術(shù)帶來實(shí)質(zhì)性突破。
相關(guān)熱詞搜索:分詞 技術(shù)研究 中文 國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述 網(wǎng)絡(luò)技術(shù)研究綜述 蛋品加工技術(shù)研究綜述
熱點(diǎn)文章閱讀