【國內(nèi)中文自動分詞技術(shù)研究綜述】 搜索引擎中文分詞技術(shù)
發(fā)布時間:2020-03-10 來源: 日記大全 點擊:
[摘要]認為分詞是文本自動分類、信息檢索、信息過濾、文獻自動標引、摘要自動生成等中文信息處理的基礎(chǔ)與關(guān)鍵技術(shù)之一,中文本身復(fù)雜性及語言規(guī)則的不確定性,使中文分詞技術(shù)成為分詞技術(shù)中的難點。全面歸納中文分詞算法、歧義消除、未登錄詞識別、自動分詞系統(tǒng)等研究,總結(jié)出當前中文分詞面臨的難點與研究熱點。
[關(guān)鍵詞]中文分詞 分詞算法 歧義消除 未登錄詞 分詞系統(tǒng)
[分類號]G354
中文分詞是文本分類、信息檢索、信息過濾、文獻自動標引、摘要自動生成等中文信息處理中的關(guān)鍵技術(shù)及難點。經(jīng)過廣大學者共同努力,過去2D多年中文分詞取得可喜進步,黃昌寧、趙!谒姆矫婵偨Y(jié)了取得的成績。筆者利用CNKI全文期刊數(shù)據(jù)庫,以“中文and分詞”、“漢語and分詞”、“自動and分詞”等為檢索條件,檢索時段為1987年1月1日~2010年9月1l日,進行篇名檢索,經(jīng)篩選分別得到相關(guān)研究論文214、191、165篇,通過文獻歸納總結(jié)出該領(lǐng)域研究現(xiàn)狀、研究內(nèi)容、研究熱點與難點,并展望其發(fā)展。
1 中文分詞基礎(chǔ)理論研究
中文分詞理論研究可歸結(jié)為:三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識別與分詞與詞性標注評測研究。
1.1 分詞算法研究
衡量分詞算法優(yōu)劣標準是分詞速度與精度,各種算法圍繞精度與速度展開。目前分詞算法很多,大致可歸納為:詞典分詞方法、理解分詞方法、統(tǒng)計分詞方法、組合分詞算法。
1.1.1 詞典分詞方法
?算法。詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,該方法需要確定三個要素:詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有:正向最大匹配法、逆向最大匹配法、雙向最大匹配法、最少切分等。實際分詞系統(tǒng),都是把詞典分詞作為一種初分手段,再通過各種其他的語言信息進一步提高切分的準確率。
詞典分詞方法包含兩個核心內(nèi)容:分詞算法與詞典結(jié)構(gòu),算法設(shè)計可從以下幾方面展開:①字典結(jié)構(gòu)改進;②改進掃描方式;③將詞典中的可按由長到短遞減順序逐字搜索整個待處理材料,一直到分出全部詞為止。
?詞典結(jié)構(gòu)。同典結(jié)構(gòu)是詞典分詞算法關(guān)鍵技術(shù),直接影響分詞算法的性能。三個因素影響詞典性能:①詞查詢速度;②詞典空間利用率;③詞典維護性能。Hash表是設(shè)計詞典結(jié)構(gòu)常用方式,先對GB2312~1980中的漢字排序(即建立Hash表),然后將其后繼詞(包括詞的屬性等信息)放在相應(yīng)的詞庫表中。
孫茂松等設(shè)計并實驗考察了三種典型的分詞詞典機制:整詞二分、TRIE索引樹及逐字二分,著重比較它們的時間、空間效率。姚興山提出首字Hash表、詞次字Hash表、詞次字結(jié)構(gòu)、詞3字Hash表、詞3字結(jié)構(gòu)、詞4字Hash表、詞4字結(jié)構(gòu)、詞索引表和詞典正文的詞典結(jié)構(gòu),該結(jié)構(gòu)提高查詢速度,但增大存儲開銷。陳桂林等介紹了一種高效的中文電子詞表數(shù)據(jù)結(jié)構(gòu),它支持首字Hash和標準的二分查找,且不限詞條長度,并給出利用近鄰匹配方法來查找多字詞,提高了分詞效率。目前文獻看,圍繞詞典結(jié)構(gòu)提高分詞性能的主流思想是設(shè)計Hash表,表數(shù)目隨結(jié)構(gòu)不同而不同,數(shù)目越多,空間開銷越大,但查詢速度也相應(yīng)提高,具體設(shè)計需要在時間與空間之間權(quán)衡。
1.1.2 理解分詞方法 基本思想是分詞同時進行句法、語義分析;利用句法信息和語義信息來處理歧義現(xiàn)象,理解分詞方法需要使用大量語言知識和信息。
?人工智能技術(shù)。人工智能技術(shù)主要包括專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和生成一測試法三種。分詞專家系統(tǒng)能充分利用詞法知識、句法知識、語義知識和語用知識進行邏輯推理,實現(xiàn)對歧義字段的有效切分。何克抗等深入分析了歧義切分字段產(chǎn)生的根源和性質(zhì),把歧義字段從性質(zhì)上劃分為四類,并給出消除每一類歧義切分字段的有效方法。王彩榮設(shè)計了一個分詞專家系統(tǒng)的框架:將自動分詞過程看作是基于知識的邏輯推理過程,用知識推理與語法分析替代傳統(tǒng)的“詞典匹配分詞+歧義校正的過程!鄙窠(jīng)網(wǎng)絡(luò)摸擬人腦神經(jīng)元工作機理設(shè)計,將分詞知識所分散隱式的方法存入神經(jīng)網(wǎng)內(nèi)部,通過自學習和訓練修改內(nèi)部權(quán)值,以達到正確的分詞結(jié)果。林亞平、尹鋒利等用BP神經(jīng)網(wǎng)絡(luò)設(shè)計了一個分詞系統(tǒng),進行大量仿真實驗,取得不錯分詞效果。
采用神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)的人工智能分詞算法與其他方法相比具有如下特點:①知識的處理機制為動態(tài)演化過程;②字詞或抽象概念與輸入方式對應(yīng),切分方式與輸出模型對應(yīng);③能較好地適應(yīng)不斷變化的語言現(xiàn)象,包括結(jié)構(gòu)的自組織和詞語的自學習;④新知識的增加對系統(tǒng)處理速度影響不大,這與一般機械匹配式分詞方法有很大區(qū)別;⑤有助于利用句法信息和語義信息來處理歧義現(xiàn)象,提高理解分詞的效果。作為智能分詞技術(shù)的一種探討,將神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)思想引入中文分詞,是一種有益嘗試,為后續(xù)智能自動分詞技術(shù)取得更多進展打下良好基礎(chǔ)。
黃祥喜提出“生成一測試”法,通過詞典的動態(tài)化、分詞知識的分布化、分詞系統(tǒng)和句法語義系統(tǒng)的協(xié)同工作等手段實現(xiàn)詞鏈的有效切分和漢語句子切分與理解的并行。該方法具有通用性,實現(xiàn)容易,分詞和理解能力強。
由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。
?統(tǒng)計模型技術(shù)。蘇菲等提出基于規(guī)則統(tǒng)計模型的消歧方法和識別未登錄詞的詞加權(quán)算法,通過詞頻統(tǒng)計、加權(quán)技術(shù)與正向逆向最大匹配進行消歧與未登錄詞識別。張茂元等提出基于馬爾可夫鏈的語境中文切分理論,進而提出一種語境中文分詞方法,該方法建立在詞法和句法基礎(chǔ)上,從語境角度分析歧義字段,提高分詞準確率。
1.1.3 統(tǒng)計分詞方法 統(tǒng)計方法思想基礎(chǔ)是:詞是穩(wěn)定的漢字的組合,在上下文中漢字與漢字相鄰共現(xiàn)的概率能夠較好地反映成同的可信度。因此對語料中相鄰共現(xiàn)的漢字的組合頻度進行統(tǒng)計,計算他們的統(tǒng)計信息并作為分詞的依據(jù)。常用統(tǒng)計量有如詞頻、互信息、t-測試差,相關(guān)分詞模型有最大概率分詞模型、最大熵分詞模型、N-Gram元分詞模型、有向圖模型等。孫茂松等提出了一種利用句內(nèi)相鄰字之間的互信息及t-測試差這兩個統(tǒng)計量解決漢語自動分詞中交集型歧義切分字段的方法,并進一步提出將兩者線性霍加的新的統(tǒng)計量md,并引入“峰”和“谷”的概念,設(shè)計了一種無詞表的自動分詞算法。王思力等提出一種利用雙字耦合度和t-測試差解決中文分詞中交叉歧義的方法。孫曉、黃德根提出基于最長次長匹配的方法建立漢語切分路徑有向圖,將漢語自動分詞轉(zhuǎn)換為在有向圖中選擇正確的切分路徑。
三種主流方法各有優(yōu)缺點,其具體比較見表1。
1.1.4 組合方法 單個方法有優(yōu)點,但也存在不足, 實際分詞算法設(shè)計時需要組合幾種方法,利用各自優(yōu)點,克服不足,以更好解決分詞難題。
?字典與統(tǒng)計組合。翟鳳文等提出了一種字典與統(tǒng)計相結(jié)合的分詞方法,首先利用字典分同方法進行第一步處理,然后利用統(tǒng)計方法處理第一步所產(chǎn)生的歧義問題和未登錄詞問題。該算法通過改進字典的存儲結(jié)構(gòu),提高了字典匹配的速度;通過統(tǒng)計和規(guī)則相結(jié)合提高交集型歧義切分的準確率,并且一定條件下解決了語境中高頻未登錄詞問題。
?分詞與詞性標注組合。詞性標注是指對庫內(nèi)語篇中所有的單詞根據(jù)其語法作用加注詞性標記。將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而極大地提高切分的準確率。白拴虎將自動分詞和基于隱馬爾可夫鏈的詞性自動標注技術(shù)結(jié)合起來,利用人工標注語料庫中提取出的詞性二元統(tǒng)計規(guī)律來消解切分歧義。佟曉筠等設(shè)計N-最短路徑自動分詞和詞性自動標注一體化處理的模型,在分詞階段召回N個最佳結(jié)果作為候選集,最終的結(jié)果會在未登錄詞識別和同性標注之后,從這N個最有潛力的候選結(jié)果中選優(yōu)得到。姜濤等對Kit提出基于實例的中文分詞一詞性標注模型,通過理論上定性分析和實驗證明得出如下優(yōu)點:①對于訓練語料相關(guān)的文本(即與訓練語料相同、相似或同領(lǐng)域的文本),EBST系統(tǒng)的分詞一詞性標注結(jié)果具有極高的準確率;②EBST系統(tǒng)的分詞一詞性標注結(jié)果與訓練語料中的分詞一詞性標注具有很好的一致性。
1.2 歧義消除研究
1.2.1 歧義類型 歧義是指同一個字符串存在不止一種切分形式。歧義字段分為交集型歧義字段(交叉歧義)、組合型歧義字段(覆蓋歧義)兩種。據(jù)統(tǒng)計交叉歧義字段占到了總歧義字段的86%,所以解決交叉歧義字段是分詞要解決的重點與難點。
1.2.2 消歧方法 目前解決歧義消除的典型方法有:
?窮舉法。找出待分析字串所有可能的詞,該方法簡單,但時間開銷大,實用性不強。多數(shù)時候采用雙向匹配算法,正向匹配結(jié)果與逆向匹配結(jié)果一致,分詞正確,否則分詞有歧義。
?聯(lián)想一回溯法。李國臣等提出聯(lián)想一回溯法,先將待切分的漢字符號串序列依特征詞詞庫分割為若干子串,每個子串或為詞或為詞群(幾個詞組合而成的線性序列),然后利用實詞詞庫和規(guī)則庫再將詞群細分為詞。分詞時,利用了一定語法知識。聯(lián)想和回溯機制同時作用于分割和細分兩個階段,旨在有效解決歧義組合結(jié)構(gòu)的切分問題。
?詞性標注。白拴虎利用馬爾可夫鏈的詞性標注技術(shù)結(jié)合分詞算法消解切分歧義,其他學者也有類似成果出現(xiàn)。
?EM(Expectation Maximization)法。王偉等提出基于EM思想,每個句子所對應(yīng)的所有(或一定范圍內(nèi))的分詞結(jié)果構(gòu)成訓練集,通過這個訓練集和初始的語言模型可以估計出一個新的語言模型,最終的語言模型通過多次迭代而得到。EM是極大似然原則下的建模方法,存在過度擬合問題。
?短語匹配與語義規(guī)則法。姚繼偉、趙東范在短語結(jié)構(gòu)文法的基礎(chǔ)上,提出一種基于局部單一短語匹配和語義規(guī)則相結(jié)合的消歧方法。通過增加短語問的右嵌套規(guī)則和采用有限自動機的實現(xiàn)方式,解決了短語規(guī)則中存在冗余項的問題,提高了短語匹配效率和歧義消除類型的針對性。
1.3 未登錄詞研究
1.3.1 未登錄詞類型 未登錄詞大致包含兩大類:①新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語等;②專有名詞,如中國人名、外國譯名、地名、機構(gòu)名(泛指機關(guān)、團體和其他企事業(yè)單位)等。未登錄詞識別指正確識別未在詞典中出現(xiàn)的詞,未登錄詞出現(xiàn)極大影響了分詞的精度,如何解決未登錄詞識別問題成為分詞準確性的一大難題。
1.3.2 未登錄詞識別 識別第一類未登錄詞一般是先根據(jù)某種算法自動生成一張候選詞表(無監(jiān)督的機器學習策略),再人工篩選出其中的新詞并補充到詞表中。該方法需要大規(guī)模語料庫支持。第二種常用辦法是:首先依據(jù)從各類專有名詞庫中總結(jié)出的統(tǒng)計知識(如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結(jié)構(gòu)規(guī)則,在輸入句子中猜測可能成為專有名詞的漢字串并給出其置信度,之后利用對該類專有名詞有標識意義的緊鄰上下文信息如稱謂,以及全局統(tǒng)計量和局部統(tǒng)計量參見下文,進行進一步鑒定。
歸納起來,未登錄詞解決方案有兩大類:專用方法與通用方法。專用方法主要針對特定領(lǐng)域的未登錄詞如中文人名、中文地名、中文機構(gòu)名等識別,此類方法主要基于專有詞庫與規(guī)則展開。通用方法則重在解決所有類別的未登錄詞識別問題,前面列舉的機械分詞、理解分詞、統(tǒng)計分詞方法就是一種通用方法。
?專有名詞庫。對中文人名、地名、機構(gòu)名等分別建立詞庫,該方法需要搜集特定資源并制定特定算法,信息集成難度大。
?啟發(fā)式規(guī)則。通過前后綴的修飾詞發(fā)現(xiàn)人名等未登錄詞。如“先生張三”,前面“先生”就是一個特定的修飾詞,一般后面緊接著是人名。鄭家恒將中文姓氏用字進行歸類,并利用分類信息建立規(guī)則以識別“小張”、“老李”之類的人名,并且有效地區(qū)分出“張”“李”等字的量詞用法。
?通用解決方案。不針對特定的未登錄詞設(shè)計算法,適用于各種類型的未登錄詞。前述三種主流分詞及組合算法則屬于通用解決方案。另外,呂雅娟等對中同人名、中國地名、外國譯名進行整體識別為目標,采用分解處理策略降低了整體處理難度,并使用動態(tài)規(guī)劃方法實現(xiàn)了最佳路徑的搜索,較好地解決了未登錄詞之間的沖突問題。秦文、苑春法提出了決策樹的未登錄詞識別方法,適用各種未登錄詞識別。
1.4 分詞與詞性標注評測
各種算法優(yōu)劣需要在真實文本上以較大規(guī)模、客觀、定量的方式進行公開公正評測,它是推動中文信息處理研究的重要手段。楊爾弘等介紹了2003年“863中文與接口技術(shù)”漢語自動分詞與詞性標注一體化評測內(nèi)容、評測方法、測試試題的選擇與產(chǎn)生、測試指標以及測試結(jié)果,各種測試結(jié)果以精確率、召回率、F值度量,并對參評系統(tǒng)的切分和標注錯誤進行了總結(jié)。
2 分詞系統(tǒng)研究
中文分詞系統(tǒng)是利用計算機對中文文本進行詞語自動識別的系統(tǒng)。一個高效的、性能優(yōu)良的中文分詞系統(tǒng)應(yīng)該具備幾個基本要素:分詞精度、分詞速度、系統(tǒng)可維護性、通用性、適應(yīng)性;诜衷~系統(tǒng)特點,將分詞系統(tǒng)研究分為早期自動分詞系統(tǒng)與現(xiàn)代分詞系統(tǒng)研究兩部分。
2.1 早期自動分詞系統(tǒng)
20世紀80年代初有學者開始研究自動分詞系統(tǒng),陸續(xù)有一些實用性系統(tǒng)出現(xiàn)。典型的有:CDWS分詞系統(tǒng)、漢語自動分詞系統(tǒng)-NEWS L321、書面漢語自動分詞專家系統(tǒng)等。由于受硬件條件及分詞技術(shù)影響,早期分詞實用系統(tǒng)在分詞速度與精度上還不夠理想,實用性不高。但這些實用分詞系統(tǒng)的出現(xiàn)為后續(xù)分詞系統(tǒng)設(shè)計打下了良好基礎(chǔ)。
2.2 現(xiàn)代分詞系統(tǒng)
2.2.1 中國科學院計算所漢語詞法分析系統(tǒng) ICT-CLAS ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System)是中國科學院計算技術(shù)研究所研制,主要功能包括中文分詞,詞性標注,命名實體識別,新詞識別;支持用戶同典,繁體中文,GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。目前ICTCLAS3.0分詞速度單機為996KB/s,分詞精度為98.45%,AP[不超過200KB,各種淵典數(shù)據(jù)壓縮后不到3M。
2.2.2 海量智能分詞研究版 海量智能分詞系統(tǒng)較好地解決了分詞領(lǐng)域中的兩大技術(shù)難題:歧義切分和新詞的識別,分詞準確率達到99.6%,分同效率為2000萬字/分鐘。其中組合歧義的處理一直是分詞領(lǐng)域的難點中的難點,海量分詞系統(tǒng)能對絕大多數(shù)的組合歧義進行正確的切分。在新詞的識別上,針對不同類型采用不同識別算法,其中包括對人名、音譯詞、機構(gòu)團體名稱、數(shù)量詞等新同的識別,其準確率比較高。
由于計算機硬件技術(shù)的大幅提升,分詞技術(shù)的逐步成熟,現(xiàn)在分詞系統(tǒng)在歧義消除、未登錄詞識別方面取得較大進展,分詞速度與精度明顯提高,實際性越來越強,為中文信息處理帶來極大方便。
3 結(jié)語
歧義消除與未登錄詞識別還是目前中文分詞研究領(lǐng)域難點問題,各種算法圍繞兩大難題展開。論文歸納出中文分詞研究熱點:①創(chuàng)新算法,研究者需在更廣泛的方法論上探討算法,創(chuàng)新提出一攬子方案,設(shè)計出通用的解決歧義與未登錄詞識別的方法,提高分詞精度與速度。②統(tǒng)計組合算法,目前大量文獻集中于統(tǒng)計分詞研究,基于統(tǒng)計的分詞及與其他方法的組合足以后研究熱點,將會給中文分詞技術(shù)帶來實質(zhì)性突破。
相關(guān)熱詞搜索:分詞 技術(shù)研究 中文 國內(nèi)中文自動分詞技術(shù)研究綜述 網(wǎng)絡(luò)技術(shù)研究綜述 蛋品加工技術(shù)研究綜述
熱點文章閱讀