中文信息處理 [基于中文信息處理的古籍整理研究評述]
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
[摘要]隨著計算機技術的飛速發(fā)展,基于中文信息處理的古籍整理已成為近年來的研究熱點,并且取得一些可喜的成績。在搜集整理當前研究與應用成果的基礎上,從古籍的自動錄入、自動斷句、自動編纂以及自動翻譯等方面對基于中文信息處理技術的古籍整理的研究現(xiàn)狀進行概述,同時分別探討這幾個方面仍然存在的問題,并展望其今后的研究工作。
[關鍵詞]古籍整理 中文信息處理 古籍研究
[分類號]G252.7
1 引言
在人類幾千年的歷史發(fā)展中,我們的先祖利用文言撰寫了大量的作品,例如:史書、筆記、方志、字書、詩詞、雜考等等。這些浩如煙海的古籍記載了華夏民族的歷史和輝煌,是極其珍貴的文化遺產。因此如何對它們進行有效地整理和深入地研究是我們當代科研工作者責無旁貸的任務。傳統(tǒng)古籍整理的方式一般都是人為的手工方式,這是一項極艱難極復雜的工作,需要大量的時間和耐心。但當計算機出現(xiàn)以后,人們就期盼能用計算機來進行古籍整理研究,而中文信息處理技術就是實現(xiàn)這一美好愿望的有效手段。
現(xiàn)在對中文信息處理通常的理解是:用計算機來加工處理中文的信息,屬于涉及計算機科學、認知科學、語言學、信息學、數(shù)學、聲學等多種學科的一門綜合性交叉學科。中文信息處理包含漢字輸入、文字識別、語音識別、漢語分詞、語義分析、語言翻譯、信息檢索等多個分支。漢字輸入就是指將漢字信息輸入到計算機,常見的輸入方法有鍵盤輸入和聯(lián)機手寫輸入;文字識別是指用計算機自動地識別出寫在介質上的漢字,文字識別一般可分為印刷體識別和手寫體識別兩種;語音識別是計算機通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋疚募蛎畹男畔⑻幚砑夹g,具有代表性的方法主要有隱馬爾可夫法和神經網(wǎng)絡法;漢語分詞就是指利用計算機自動地將一個句子中的每個詞分開,即類似于英語中用空格將每個單詞隔開,目前的分詞方法歸納起來有三種類型:機械分詞法、語義分詞法和人工智能法;語義分析指的是在分析句子的句法結構和辨析句中每個詞詞義的基礎上,推導句義的形式化表示;語言翻譯就是用計算機來實現(xiàn)不同語言之間的翻譯,被翻譯的語言通常稱作源語言,翻譯成的結果語言稱作目標語言;信息檢索是指計算機通過特定的算法或模型從各種信息文檔中搜索有價值的信息或知識的一種高技術。當前越來越多的研究者將這些中文信息處理技術應用于古籍整理研究中,尤其是在古籍的錄入、標點、編纂等方面獲得了顯著的成果。
2 古籍自動錄入
傳統(tǒng)的古籍錄入方式多采用手工的形式,通過人為的鍵盤輸入或是聯(lián)機手寫輸入的方式將古籍中的文字輸入計算機,這種方法要花費大量的人力和時間,而且容易出錯。因此要實現(xiàn)古籍中的文字信息高速、自動輸入到計算機,目前多采用光學字符識別(OCR)技術來進行古籍的錄入。OCR技術可以高速地辨別紙張上的文字,并將其轉化為可編輯的文字。古籍自動錄入大致要經過圖像掃描、預處理、版面分析、文字區(qū)域提取、文字識別、后處理等幾個步驟,具體過程如圖1所示:
古籍自動錄入技術運用比較成功的例子是“數(shù)碼翰林”軟件,該軟件已經制作了保持原書排版風格的《四庫全書》及《四部叢刊》等電子圖書。古籍自動錄入技術最主要體現(xiàn)在古籍的數(shù)字化工作中,而到目前為止古籍數(shù)字化已經取得了豐碩的成果,大量的古籍數(shù)據(jù)庫檢索系統(tǒng)不斷涌現(xiàn),例如北京大學的《全唐詩》和《全宋詩》電子檢索系統(tǒng)、陜西師范大學的《二十五史》全文檢索系統(tǒng)以及臺灣大學的中華電子佛典線上藏經閣大正藏全文檢索系統(tǒng)等等。
盡管已經有了成功應用的實例,但是當前古籍的自動錄入依然面臨著如下問題:
?古籍自動錄入的優(yōu)劣依賴于文字識別的質量,然而文字識別本身就存在著諸如漢字類別較大、漢字結構復雜且相似字較多等困難。
?現(xiàn)在的計算機漢字字庫中缺少古籍中經常出現(xiàn)的冷僻字和異體字,例如漢字的賦中,作家為了炫耀自己的才能,往往羅列很多生僻字,有“字林”之譏,如《上林賦》、《子虛賦》,等等。
?經常會由于儀器硬件設備的問題或古籍中的字跡不清晰,造成圖像掃描質量差且存在大量噪聲,從而使得文字識別率低。
針對上述問題,今后研究工作的重心應該放在提高文字識別的效率和完善漢字字庫上來,尤其是前者,魯棒性更強的文字識別技術對于古籍的自動識別是至關重要的。
3 古籍自動斷句
與現(xiàn)代人不同,古人寫文章是不用標點符號的,因此要正確理解古籍中文章的詞義或句義,就需要斷句。斷句就是指把沒有標點符號的文字,整理成為清晰可讀的句子。傳統(tǒng)的方式多為人工斷句,這種方式費時費力,因此最近很多研究者開始嘗試利用計算機來實現(xiàn)古籍的自動斷句。古籍自動斷句的,大致要經過文本預處理、文本斷句、結果反饋等幾個步驟,如圖2所示:
近年來,古籍的自動斷句開始成為研究的熱點。文獻中不僅給出了農業(yè)古籍斷句的系統(tǒng)結構圖,而且還給出了一種基于模式匹配的斷句方法;該方法首先采用句法特征詞法、同義語標志詞法來進行初步斷句,然后利用反義復合詞、引書標志、時序、數(shù)量詞、重疊詞、動名結構及比較句法進一步進行斷句,最后使用農業(yè)用語和禁用模式來提高農業(yè)古籍斷句的準確性。文獻提出了一種基于前后N-gram模型的古漢語斷句算法;N-gram模型又稱作N元語法模型,它是一種基于統(tǒng)計的文本模型,其基本思想是將文本內容按字節(jié)流進行大小為N的滑動窗口操作,形成長度為N的字節(jié)片段序列,每個字節(jié)片段稱為gram,對全部gram的出現(xiàn)頻率進行統(tǒng)計,并根據(jù)統(tǒng)計結果和預先設定的閾值對文本建立模型。文獻提出了一種以兩個統(tǒng)計量互信息和測試差為特征的條件隨機場模型,并將該模型應用于古文的自動斷句;條件隨機場模型是一種對數(shù)線性判別模型,它最早由Lafferty等人提出,目的是為了解決當時各種序列標注模型存在的標注偏置等問題,該模型在中文信息處理領域有著非常廣泛的應用。
盡管目前古籍自動斷句的研究取得了一定的成績,但是仍然存在著如下的問題:
?當前的一些方法獲得的古籍斷句的準確率很低,例如:文獻中的準確率大概為48%,而文獻中的準確率則為52%。
?自動斷句方法僅僅在少量的古籍中進行驗證,因此方法缺乏較好的泛化性,例如:文獻和文獻中的實驗只在《論語》和《史記》進行。
正是由于上述問題的存在,古籍自動斷句的研究才急切地呼喚著更多性能卓越的新方法的出現(xiàn),漢語分詞技術則可能是在今后會成為實現(xiàn)古籍自動斷句的重要手段,而最近的文獻中就已經給出了相關的古漢語分詞方法。
4 古籍自動編纂
古籍的編纂就是指按照相關的主題來編輯古籍文獻。與錄入和斷句一樣,傳統(tǒng)的手工編纂,勞動量巨大,且繁瑣乏味的機械工作帶來更多的是低效率和高成本,因此利用計算機自動編纂古籍已成為大勢所趨。 古籍自動編纂需要確定編纂主題、文檔分析、文檔編纂等步驟,一般流程如圖3所示:
到目前為止與古籍自動編纂相關的文獻也有不少,文獻中介紹了一種農業(yè)古籍自動編纂方法,該方法的主要原理是:如果兩個句子包含相同的單詞越多,那么它們的關系越密切,然后根據(jù)句子間的密切關系劃分出句群,如果發(fā)現(xiàn)某一句群包含編纂的主題,則將其摘錄出來,在實際應用中,文獻通過提取子句關鍵詞、計算緊湊度和深度值等方式來最終實現(xiàn)農業(yè)古籍的自動編纂。此外,文獻中以《道德經》語詞索引自動編纂為例探討了古籍索引機編的相關問題。文獻中給出了一種基于N-gram模型、詞頻統(tǒng)計等算法的古籍文本抽詞方法,該方法的功能是從古籍文本中提取出大量明確表達文獻主題內容的單義詞,主要的應用場合包括各種詞表的編制以及索引的編制等等。
古籍的自動編纂是古籍整理的基礎,高質量的編纂對于古籍的研究具有非常重要的意義。然而目前古籍自動編纂的研究尚處于起步階段,因此這項工作還有更多需要解讀的技術難題,例如:文檔的分割、子句的劃分等等。盡管文獻中認為古籍自動編纂與中文信息處理中的自動文摘技術既有聯(lián)系又有區(qū)別,兩者并不通用。但是筆者認為隨著中文信息處理技術的發(fā)展以及古籍自動整理研究工作的深入,在今后自動文摘算法的思想是可以為古籍自動編纂所吸收和借鑒的,例如:基于統(tǒng)計的自動文摘技術就可以通過改進用于古籍的自動編纂,而且有理由相信隨著未來用戶需求的變化,基于理解的自動文摘技術和基于信息抽取的自動文摘技術也將會對古籍自動編纂研究的發(fā)展起到巨大的推動作用。
5 古籍自動翻譯
由于語言習慣的逐漸發(fā)展,現(xiàn)代人如果不經過專業(yè)訓練,如果沒有古漢語知識的積累,那么在面對古代文獻時,總會感覺生澀難懂,而這些珍貴的古代文獻中不僅記載著中華民族的悠久歷史和燦爛的文化,而且凝聚著古代千千萬萬勞動人民的智慧與經驗,因此要讓更多的中國人認識和理解古籍文獻、學習和傳播古籍知識,古籍的翻譯是至關重要的前提。對于汗牛充棟的古籍。人工翻譯顯然是不現(xiàn)實的做法,而與計算機相結合的古籍自動翻譯則更為切實可行。簡單流程如圖4所示:
目前有關古籍自動翻譯的文獻非常少,僅文獻和文獻有涉及這方面的內容。文獻中采用相對比較成熟的規(guī)則翻譯方法和實例庫相結合,利用中文信息處理技術的一些研究成果,初步構造了一個古文自動翻譯系統(tǒng)。文獻中設計與實現(xiàn)了古今漢語自動句對齊及相似古文句子檢索算法,并且提出從大量的古今互譯實例中檢索與輸入句子最相似的源句子是基于實例的古今漢語機器翻譯必須解決的首要問題。
盡管當前鮮有人進行古籍自動翻譯的研究,但是并不表示這項工作沒有可研究之處,在今后,古籍自動翻譯的研究可以在如下方面做出初步的嘗試:
?將最新的實用機器翻譯技術用于古籍的翻譯。機器翻譯簡單地說就是用計算機將一種自然語言在沒有人參與的情況下翻譯為另一種自然語言,目前機器翻譯方法主要包括:基于規(guī)則的機器翻譯方法、基于中間語言的機器翻譯方法、基于實例的機器翻譯方法和統(tǒng)計機器翻譯方法。使用機器翻譯技術可以對古籍自動翻譯的研究產生重要的推動作用。
?設計古籍自動翻譯的評價方法。當計算機翻譯了一段古文或一本古籍以后,翻譯的質量如何是需要有一個衡量尺度的,因此研究古籍自動翻譯的評價方法有著非常重要的意義,當前其評價方法可以采納或借鑒英漢機器翻譯的評價方法,例如:基于句法結構的評價方法和基于測試集的評價方法等等。
?古文的英譯,即將文言文翻譯成英語。隨著社會的不斷發(fā)展,古文英譯可以更好地向西方展現(xiàn)輝煌的中華文明,促進中西方文化的交流。
6 其他方面
基于中文信息處理的古籍整理除了古籍錄入、斷句、編纂和翻譯之外,還有如下方面值得今后進一步的研究:
?古籍自動校勘。一個古籍可能又有多個版本,各版本之間由于傳抄、印刻中出現(xiàn)的差錯,而造成內容差別很大,因此需要對古籍進行?。古籍自動?笔侵咐糜嬎銠C自動發(fā)現(xiàn)并標記出古籍不同版本之間的文字差異,并提供各種輔助工具幫助專家勘誤。盡管文獻中開發(fā)了古籍自動校勘系統(tǒng),但是其屬于實驗系統(tǒng),缺乏實用性,并且自動?彼惴ㄒ灿写倪M。
?古籍自動箋注。箋注工作的目的是通過注釋古籍中的一些冷僻字詞、典故出處等等來增強古籍的可讀性。文獻和中提出用計算機來完成古籍的箋注是行之有效的方法。
?輔助古典文學的研究。文獻中運用了大量的篇幅來說明將中文信息處理中的信息檢索和語義分析等技術用于古典文學研究的重要性與可行性,而文獻則更是設計了一個對聯(lián)應對程序。
7 結語
基于中文信息處理的古籍整理研究還處于初級階段,當前僅僅在使用古籍自動錄入技術的古籍數(shù)字化工作上取得了豐富的實際成果,其他方面均缺少實用性和通用性強的成果,更多的只是在論文上見到的實驗性結果,因此許多相關工作亟待科研工作者深入的研究和實踐。此外,現(xiàn)階段既精通信息處理技術,又熟悉文言知識的人才非常缺乏,因此急需大力培養(yǎng)相關人才。盡管尚待解決的問題還很多,但是相信經過眾多研究者的通力合作與不懈努力,新的基于中文信息處理古籍自動整理的方法將不斷涌現(xiàn),計算機代替手工來進行古籍整理的美好愿望必將實現(xiàn)。
相關熱詞搜索:評述 古籍 中文 基于中文信息處理的古籍整理研究評述 古籍整理研究學刊目錄 古籍整理研究學刊2014
熱點文章閱讀