中文信息處理 [基于中文信息處理的古籍整理研究評(píng)述]

發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄點(diǎn)擊：

　　[摘要]隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展，基于中文信息處理的古籍整理已成為近年來(lái)的研究熱點(diǎn)，并且取得一些可喜的成績(jī)。在搜集整理當(dāng)前研究與應(yīng)用成果的基礎(chǔ)上，從古籍的自動(dòng)錄入、自動(dòng)斷句、自動(dòng)編纂以及自動(dòng)翻譯等方面對(duì)基于中文信息處理技術(shù)的古籍整理的研究現(xiàn)狀進(jìn)行概述，同時(shí)分別探討這幾個(gè)方面仍然存在的問(wèn)題，并展望其今后的研究工作。
　　[關(guān)鍵詞]古籍整理　中文信息處理　古籍研究
　　[分類號(hào)]G252.7
　　
　　1　引言
　　
　　在人類幾千年的歷史發(fā)展中，我們的先祖利用文言撰寫(xiě)了大量的作品，例如：史書(shū)、筆記、方志、字書(shū)、詩(shī)詞、雜考等等。這些浩如煙海的古籍記載了華夏民族的歷史和輝煌，是極其珍貴的文化遺產(chǎn)。因此如何對(duì)它們進(jìn)行有效地整理和深入地研究是我們當(dāng)代科研工作者責(zé)無(wú)旁貸的任務(wù)。傳統(tǒng)古籍整理的方式一般都是人為的手工方式，這是一項(xiàng)極艱難極復(fù)雜的工作，需要大量的時(shí)間和耐心。但當(dāng)計(jì)算機(jī)出現(xiàn)以后，人們就期盼能用計(jì)算機(jī)來(lái)進(jìn)行古籍整理研究，而中文信息處理技術(shù)就是實(shí)現(xiàn)這一美好愿望的有效手段。
　　現(xiàn)在對(duì)中文信息處理通常的理解是：用計(jì)算機(jī)來(lái)加工處理中文的信息，屬于涉及計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、語(yǔ)言學(xué)、信息學(xué)、數(shù)學(xué)、聲學(xué)等多種學(xué)科的一門綜合性交叉學(xué)科。中文信息處理包含漢字輸入、文字識(shí)別、語(yǔ)音識(shí)別、漢語(yǔ)分詞、語(yǔ)義分析、語(yǔ)言翻譯、信息檢索等多個(gè)分支。漢字輸入就是指將漢字信息輸入到計(jì)算機(jī)，常見(jiàn)的輸入方法有鍵盤輸入和聯(lián)機(jī)手寫(xiě)輸入；文字識(shí)別是指用計(jì)算機(jī)自動(dòng)地識(shí)別出寫(xiě)在介質(zhì)上的漢字，文字識(shí)別一般可分為印刷體識(shí)別和手寫(xiě)體識(shí)別兩種；語(yǔ)音識(shí)別是計(jì)算機(jī)通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本文件或命令的信息處理技術(shù)，具有代表性的方法主要有隱馬爾可夫法和神經(jīng)網(wǎng)絡(luò)法；漢語(yǔ)分詞就是指利用計(jì)算機(jī)自動(dòng)地將一個(gè)句子中的每個(gè)詞分開(kāi)，即類似于英語(yǔ)中用空格將每個(gè)單詞隔開(kāi)，目前的分詞方法歸納起來(lái)有三種類型：機(jī)械分詞法、語(yǔ)義分詞法和人工智能法；語(yǔ)義分析指的是在分析句子的句法結(jié)構(gòu)和辨析句中每個(gè)詞詞義的基礎(chǔ)上，推導(dǎo)句義的形式化表示；語(yǔ)言翻譯就是用計(jì)算機(jī)來(lái)實(shí)現(xiàn)不同語(yǔ)言之間的翻譯，被翻譯的語(yǔ)言通常稱作源語(yǔ)言，翻譯成的結(jié)果語(yǔ)言稱作目標(biāo)語(yǔ)言；信息檢索是指計(jì)算機(jī)通過(guò)特定的算法或模型從各種信息文檔中搜索有價(jià)值的信息或知識(shí)的一種高技術(shù)。當(dāng)前越來(lái)越多的研究者將這些中文信息處理技術(shù)應(yīng)用于古籍整理研究中，尤其是在古籍的錄入、標(biāo)點(diǎn)、編纂等方面獲得了顯著的成果。
　　
　　2　古籍自動(dòng)錄入
　　
　　傳統(tǒng)的古籍錄入方式多采用手工的形式，通過(guò)人為的鍵盤輸入或是聯(lián)機(jī)手寫(xiě)輸入的方式將古籍中的文字輸入計(jì)算機(jī)，這種方法要花費(fèi)大量的人力和時(shí)間，而且容易出錯(cuò)。因此要實(shí)現(xiàn)古籍中的文字信息高速、自動(dòng)輸入到計(jì)算機(jī)，目前多采用光學(xué)字符識(shí)別(OCR)技術(shù)來(lái)進(jìn)行古籍的錄入。OCR技術(shù)可以高速地辨別紙張上的文字，并將其轉(zhuǎn)化為可編輯的文字。古籍自動(dòng)錄入大致要經(jīng)過(guò)圖像掃描、預(yù)處理、版面分析、文字區(qū)域提取、文字識(shí)別、后處理等幾個(gè)步驟，具體過(guò)程如圖1所示：
　　
　　古籍自動(dòng)錄入技術(shù)運(yùn)用比較成功的例子是“數(shù)碼翰林”軟件，該軟件已經(jīng)制作了保持原書(shū)排版風(fēng)格的《四庫(kù)全書(shū)》及《四部叢刊》等電子圖書(shū)。古籍自動(dòng)錄入技術(shù)最主要體現(xiàn)在古籍的數(shù)字化工作中，而到目前為止古籍?dāng)?shù)字化已經(jīng)取得了豐碩的成果，大量的古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)不斷涌現(xiàn)，例如北京大學(xué)的《全唐詩(shī)》和《全宋詩(shī)》電子檢索系統(tǒng)、陜西師范大學(xué)的《二十五史》全文檢索系統(tǒng)以及臺(tái)灣大學(xué)的中華電子佛典線上藏經(jīng)閣大正藏全文檢索系統(tǒng)等等。
　　盡管已經(jīng)有了成功應(yīng)用的實(shí)例，但是當(dāng)前古籍的自動(dòng)錄入依然面臨著如下問(wèn)題：
　　?古籍自動(dòng)錄入的優(yōu)劣依賴于文字識(shí)別的質(zhì)量，然而文字識(shí)別本身就存在著諸如漢字類別較大、漢字結(jié)構(gòu)復(fù)雜且相似字較多等困難。
　　?現(xiàn)在的計(jì)算機(jī)漢字字庫(kù)中缺少古籍中經(jīng)常出現(xiàn)的冷僻字和異體字，例如漢字的賦中，作家為了炫耀自己的才能，往往羅列很多生僻字，有“字林”之譏，如《上林賦》、《子虛賦》，等等。
　　?經(jīng)常會(huì)由于儀器硬件設(shè)備的問(wèn)題或古籍中的字跡不清晰，造成圖像掃描質(zhì)量差且存在大量噪聲，從而使得文字識(shí)別率低。
　　針對(duì)上述問(wèn)題，今后研究工作的重心應(yīng)該放在提高文字識(shí)別的效率和完善漢字字庫(kù)上來(lái)，尤其是前者，魯棒性更強(qiáng)的文字識(shí)別技術(shù)對(duì)于古籍的自動(dòng)識(shí)別是至關(guān)重要的。
　　
　　3　古籍自動(dòng)斷句
　　
　　與現(xiàn)代人不同，古人寫(xiě)文章是不用標(biāo)點(diǎn)符號(hào)的，因此要正確理解古籍中文章的詞義或句義，就需要斷句。斷句就是指把沒(méi)有標(biāo)點(diǎn)符號(hào)的文字，整理成為清晰可讀的句子。傳統(tǒng)的方式多為人工斷句，這種方式費(fèi)時(shí)費(fèi)力，因此最近很多研究者開(kāi)始嘗試?yán)糜?jì)算機(jī)來(lái)實(shí)現(xiàn)古籍的自動(dòng)斷句。古籍自動(dòng)斷句的，大致要經(jīng)過(guò)文本預(yù)處理、文本斷句、結(jié)果反饋等幾個(gè)步驟，如圖2所示：
　　
　　近年來(lái)，古籍的自動(dòng)斷句開(kāi)始成為研究的熱點(diǎn)。文獻(xiàn)中不僅給出了農(nóng)業(yè)古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖，而且還給出了一種基于模式匹配的斷句方法；該方法首先采用句法特征詞法、同義語(yǔ)標(biāo)志詞法來(lái)進(jìn)行初步斷句，然后利用反義復(fù)合詞、引書(shū)標(biāo)志、時(shí)序、數(shù)量詞、重疊詞、動(dòng)名結(jié)構(gòu)及比較句法進(jìn)一步進(jìn)行斷句，最后使用農(nóng)業(yè)用語(yǔ)和禁用模式來(lái)提高農(nóng)業(yè)古籍?dāng)嗑涞臏?zhǔn)確性。文獻(xiàn)提出了一種基于前后N-gram模型的古漢語(yǔ)斷句算法；N-gram模型又稱作N元語(yǔ)法模型，它是一種基于統(tǒng)計(jì)的文本模型，其基本思想是將文本內(nèi)容按字節(jié)流進(jìn)行大小為N的滑動(dòng)窗口操作，形成長(zhǎng)度為N的字節(jié)片段序列，每個(gè)字節(jié)片段稱為gram，對(duì)全部gram的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)，并根據(jù)統(tǒng)計(jì)結(jié)果和預(yù)先設(shè)定的閾值對(duì)文本建立模型。文獻(xiàn)提出了一種以兩個(gè)統(tǒng)計(jì)量互信息和測(cè)試差為特征的條件隨機(jī)場(chǎng)模型，并將該模型應(yīng)用于古文的自動(dòng)斷句；條件隨機(jī)場(chǎng)模型是一種對(duì)數(shù)線性判別模型，它最早由Lafferty等人提出，目的是為了解決當(dāng)時(shí)各種序列標(biāo)注模型存在的標(biāo)注偏置等問(wèn)題，該模型在中文信息處理領(lǐng)域有著非常廣泛的應(yīng)用。
　　盡管目前古籍自動(dòng)斷句的研究取得了一定的成績(jī)，但是仍然存在著如下的問(wèn)題：
　　?當(dāng)前的一些方法獲得的古籍?dāng)嗑涞臏?zhǔn)確率很低，例如：文獻(xiàn)中的準(zhǔn)確率大概為48％，而文獻(xiàn)中的準(zhǔn)確率則為52％。
　　?自動(dòng)斷句方法僅僅在少量的古籍中進(jìn)行驗(yàn)證，因此方法缺乏較好的泛化性，例如：文獻(xiàn)和文獻(xiàn)中的實(shí)驗(yàn)只在《論語(yǔ)》和《史記》進(jìn)行。
　　正是由于上述問(wèn)題的存在，古籍自動(dòng)斷句的研究才急切地呼喚著更多性能卓越的新方法的出現(xiàn)，漢語(yǔ)分詞技術(shù)則可能是在今后會(huì)成為實(shí)現(xiàn)古籍自動(dòng)斷句的重要手段，而最近的文獻(xiàn)中就已經(jīng)給出了相關(guān)的古漢語(yǔ)分詞方法。
　　
　　4　古籍自動(dòng)編纂
　　
　　古籍的編纂就是指按照相關(guān)的主題來(lái)編輯古籍文獻(xiàn)。與錄入和斷句一樣，傳統(tǒng)的手工編纂，勞動(dòng)量巨大，且繁瑣乏味的機(jī)械工作帶來(lái)更多的是低效率和高成本，因此利用計(jì)算機(jī)自動(dòng)編纂古籍已成為大勢(shì)所趨。古籍自動(dòng)編纂需要確定編纂主題、文檔分析、文檔編纂等步驟，一般流程如圖3所示：
　　
　　到目前為止與古籍自動(dòng)編纂相關(guān)的文獻(xiàn)也有不少，文獻(xiàn)中介紹了一種農(nóng)業(yè)古籍自動(dòng)編纂方法，該方法的主要原理是：如果兩個(gè)句子包含相同的單詞越多，那么它們的關(guān)系越密切，然后根據(jù)句子間的密切關(guān)系劃分出句群，如果發(fā)現(xiàn)某一句群包含編纂的主題，則將其摘錄出來(lái)，在實(shí)際應(yīng)用中，文獻(xiàn)通過(guò)提取子句關(guān)鍵詞、計(jì)算緊湊度和深度值等方式來(lái)最終實(shí)現(xiàn)農(nóng)業(yè)古籍的自動(dòng)編纂。此外，文獻(xiàn)中以《道德經(jīng)》語(yǔ)詞索引自動(dòng)編纂為例探討了古籍索引機(jī)編的相關(guān)問(wèn)題。文獻(xiàn)中給出了一種基于N-gram模型、詞頻統(tǒng)計(jì)等算法的古籍文本抽詞方法，該方法的功能是從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞，主要的應(yīng)用場(chǎng)合包括各種詞表的編制以及索引的編制等等。
　　古籍的自動(dòng)編纂是古籍整理的基礎(chǔ)，高質(zhì)量的編纂對(duì)于古籍的研究具有非常重要的意義。然而目前古籍自動(dòng)編纂的研究尚處于起步階段，因此這項(xiàng)工作還有更多需要解讀的技術(shù)難題，例如：文檔的分割、子句的劃分等等。盡管文獻(xiàn)中認(rèn)為古籍自動(dòng)編纂與中文信息處理中的自動(dòng)文摘技術(shù)既有聯(lián)系又有區(qū)別，兩者并不通用。但是筆者認(rèn)為隨著中文信息處理技術(shù)的發(fā)展以及古籍自動(dòng)整理研究工作的深入，在今后自動(dòng)文摘算法的思想是可以為古籍自動(dòng)編纂所吸收和借鑒的，例如：基于統(tǒng)計(jì)的自動(dòng)文摘技術(shù)就可以通過(guò)改進(jìn)用于古籍的自動(dòng)編纂，而且有理由相信隨著未來(lái)用戶需求的變化，基于理解的自動(dòng)文摘技術(shù)和基于信息抽取的自動(dòng)文摘技術(shù)也將會(huì)對(duì)古籍自動(dòng)編纂研究的發(fā)展起到巨大的推動(dòng)作用。
　　
　　5　古籍自動(dòng)翻譯
　　
　　由于語(yǔ)言習(xí)慣的逐漸發(fā)展，現(xiàn)代人如果不經(jīng)過(guò)專業(yè)訓(xùn)練，如果沒(méi)有古漢語(yǔ)知識(shí)的積累，那么在面對(duì)古代文獻(xiàn)時(shí)，總會(huì)感覺(jué)生澀難懂，而這些珍貴的古代文獻(xiàn)中不僅記載著中華民族的悠久歷史和燦爛的文化，而且凝聚著古代千千萬(wàn)萬(wàn)勞動(dòng)人民的智慧與經(jīng)驗(yàn)，因此要讓更多的中國(guó)人認(rèn)識(shí)和理解古籍文獻(xiàn)、學(xué)習(xí)和傳播古籍知識(shí)，古籍的翻譯是至關(guān)重要的前提。對(duì)于汗牛充棟的古籍。人工翻譯顯然是不現(xiàn)實(shí)的做法，而與計(jì)算機(jī)相結(jié)合的古籍自動(dòng)翻譯則更為切實(shí)可行。簡(jiǎn)單流程如圖4所示：
　　
　　目前有關(guān)古籍自動(dòng)翻譯的文獻(xiàn)非常少，僅文獻(xiàn)和文獻(xiàn)有涉及這方面的內(nèi)容。文獻(xiàn)中采用相對(duì)比較成熟的規(guī)則翻譯方法和實(shí)例庫(kù)相結(jié)合，利用中文信息處理技術(shù)的一些研究成果，初步構(gòu)造了一個(gè)古文自動(dòng)翻譯系統(tǒng)。文獻(xiàn)中設(shè)計(jì)與實(shí)現(xiàn)了古今漢語(yǔ)自動(dòng)句對(duì)齊及相似古文句子檢索算法，并且提出從大量的古今互譯實(shí)例中檢索與輸入句子最相似的源句子是基于實(shí)例的古今漢語(yǔ)機(jī)器翻譯必須解決的首要問(wèn)題。
　　盡管當(dāng)前鮮有人進(jìn)行古籍自動(dòng)翻譯的研究，但是并不表示這項(xiàng)工作沒(méi)有可研究之處，在今后，古籍自動(dòng)翻譯的研究可以在如下方面做出初步的嘗試：
　　?將最新的實(shí)用機(jī)器翻譯技術(shù)用于古籍的翻譯。機(jī)器翻譯簡(jiǎn)單地說(shuō)就是用計(jì)算機(jī)將一種自然語(yǔ)言在沒(méi)有人參與的情況下翻譯為另一種自然語(yǔ)言，目前機(jī)器翻譯方法主要包括：基于規(guī)則的機(jī)器翻譯方法、基于中間語(yǔ)言的機(jī)器翻譯方法、基于實(shí)例的機(jī)器翻譯方法和統(tǒng)計(jì)機(jī)器翻譯方法。使用機(jī)器翻譯技術(shù)可以對(duì)古籍自動(dòng)翻譯的研究產(chǎn)生重要的推動(dòng)作用。
　　?設(shè)計(jì)古籍自動(dòng)翻譯的評(píng)價(jià)方法。當(dāng)計(jì)算機(jī)翻譯了一段古文或一本古籍以后，翻譯的質(zhì)量如何是需要有一個(gè)衡量尺度的，因此研究古籍自動(dòng)翻譯的評(píng)價(jià)方法有著非常重要的意義，當(dāng)前其評(píng)價(jià)方法可以采納或借鑒英漢機(jī)器翻譯的評(píng)價(jià)方法，例如：基于句法結(jié)構(gòu)的評(píng)價(jià)方法和基于測(cè)試集的評(píng)價(jià)方法等等。
　　?古文的英譯，即將文言文翻譯成英語(yǔ)。隨著社會(huì)的不斷發(fā)展，古文英譯可以更好地向西方展現(xiàn)輝煌的中華文明，促進(jìn)中西方文化的交流。
　　
　　6　其他方面
　　
　　基于中文信息處理的古籍整理除了古籍錄入、斷句、編纂和翻譯之外，還有如下方面值得今后進(jìn)一步的研究：
　　?古籍自動(dòng)�？薄Ｒ粋€(gè)古籍可能又有多個(gè)版本，各版本之間由于傳抄、印刻中出現(xiàn)的差錯(cuò)，而造成內(nèi)容差別很大，因此需要對(duì)古籍進(jìn)行校勘。古籍自動(dòng)校勘是指利用計(jì)算機(jī)自動(dòng)發(fā)現(xiàn)并標(biāo)記出古籍不同版本之間的文字差異，并提供各種輔助工具幫助專家勘誤。盡管文獻(xiàn)中開(kāi)發(fā)了古籍自動(dòng)校勘系統(tǒng)，但是其屬于實(shí)驗(yàn)系統(tǒng)，缺乏實(shí)用性，并且自動(dòng)校勘算法也有待改進(jìn)。
　　?古籍自動(dòng)箋注。箋注工作的目的是通過(guò)注釋古籍中的一些冷僻字詞、典故出處等等來(lái)增強(qiáng)古籍的可讀性。文獻(xiàn)和中提出用計(jì)算機(jī)來(lái)完成古籍的箋注是行之有效的方法。
　　?輔助古典文學(xué)的研究。文獻(xiàn)中運(yùn)用了大量的篇幅來(lái)說(shuō)明將中文信息處理中的信息檢索和語(yǔ)義分析等技術(shù)用于古典文學(xué)研究的重要性與可行性，而文獻(xiàn)則更是設(shè)計(jì)了一個(gè)對(duì)聯(lián)應(yīng)對(duì)程序。
　　
　　7　結(jié)語(yǔ)
　　
　　基于中文信息處理的古籍整理研究還處于初級(jí)階段，當(dāng)前僅僅在使用古籍自動(dòng)錄入技術(shù)的古籍?dāng)?shù)字化工作上取得了豐富的實(shí)際成果，其他方面均缺少實(shí)用性和通用性強(qiáng)的成果，更多的只是在論文上見(jiàn)到的實(shí)驗(yàn)性結(jié)果，因此許多相關(guān)工作亟待科研工作者深入的研究和實(shí)踐。此外，現(xiàn)階段既精通信息處理技術(shù)，又熟悉文言知識(shí)的人才非常缺乏，因此急需大力培養(yǎng)相關(guān)人才。盡管尚待解決的問(wèn)題還很多，但是相信經(jīng)過(guò)眾多研究者的通力合作與不懈努力，新的基于中文信息處理古籍自動(dòng)整理的方法將不斷涌現(xiàn)，計(jì)算機(jī)代替手工來(lái)進(jìn)行古籍整理的美好愿望必將實(shí)現(xiàn)。

熱點(diǎn)文章閱讀

調(diào)教美文 2017-01-15
重慶最大“黑保護(hù)傘”文強(qiáng)究竟 2020-03-05
盜墓筆記美文 2017-02-10
sm美文 2017-01-25
中東恐怖分子活割人頭視頻在線 2020-03-16
王建勛：再說(shuō)“孫大午案” 2020-06-15
阜陽(yáng)法官史青峰驚看阜陽(yáng)法官 2020-03-05
警察強(qiáng)強(qiáng)耽美文 2017-02-10
有沒(méi)有重生到紅軍成立時(shí)的小說(shuō) 2022-08-16
穿越攻古代耽美文 2017-02-10

www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

中文信息處理 [基于中文信息處理的古籍整理研究評(píng)述]

熱點(diǎn)文章閱讀