www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

日記大全 蒲公英文摘 > 日記大全 >

古籍文本 [古籍文本抽詞研究]

發(fā)布時間:2020-03-07 來源: 日記大全點擊：

　　[摘要]古籍文本檢索目前大多局限于篇、章及目錄，即使是全文檢索一般也是基于單漢字的檢索，由于沒有現(xiàn)成的古籍詞表可用，古籍文本的標(biāo)引和檢索效率都受到了影響�，F(xiàn)將常用于處理現(xiàn)代文本的N元紐法移植到古籍文本中進(jìn)行實義詞提取，試驗步驟包括：自動分詞并統(tǒng)計詞頻；利用抽詞詞典和停用詞詞典得到候選詞匯；通過簡單計算對n元組進(jìn)行剔除過濾；人工判別提取實詞。試驗從古籍文本《齊民要術(shù)》中提取普通語詞和專有名詞(包括書名、地名、人名官職名)3000多個，表明此試驗方案基本可行。
　　[關(guān)鍵詞]古籍?dāng)?shù)字化　N-gram 自動分詞實義詞
　　[分類號]G252.7
　　
　　1　引　言
　　
　　“古籍”是“古書”的雅稱，國家標(biāo)準(zhǔn)的《古籍著錄規(guī)則》給的定義主要是指1912年以前在中國書寫或印刷的、具有中國古典裝訂形式的書籍，往往具有重要的史料價值和文化價值。由于古籍文獻(xiàn)跨國界、跨地區(qū)收藏，所藏種類、數(shù)量，版本、特色各有不同，各館藏又有“重藏輕用”偏向，嚴(yán)重地影響了古籍文獻(xiàn)的利用與開發(fā)。
　　為方便查找和利用古籍文獻(xiàn)，在20世紀(jì)80年代初臺灣“中央”圖書館率先開始了將館藏善本制成機(jī)讀目錄的工作。如今古籍?dāng)?shù)字化工作已取得一定的成果，如《史記》全文檢索系統(tǒng)、《紅樓夢》全文數(shù)據(jù)庫索引、《論語》逐字索引等等。目前這些古籍文獻(xiàn)的標(biāo)引和檢索只限于篇、章、目錄和單漢字層次，本文嘗試從古籍文本的表征及內(nèi)容特征出發(fā)，抽取實義詞(包打普通語調(diào)和書名人名等專有名詞)，為實現(xiàn)古籍文本標(biāo)引和檢索從單漢字層次向詞、概念層次的過渡作前期準(zhǔn)備。
　　
　　
　　2　從古籍文本中抽詞的意義
　　
　　本試驗抽取的實義詞可用于以下兒個方面：
　　用來編制或完善各種詞表。如完善各種書名目錄、地名表、人名表、官職名表、作物名表等，對語詞規(guī)范化可用來編制古籍?dāng)⒃~表(敘詞表是將相近或相似意義的詞排在一起成簇的名冊)，從而用于標(biāo)引古籍文獻(xiàn)。因此本試驗對于構(gòu)建和完善古籍詞典、敘詞表，標(biāo)引古籍文獻(xiàn)都有著重要的意義。
　　用來編制索引。索引的功能首先是揭示文獻(xiàn)內(nèi)容和標(biāo)引文獻(xiàn)地址，進(jìn)而獲取所需文獻(xiàn)；功能之二是獲取利用知識所體現(xiàn)出的選題導(dǎo)向功能。通過索引還可以了解到某些章節(jié)的重要程度。
　　應(yīng)用于古籍全文檢索系統(tǒng)、圖像檢索系統(tǒng)，將現(xiàn)有古籍檢索系統(tǒng)逐字匹配的模式改進(jìn)全基于詞的層而，從而提高檢索的查全查準(zhǔn)率。
　　
　　用來編纂整理古籍文獻(xiàn)，如資料匯編類，可以將關(guān)于某一方面的文獻(xiàn)集中在一起，便于查閱專題文獻(xiàn)。
　　
　　3　古籍文本自動抽詞處理步驟
　　
　　本文選擇《齊民要術(shù)》一書作為試驗文本，采取計算機(jī)輔助切詞，詞頻統(tǒng)計，并結(jié)合停用詞詞典和抽詞詞典提取出候選詞匯，然后進(jìn)一步采用機(jī)器剔除過濾操作，最后進(jìn)行人工判別處理，從而得出一批實義詞和專有名詞，具體流程見圖1。研究重點在于試驗現(xiàn)代文本中常用的分詞方法、詞頻統(tǒng)計方法和詞條過濾模式轉(zhuǎn)嫁至古籍文本的方案的可行性。
　　
　　3.1　對文檔進(jìn)行預(yù)處理
　　將《齊民要術(shù)》一書從中國古籍基本數(shù)據(jù)庫上下載并全部轉(zhuǎn)換成文本形式，進(jìn)行繁簡轉(zhuǎn)換，統(tǒng)一全半角，提高切詞的速度和準(zhǔn)確度。
　　
　　3.2　自動切詞，詞頻統(tǒng)計
　　《齊民要術(shù)》一書共有10萬多字，本試驗將其分成多個文本文件，以便提高分詞速度。接著用N-gram算法對文本文件進(jìn)行切分并統(tǒng)計詞頻(根據(jù)漢語成詞的規(guī)律，古籍中普通語詞詞長一般在1-3字左右，書名等專有名詞為3-6字，故本試驗系統(tǒng)中N取值為6)，結(jié)果保存在“切分詞表”中。例如：“衛(wèi)詩曰山有蓁”(此字串串長為6，則最大為6字字串)，切分后得到的字符串稱之n(n=1。2…6)元組：
　　1元組：衛(wèi)(6)/詩(62)，曰(1173)/山(130)／有(658)／蓁(2)
　　2元組：衛(wèi)詩(5)，詩曰(24)／曰山(4)，山有(16)／有蓁(1)
　　6元組：衛(wèi)詩曰山有蓁(1)
　　其中，括號內(nèi)的數(shù)字為該字符串在文本中出現(xiàn)的頻次。
　　文檔經(jīng)過預(yù)處理以后，《齊民要術(shù)》一書共切分出428 731個詞條。
　　
　　3.3　利用詞典過濾篩選
　　對文本N元切分后，利用二分查找算法將“切分詞表”中的字符串分別與抽詞詞典(包括書名詞典、地名詞典、人名官職名詞典)和排除詞詞典(虛詞、數(shù)詞、量詞、限定詞組成的停用詞典)進(jìn)行匹配，將“切分詞表”中的書名、人名和官職名、地名及對應(yīng)的詞頻分別讀入“書名表”、“人名官職名表”、“地名表”中，將含停用詞典中字或詞的記錄讀人“停用詞表”中，其余記錄則讀入“備選詞串表”中。
　　
　　3.3.1　單獨抽出書名、人名、官職名、地名假定有現(xiàn)成的書名詞典、地名詞典、人名官職名詞典作為抽詞詞典，將“切分詞表”中的專有名詞提取出來并讀人對應(yīng)的“書名表”、“人名官職名表”、“地名表”中，不再參與以下詞條過濾的操作，從而減少數(shù)據(jù)比較的次數(shù)。如上例2元組中的“衛(wèi)詩”，作為書名直接被讀入“書名表”。利用抽詞詞典從“切分詞表”中提取書名199個，人名和官職名86個，地名110個，共計395個。
　　3.3.2　過濾含功能詞的詞條功能詞即構(gòu)詞能力低，在文本中成詞可能性小，而出現(xiàn)頻率較高的詞，一般為以下幾種詞型：介詞(于、乎、將)、代詞(爾、彼)、疑問詞(誰、孰)、副詞(甚、少)、連詞(而、雖)、語氣詞(哉、矣)、限定詞(這、某)、數(shù)詞(一、十)、標(biāo)點及不可識別的詞。用這些功能字構(gòu)建停用詞典，將“切分詞表”中所含有這些功能字的n元組全部過濾掉，共過濾掉此類詞匯324 000條，占n元組的75.6％，也即是將詞條過濾掉3／4，大大減少了后面手工判別的工作量。
　　將地名、人名官職名、書名分別列成表，可編制成專有名詞索引；含停用詞典中字詞的字符串基本都沒實義，所以它所在的記錄被讀入“停用詞表”中并直接被過濾掉，其余記錄記入“備選詞串表”作為候選詞。
　　上例1-6元組經(jīng)上述兩步處理后，1元組中的“詩(62)”和2元組中的“衛(wèi)詩(5)”因是抽詞詞典中的書名被讀入“書名表”1元組中的“衛(wèi)(6)”“山(130)”“蓁(2)”是實詞，記錄在“備選詞串表”中；其余n元組的字串因含停用詞詞典中的詞而被詼入“停用詞表”，直接被過濾掉。
　　
　　3.4　去除4、5、6元組
　　經(jīng)過切詞、詞典過濾后，《齊民要術(shù)》一書得到的n元組情況統(tǒng)計，如表1所示，
　　
　　采用無詞典分詞法，得到的非真實詞條是非常多的(約占92.29％)，是真實詞條的12倍左右。筆者將切分出的n元組(n=1，2……6)進(jìn)行比較分析后發(fā)現(xiàn)：當(dāng)n＞4時，切出的字符串除書名、地名、人名官職名外基本上很少有具體實義的詞。所以將“備選詞串表”中的4、5、6元組去除，其他記錄存入“詞串合并表”(共81 222條)，參與下文過濾。
　　
　　3.5　字串類型分析　　將n元組合并后，字串形式各異，大致可將這些字串分為以下幾種類型：
　　類型1：利用抽詞詞典已經(jīng)提出的人名官職名、地名、書名。如“搜粟都尉”、“爾雅”，“建安郡”等，這些詞匯可直接作為專有名詞應(yīng)用于編制索引、詞典等。
　　類型2：詞段組合型。詞段組合指的是在得到一個長詞條的同時，會得到很多相應(yīng)不表達(dá)任何意義或不能表達(dá)完整詞義的短詞條組合。比如：“雜陰”、“西京”分別是“雜陰陽書”、“西京雜記”被割裂的一部分，詞義被隔裂，無法表達(dá)原有的意義。這類詞條與其相應(yīng)的真實詞條的詞頻相同或相近。
　　類型3：用停用詞典未能過濾的其他停用詞匯。由于上述過濾工作使用的是常用停用詞詞典，不是很完善，因此還剩下大量虛詞、數(shù)詞、連詞、介詞、副詞、量詞、形容詞等構(gòu)成的詞匯，這些詞的功能都不大，沒多少實際意義，如“千枚”、“兩邊”等。
　　
　　類型4：人名、地名、姓、國別、官職名、別名等。因為使用的抽詞詞典不是很齊全完善，有些人名官職名等專有名詞還保留著，如：“趙”、“漢武帝”、“神農(nóng)”等。
　　類型5：不相干組合型。由兩個或多個被割裂的字串組成的字符串，如“芋大”、“皮胡芹”，這類詞條由于是割裂的字串偶然連在一起而被算法提取出來，沒有實際意義，詞頻往往很低，絕大多數(shù)詞頻為1，少數(shù)詞頻為2以上。
　　類型6：橫組合詞匯。由兩個或多個詞組合成的詞組。如“拔去”、“劉欣期交州記”、“橘皮胡芹小蒜”。這類詞基本上都屬4元組及以上的字串，其子串包含了一部分新詞。
　　類型7：不可識別的字詞。如“易”、“音感竹”、“力口反”，古籍文獻(xiàn)原文以繁體存在，在轉(zhuǎn)化為電子文檔時由于繁簡詞庫的限制，有許多繁體字不能識別，同時將N元組保存在Access數(shù)據(jù)庫時也有部分字詞識別不了，用“?”代替或以日韓文形式存在，這些字詞都需刪除。
　　
　　3.6　簡單計算過濾詞條及人工判別選詞
　　對于類型1的專有名詞可直接應(yīng)用不必參與以下的過濾操作；
　　類型5中不相干組合型的詞串(低頻次)，可根據(jù)它們的頻率排除掉頻率為1的，共69841條，占“詞串合并表”中81222條記錄的86％，可見此操作處理了“詞串合并表”中一半以上的無用數(shù)據(jù)，大大減少了后面手工操作的工作量；
　　類型7中不可識別的字詞因不可將其還原成繁體字或轉(zhuǎn)化成可識別的詞，所以將“詞串合并表”中的字段term按升序或降序排列直接將其刪除(共230條)，余下11 151條記錄參與下列計算過程的篩選。
　　3.6.1　N元重疊的等頻剔除對于類型2的詞段組合型詞條，從余下n元組集合中發(fā)現(xiàn)大部分作物名、動物名滿足這個規(guī)律：若n元組片斷x包含在更長的n元組作物名動物名Y中，freq(X)=freq(Y)。因此，利用此規(guī)律運用算法，將n元組x刪除，如：x“檳15”Y“檳榔15"，x“茱17”Y“茱萸17”freq(X)=freq(Y)，則將x剔除。此法過濾掉1024條記錄，保留的基本都是作物名或動物名。例如：茱(17)，茱萸(17)；摩(8)，愿鹿(8)。其中，括號內(nèi)的數(shù)字是詞頻。
　　利用此規(guī)律時，發(fā)現(xiàn)過濾掉的1024條記錄相對于11151個候選詞條，只占9％的比例，根據(jù)現(xiàn)代文本利用N-gram算法提取未登錄詞的文章分析，筆者認(rèn)為這么低的比例是由于文本數(shù)據(jù)量不夠大所致。統(tǒng)計學(xué)的一般規(guī)律是統(tǒng)計的數(shù)據(jù)量越多得出的結(jié)果才會越明顯，10萬字的文本對于機(jī)器自動分詞是已足夠，但對于詞頻統(tǒng)計規(guī)律所需的數(shù)據(jù)量還是不足，不能明顯呈現(xiàn)出優(yōu)勢，這是本試驗所選文本不足之處。
　　3.6.2　計算詞的置信度進(jìn)行詞條過濾此時剩下的10 127條記錄采用傅賽香基于統(tǒng)計的無詞典分詞模型中計算詞的置信度來過濾候選集。定義和方法如下：
　　已知詞條w1的出現(xiàn)頻率為sup(w1)，詞條w２的頻次為sup(w2)，詞條w=w1+w2的頻次為sup(w)，則詞條w1相對于詞條w來說，詞的置信度為
　　eonf(w1/w)=(sup(w1)-sup(w))/sup(w1)
　　同樣可知詞條w2相對于詞條w的置信度。
　　定理：如果詞條w1相對于詞條w的置信度小于閾值a(a>0)，則認(rèn)為詞條w是真實詞條的可能性比w1大，從候選集中去掉w1詞條；如果詞條w1相對于詞條w的置信度大于闔值β(β>0)，則認(rèn)為詞條w1是真實詞條的可能性比w大，從候選集中去掉w詞條；如果詞條w1相對于詞條w的置信度大于閾值a且小于闔值β，則保留兩個詞條。
　　利用此詞條過濾模式對試驗進(jìn)行處理時，發(fā)現(xiàn)閾值a和β的選擇對處理的結(jié)果有很大的影響，試驗了三種閾值不同的取值方法，程序執(zhí)行的結(jié)果如下：
　　筆者比較了闔值a和β取以上不同值時的處理結(jié)果集，將term字段按拼音升序排列，從表頭各取樣本100條記錄，然后將各樣本進(jìn)行人工判別選擇語詞，得出：
　　a=0.1，β=0.9時，100條記錄樣本過濾出實義詞32個(占樣本集的32％)；
　　a=0.2，β=0.8時，100條記錄樣本中過濾出30個實義詞(占樣本集的30％)；
　　a=0.3，β=0.7時，樣本中篩選出24個語詞(占樣本集的24％)。
　　對這三個樣本進(jìn)行手工處理篩選語詞需要有統(tǒng)一的標(biāo)準(zhǔn)，也即參照系，本試驗是用前一步等頻過濾的結(jié)果10 127條記錄中，選取前300條進(jìn)行人工操作挑出的語詞，作為對100條記錄樣本處理的參照系統(tǒng)。
　　根據(jù)以上簡單抽樣測試結(jié)果，本試驗選擇閾值a＝0.1，β=0.9計算詞的置信度來過濾詞條。雖然此時提取的語詞相對多而且準(zhǔn)確率相對高些，但還是有一些頻率較高的實義詞被過濾掉了，因此閾值的選取，要通過更多次的試驗比較才會保證處理結(jié)果的準(zhǔn)確度，降低剔除過程中的風(fēng)險。
　　3.6.3　手工判別對計算過濾處理后剩余的5730條候選記錄進(jìn)行人工判別篩選，得出實義詞2747個，圖2列出了部分語詞及其頻次的樣例。從圖中可以看出，古籍文本中提取出的實義詞基本上都是名詞，且多為動植物名稱。另外，由于書名、地名等抽詞詞典并不完善，在利用二分查找算法匹配時并不能把文本中出現(xiàn)的所有書名、地名、人名和官職名等專有名詞單獨抽出，如圖2中出現(xiàn)的“陳思王”、“漢武帝”、“南越”、“兗州”4個詞不僅是實義詞，而且是抽詞詞典沒有包含的專有名詞，由此看來，利用N-gram算法還可以提取未登錄專有名詞，這些未登錄專有名詞可用來完善對應(yīng)的書名抽詞詞典、地名抽詞詞典、人名官職名抽詞詞典。
　　本試驗系統(tǒng)利用抽詞詞典從文本中抽取了395個專有名詞，人工判別篩選出2747個實義詞，因此利用n元切分法共識別出3142個語詞(包括實義詞、人名、書名、官職名、地名等)。本試驗提取的普通語詞、書名、地名、人名、官職名可用于編制各種索引，方便查找原文；同時，也可用于編制或完善古籍專有名詞表甚至敘詞表。
　　
　　4　結(jié)語
　　
　　本文是將常用于處理現(xiàn)代文本的n-gram算法、自動分詞、詞頻統(tǒng)計、n元重疊、詞條過濾等方法移植到古籍文本中提取實義詞方案的嘗試。試驗結(jié)果表明，此方案基本可行，能從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞。本文所用的切詞方法是全切分，因此，所有可能的詞匯組合都被涵蓋，語詞的提取相對全面完整；采用機(jī)器輔助操作，包括自動分詞，詞頻統(tǒng)計及利用詞典和簡單計算過濾詞條，大大減輕了手工操作的工作量，也盡量減少因人為參與所帶來的主觀因素對試驗結(jié)果的影響，保證統(tǒng)計數(shù)據(jù)的客觀性。
　　但在剔除n元重疊時，由于所選的文本(10萬字左右)數(shù)據(jù)量不夠大，所以得出的統(tǒng)計規(guī)律不是非常明顯，這在一定程度上也影響了試驗結(jié)果，所以此試驗需要選擇數(shù)據(jù)量更大的試驗文本，但是試驗本身采用的是全切分方法，容易導(dǎo)致n元組數(shù)據(jù)量過大，這與利用統(tǒng)計規(guī)律剔除n元重疊所需龐大數(shù)據(jù)量的條件對立，因此試驗文本的選擇很重要。另外，在計算詞置信度的詞條過濾模式中，閾值是由多次試驗確定的，因此它對語詞的篩選有很大的影響，要想提高篩選的準(zhǔn)確度和齊全性，還需多次取值試驗并改進(jìn)閾值的確定方法。
　　在客觀條件上，由于所選古籍試驗文本中有很多繁體字詞轉(zhuǎn)化成文本文件，導(dǎo)入Access數(shù)據(jù)庫過程中識別不了，因此有一部分重要語詞無法提出來。同時，本試驗的假定條件是有現(xiàn)成的專有名詞表，而目前還沒有一部非常完善齊全的古籍專有名詞表供使用，而古籍?dāng)⒃~表更是沒有出現(xiàn)，所以希望能有更多單位或個人投入力量，編制或完善古籍專有名詞表甚至敘詞表，這將會帶動更多學(xué)者參與對古籍文獻(xiàn)的研究，從而推動古籍?dāng)?shù)字化的發(fā)展。

相關(guān)熱詞搜索：古籍文本研究古籍文本抽詞研究語文論述類文本閱讀高考語文論述類文本閱讀

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.newchangjing.com