www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

[用于引書(shū)識(shí)別的引書(shū)引用模式研究] 用于行文中直接引用的部分

發(fā)布時(shí)間:2020-03-07 來(lái)源: 日記大全 點(diǎn)擊:

  [摘要]現(xiàn)代信息技術(shù)飛速發(fā)展,為古籍引書(shū)計(jì)算機(jī)識(shí)別提供了可能性。本研究的目的是研究古籍引書(shū)的引用模式,進(jìn)而探討模式識(shí)別方法在引書(shū)識(shí)別中的應(yīng)用。具體方法是以明、清及民國(guó)時(shí)期廣東地方志中有關(guān)物產(chǎn)門(mén)目資料(《廣東方志物產(chǎn)》)為語(yǔ)料,抽取所有引書(shū)的引用模式(引書(shū)名稱(chēng)及其表達(dá)方式),分別對(duì)引書(shū)名稱(chēng)模式和引用表達(dá)方式進(jìn)行研究。
  [關(guān)鍵詞]引書(shū)模式 引書(shū)識(shí)別 引用表達(dá)模式 模式識(shí)別
  [分類(lèi)號(hào)]G254.361 H08
  
  1 古籍引書(shū)研究概況
  
  引書(shū)的形成,經(jīng)歷了一個(gè)從修辭手法到著述體例,再到文獻(xiàn)體式(著述體例形式,如著述、編述、鈔纂)的過(guò)程。先秦儒家以“五經(jīng)”為代表的典籍引用了大量的民間諺謠、流行俗語(yǔ)、先賢言論、前代典故,作為修辭手法;漢代,為給儒家經(jīng)典作箋注,需要引經(jīng)據(jù)典、廣征博引,在箋注的過(guò)程中,引書(shū)逐漸形成為一種重要的著述體例;曹魏時(shí)以分類(lèi)撰抄為特色的類(lèi)書(shū)《皇覽》把引書(shū)發(fā)展成中國(guó)古代典籍的一種獨(dú)特的文獻(xiàn)體式。
  有關(guān)古籍中引書(shū)的挖掘整理研究,當(dāng)始于漢代劉向的《戰(zhàn)國(guó)策書(shū)錄》、《管子書(shū)錄》等考訂戰(zhàn)國(guó)典籍引書(shū)的文獻(xiàn)。此后歷代繼有研究,至清為盛。但這些有關(guān)引書(shū)的研究,主要集中于某一典籍引書(shū)的考訂,甚少有引書(shū)識(shí)別方法研究,這種引書(shū)研究的學(xué)術(shù)傾向一直延續(xù)至今。而其間也偶有引用方法研究,如明末清初顧炎武的《論引書(shū)》一文,曾談及引用方法和引用規(guī)范問(wèn)題;清朝后期的陳澧撰《引書(shū)法示端溪書(shū)院諸生》,以專(zhuān)文形式論述引用方法和規(guī)范。
  
  近年出版的引書(shū)研究的學(xué)術(shù)論著主要分考訂引書(shū)、從引書(shū)角度研究典籍或引書(shū)的學(xué)術(shù)價(jià)值、引書(shū)索引的編制三種類(lèi)型。①考訂引書(shū),又如伍野春在《裴松之引書(shū)辨析》一文中,提出了裴注三國(guó)志引書(shū)識(shí)別的標(biāo)準(zhǔn),并以此標(biāo)準(zhǔn)來(lái)識(shí)別、類(lèi)分其中的引書(shū),如程金造在《史記索隱引書(shū)考實(shí)》一書(shū)中,列出了《史記索隱》中的引書(shū),并為之撰作提要。②從引書(shū)的角度研究典籍或引書(shū)的學(xué)術(shù)價(jià)值,如熊桂芬在《從引書(shū)看的文獻(xiàn)學(xué)價(jià)值》一文中,從引書(shū)的角度探討了典籍《廣韻》的文獻(xiàn)學(xué)價(jià)值,又如李伯勛。在《裴注所引書(shū)的史傳文學(xué)價(jià)值》一文中,探討了引書(shū)的史傳文學(xué)價(jià)值。③引書(shū)索引的編制,是從目錄學(xué)角度研究引書(shū),貢獻(xiàn)最大的當(dāng)數(shù)1930年成立于北京的哈佛燕京學(xué)社引得編纂處編制64種引得中有14種涉及中國(guó)典籍的引書(shū)引得成果。
  20世紀(jì)80年代以來(lái),計(jì)算機(jī)迅速普及,使得現(xiàn)代信息技術(shù)環(huán)境下利用計(jì)算機(jī)識(shí)別、挖掘古籍中的引書(shū)成為可能。通過(guò)計(jì)算機(jī)挖掘引書(shū),可以為引書(shū)識(shí)別提供一種新技術(shù)、新方法和新思路,并可以快速、齊全、準(zhǔn)確地識(shí)別引書(shū),從而提高引書(shū)索引的編制速度。但是如何把計(jì)算機(jī)技術(shù)和古籍整理知識(shí)結(jié)合起來(lái),多、快、準(zhǔn)地挖掘引書(shū),成為十分重要的難題。筆者試圖以古籍整理為研究對(duì)象,從語(yǔ)言學(xué)角度出發(fā),研究古籍引書(shū)的引用模式(引書(shū)名稱(chēng)及其表達(dá)方式),為計(jì)算機(jī)挖掘引書(shū)拓展思路和方法。本文將以《廣東方志物產(chǎn)》中的引書(shū)為對(duì)象,探討引書(shū)的引用模式。
  
  2 引書(shū)名稱(chēng)引用模式
  
  在古籍中,不同作者引用文獻(xiàn)時(shí),往往依據(jù)行文、個(gè)人學(xué)養(yǎng)和習(xí)慣,采用不同的引書(shū)名稱(chēng),有的用書(shū)名全稱(chēng),有的用簡(jiǎn)稱(chēng)和異稱(chēng),有的只用作者姓名,還有的則是作者姓名和書(shū)名全部引用。在《廣東方志物產(chǎn)》(1949年以前的379部廣東地方志有關(guān)物產(chǎn)門(mén)目資料)中,引書(shū)名稱(chēng)的引用大致分為三種情況:文獻(xiàn)名稱(chēng)、作者名稱(chēng)、作者名稱(chēng)+文獻(xiàn)名稱(chēng)。
  
  2.1引用文獻(xiàn)名稱(chēng)
  文獻(xiàn)名稱(chēng)有全稱(chēng)、簡(jiǎn)稱(chēng)和異名三種情況。全稱(chēng)也nU全名,是文獻(xiàn)的正式名稱(chēng);異名是不同于全稱(chēng)的另外名稱(chēng);簡(jiǎn)稱(chēng)是對(duì)正式名稱(chēng)的縮簡(jiǎn)稱(chēng)呼,從字面上看也不同于正式名稱(chēng),實(shí)際上是異稱(chēng)的一種,因此,筆者把異名和簡(jiǎn)稱(chēng)統(tǒng)稱(chēng)為異稱(chēng)。①引用全稱(chēng),這種現(xiàn)象在《廣東方志物產(chǎn)》中十分普遍,如《清?乾隆27年潮州府志》之“綽菜”條:“綽菜/南方草木狀綽菜夏生于池沼問(wèn)葉類(lèi)茨菰根如藕條食之令人思睡故又呼瞑菜”,引用的就是全稱(chēng)。在整個(gè)《廣東方志物產(chǎn)》中,引用“南方草木狀”全稱(chēng)的就有533次,其他引書(shū)引用全稱(chēng)亦為通行。②引用異稱(chēng),這種情況亦如全稱(chēng)一樣普遍,如《民國(guó)13年陽(yáng)江縣志》之“戴勝”條:“戴勝/色灰綠大如脊鴿顱有髻高六七分南海謂其雄者丁髻郎雌者丁髻娘陽(yáng)江謂之丁髻顱或謂之冠髻南越筆記”,這里的《南越筆記》是《粵東筆記》的異名;再如《清?光緒16年高州府志》之“淖樹(shù)”條:“淖樹(shù)/干葉俱似椿其葉煮汁漬果呼淖汁出高涼郡詳草木狀未知今何樹(shù)”,引用的就是《南方草木狀》的簡(jiǎn)稱(chēng)――《草木狀》。不同的志書(shū),有的引用正式名稱(chēng),有的引用異名,但在同一部志書(shū)中不會(huì)出現(xiàn)既引用正式名稱(chēng)又引用異名的現(xiàn)象,而既引用全稱(chēng)又引用簡(jiǎn)稱(chēng)則很普遍。
  
  2.2引用作者名稱(chēng)
  引用作者名稱(chēng)也很普遍,如《清?光緒18年吳川縣志》之“赤小豆”條:“赤小豆/此豆以緊小而赤黯色人藥稍大而鮮紅淡紅者并不治病李時(shí)珍日小而色赤心之谷也其性下行通小腸入陰分治有形之病參群芳譜采訪冊(cè)”,這里引用的“李時(shí)珍”實(shí)際上指的是《本草綱目》。只是引用作者姓名的,多為名人名篇,使人一看作者姓名就知道引用的是哪篇文獻(xiàn)或哪部典籍。若一個(gè)名人只有一種名著的,判別起來(lái)不困難,但是多數(shù)名人不止一種名著,這種情況的識(shí)別則是十分不易,除需要深厚、淵博的學(xué)識(shí)外,常常還需把引用的內(nèi)容與該作者的著作一一核對(duì),才能確定引自哪篇文獻(xiàn)!稄V東方志物產(chǎn)》中引用的“蘇東坡”、“郭璞”作者姓名,識(shí)別起來(lái)非得逐一核對(duì)原典不可,因?yàn)樗麄兊拿渑c引用次數(shù)也多。當(dāng)然,也有引用作者別名和字號(hào)的情況,如蘇東坡的全部名稱(chēng)為:姓蘇,名軾,字子瞻,又字和仲,號(hào)東坡先生,還有稱(chēng)蘇公、坡公的情況,蘇東坡只是其號(hào)。象蘇東坡這種名號(hào)齊全的作者,筆者必須清楚其全部名稱(chēng),才能準(zhǔn)確、全面地識(shí)別其引用情況。
  
  2.3引用作者姓名+文獻(xiàn)名稱(chēng)
  這種情況不是十分普遍,有兩種情況:①作者姓名+文獻(xiàn)正式名稱(chēng),如《清?道光2年廣東通志》之“吉利草”引用的是《嵇含南方草木狀》,是書(shū)名全稱(chēng);②作者姓名+文獻(xiàn)異稱(chēng),如《民國(guó)19年龍山鄉(xiāng)志》之“茉莉花”條引用的是《嵇含草木狀》,是書(shū)名簡(jiǎn)稱(chēng)。
  以上三種引書(shū)名稱(chēng)引用模式,是《廣東方志物產(chǎn)》中普遍存在的現(xiàn)象。利用計(jì)算機(jī)識(shí)別時(shí),須建立三種對(duì)應(yīng)的引書(shū)名稱(chēng)數(shù)據(jù)庫(kù),設(shè)計(jì)合理的算法,逐一匹配文獻(xiàn),方能較準(zhǔn)確全面地識(shí)別出引書(shū),否則會(huì)出現(xiàn)重復(fù)識(shí)別或遺漏的窘?jīng)r。
  計(jì)算機(jī)不是萬(wàn)能的,在目前技術(shù)條件下,必須與人的專(zhuān)業(yè)知識(shí)結(jié)合起來(lái),才能挖掘古籍中的引書(shū)。
  
  3 引用的表達(dá)方式
  
  3.1概況
  筆者在整理《廣東方志物產(chǎn)》資料時(shí),發(fā)現(xiàn)這樣一個(gè)的語(yǔ)言學(xué)現(xiàn)象:古人在引用文獻(xiàn)時(shí),為使句子語(yǔ)法完整、語(yǔ)義協(xié)調(diào),通常在所引用的文獻(xiàn)后面加上“云”、“日”等言說(shuō)謂語(yǔ)動(dòng)詞,如“本草綱目云”、“五山志林 日”,等等,稱(chēng)之為引用表達(dá)模式詞,或引用方式規(guī)則。此類(lèi)謂語(yǔ)動(dòng)詞之前、后或中間,就是引書(shū)名稱(chēng)(文獻(xiàn)名稱(chēng)、作者名稱(chēng)、文獻(xiàn)名稱(chēng)+作者名稱(chēng)之一)。
  《廣東方志物產(chǎn)》共有31670次引用,筆者從此龐大的數(shù)據(jù)中,逐一剔除引書(shū)名稱(chēng)和作者名稱(chēng),最終獲得60種引書(shū)表達(dá)模式,為計(jì)算機(jī)處理需要,依模式詞(規(guī)則)位置分為前標(biāo)志型、后標(biāo)志型和封閉型三種,如表1所示:
  表1是從《廣東方志物產(chǎn)》中提煉出來(lái)的所有引書(shū)表達(dá)模式,封閉型模式類(lèi)型最多,前標(biāo)型最少。但是使用次數(shù)最多的是后標(biāo)型,遠(yuǎn)遠(yuǎn)高于其他兩個(gè)類(lèi)型。這說(shuō)明《廣東方志物產(chǎn)》的引書(shū)多使用封閉型引書(shū)表達(dá)模式,可能是中國(guó)古代漢語(yǔ)的本身特點(diǎn)要求所致。
  
  3.2舉例分析
  3.2.1前標(biāo)志型
  前標(biāo)志型的模式詞置于引書(shū)之前。①“按……”、“案……”意義相同,都是“案語(yǔ)”之義,是編輯、注釋或引用原文的人所附加的對(duì)原文有所評(píng)論、說(shuō)明或考證的話(huà)。如《民國(guó)9年赤溪縣志》之“菠棱”條:菠棱/按劉禹錫嘉話(huà)出西域頗棱國(guó)訛為菠棱云俗呼波菜;再如《民國(guó)32年豐順縣志》之“海棠”條:海棠……案李德;居浄不久U呓詮暮M鈦(lái)如海棠之類(lèi)是也……。這是從不同的引書(shū)中考證物產(chǎn)。②“本…”、“出…”、“據(jù)…”、“根據(jù)…”、“載…”,是依據(jù)、出處、來(lái)源的意思!氨尽笔恰霸闯觥敝x,“據(jù)…”是“根據(jù)…”的縮寫(xiě),“載…”的意義是“該段引文記載在某某引書(shū)”,其實(shí)質(zhì)也是指明出處。如《清?咸豐7年瓊山縣志》之“刀魚(yú)”條:刀魚(yú)/爾雅謂之觸刀郭注云今之觜魚(yú)也狀如長(zhǎng)薄尖刀故名刀俗改作紉非本正字通;《清?道光23年英德縣志》之“胡蔓草”條:胡蔓草/即斷腸草一名大茶葉所在皆有俗與人哄及私怨輒茹此草希圖誣以人命詐取財(cái)物死而不悔救法急取卵中未生雞兒細(xì)研和以清油灌之即蘇出嶺南衛(wèi)生方;《民國(guó)21年開(kāi)平縣志》之“金瓜”條:金瓜/據(jù)香山志金瓜圓其長(zhǎng)者名香瓜又名枕頭瓜;《清?康熙55年羅浮山志會(huì)編》之“菖蒲”條,注明的是“載藝文志”。這些都是說(shuō)明該段引文的來(lái)源引書(shū)。③“參…”、“見(jiàn)…”、“詳…”,都是“參見(jiàn)”、“參考”之義,是參合他書(shū)擬就,其意是:欲知詳情,請(qǐng)參考某某引書(shū)。如《民國(guó)13年陽(yáng)江縣志》之“菘”條:菘/俗呼白菜另一種日黃芽白本北地產(chǎn)始種于肇慶今各處俱有之然亦不及北方之甜美參阮通志采訪冊(cè)。余不舉例。但有一點(diǎn)須辨明:這里的“參見(jiàn)”意義與索引學(xué)不同,索引學(xué)是指引讀者從一個(gè)標(biāo)目指向另一個(gè)標(biāo)目,標(biāo)目之間是平行關(guān)系,而這里的來(lái)源文獻(xiàn)與引書(shū)則有屬種關(guān)系。
  3.2.2后標(biāo)志型后標(biāo)志型的模式詞置于引書(shū)之后,分兩種情況:①言說(shuō)動(dòng)詞式,如…稱(chēng)、…稱(chēng)為、…稱(chēng)之為、…為、…謂、…言、…以為、…曰、…云、…載、…有云、…作、…名、…名日、…命曰,這種形式可直接看作“某某引書(shū)說(shuō)”。其中的“…云”、“…曰”數(shù)量較多,是古人的行文和語(yǔ)言習(xí)慣所致,就如同我們今天多用“說(shuō)”而少用“道”一樣。這種言說(shuō)動(dòng)詞模式數(shù)量較多,以下略舉二例說(shuō)明,《清?雍正9年廣東通志》之“蟹”條:蟹/一名蟾廣雅云雄日娘蟻雌日博帶抱樸子稱(chēng)無(wú)腸公子廣志云鋪小蟹大如貨錢(qián)又蟹奴如榆莢在璨吉腹中生死不相離山海經(jīng)載千里蟹洞冥記有云貢百足蟹長(zhǎng)九尺四螯者今恩州又出石蟹北戶(hù)錄,這段文字使用了“…云”、“…稱(chēng)”、“…載”、“…有云”四種模式;再如該志書(shū)的“石相思子”條:石相思子/……按一名長(zhǎng)生螺周密謂置之醋中則活即此,使用了“…謂”模式。②所+言說(shuō)動(dòng)詞式,這里的“所”是語(yǔ)氣助詞,無(wú)義,只有與言說(shuō)動(dòng)詞連用才能表達(dá)具體意思。如《清?雍正9年揭陽(yáng)縣志》之“蜀葵”條:蜀葵/郭璞日蜀葵花似木槿爾雅所謂蔭戎葵也花可食。
  后標(biāo)志型實(shí)質(zhì)上是語(yǔ)助詞(如“所”)與不同的言說(shuō)動(dòng)詞組合而成。如果去掉語(yǔ)助詞,也能表達(dá)原意,但意義不完整,也不符合原有語(yǔ)境,況且這“所”字結(jié)構(gòu)本來(lái)有就有其本身的意義,是固定的表達(dá)結(jié)構(gòu),不能分離。筆者原樣輯錄,不加省略的原因是保持原貌,探索引書(shū)表達(dá)模式的語(yǔ)法和構(gòu)詞結(jié)構(gòu);同時(shí),用于計(jì)算機(jī)識(shí)別引書(shū),會(huì)減少噪音。
  3.2.3封閉型
  封閉型基本是由“按(案)”、“即”、“據(jù)”、“如”、“依”加后標(biāo)志型模式組合而成,雖可由后標(biāo)志型替換,但表達(dá)意義、語(yǔ)氣不完整,在具體的語(yǔ)言環(huán)境中所表達(dá)的意義與后標(biāo)志型也有區(qū)別。也如《清?雍正9年揭陽(yáng)縣志》,其“車(chē)前草”條:車(chē)前草/即詩(shī)所謂苤莒爾雅日苤苜馬舄馬舄車(chē)前也其性利水。這里的“即…所謂”表達(dá)的是承前語(yǔ)氣,若去掉“即”字,雖能表達(dá)原意,但不能表達(dá)原來(lái)的語(yǔ)氣,行文有點(diǎn)別扭,失掉了原有撰述風(fēng)格。
  前標(biāo)志型、后標(biāo)型和封閉型,是《廣東方志物產(chǎn)》中能夠輯錄的模式,總共才使用7604次,比起引用總次數(shù)31670來(lái),差之甚遠(yuǎn),而更多的引書(shū)是沒(méi)有任何引用模式的。所以,更多的引書(shū)識(shí)別則需要深厚的歷史文獻(xiàn)學(xué)知識(shí)和學(xué)術(shù)涵養(yǎng)。當(dāng)然,那些沒(méi)有表達(dá)模式的引書(shū),還可通過(guò)引書(shū)的名稱(chēng)特征提取引書(shū)名稱(chēng)模式。
  總之,通過(guò)表達(dá)模式就能夠識(shí)別引書(shū),前標(biāo)志型引書(shū)的識(shí)別是輯錄出模式詞前的不同數(shù)量的文字,后標(biāo)志型是輯錄出模式詞后的數(shù)量不等的文字,再加以人工判別即可。至于封閉型,模式詞之間的文字就是引書(shū),幾乎無(wú)需人工判別。
  僅靠模式識(shí)別方法并不能識(shí)別出《廣東方志物產(chǎn)》中的全部引書(shū),但如果把引用模式與前文條析出的引書(shū)名稱(chēng)相結(jié)合,建立書(shū)名庫(kù)和模式庫(kù),無(wú)論識(shí)全率或識(shí)準(zhǔn)率,都會(huì)大大提高,具體的作法是:①用書(shū)名匹配文本;②用模式匹配文本;③用書(shū)名+模式匹配文本。若計(jì)算機(jī)采用這種方法,引書(shū)殆盡矣。
  古籍中的計(jì)算機(jī)引書(shū)識(shí)別是個(gè)復(fù)雜的問(wèn)題,目前國(guó)內(nèi)外的研究甚少,本項(xiàng)研究只是嘗試和探索,本章總結(jié)出的引書(shū)名稱(chēng)特征和引用特征,只來(lái)源于《廣東方志物產(chǎn)》,對(duì)于更為復(fù)雜的整個(gè)《方志物產(chǎn)》來(lái)說(shuō),是個(gè)特例,而對(duì)于整個(gè)古籍更是滄海一粟。但是,本文探索出的書(shū)名庫(kù)和引用模式,可以應(yīng)用于整個(gè)《方志物產(chǎn)》,甚至在整個(gè)古籍上嘗試。本項(xiàng)研究的目的就是以《廣東方志物產(chǎn)》為實(shí)例,探索浩繁的《方志物產(chǎn)》引書(shū)識(shí)別方法,進(jìn)而推廣到整個(gè)古籍的引書(shū)識(shí)別。
  
  4 試驗(yàn)設(shè)計(jì)與測(cè)試結(jié)果
  
  4.1試驗(yàn)設(shè)計(jì)
  為了測(cè)試模式識(shí)別引書(shū)的效果,筆者構(gòu)建了引書(shū)挖掘系統(tǒng)(另文發(fā)表于《圖書(shū)館雜志》2008年第8期),步驟如下:①建立方志全文本數(shù)據(jù)庫(kù);②建立引書(shū)模式庫(kù),模式來(lái)源于方志及其他古籍;③模式匹配,運(yùn)用模式在全文數(shù)據(jù)庫(kù)中進(jìn)行匹配,抽取候選引書(shū)詞串;④對(duì)抽取結(jié)果進(jìn)行過(guò)濾處理以及運(yùn)用N-gram進(jìn)行分詞和詞頻統(tǒng)計(jì),適當(dāng)去除低分詞,并合處理結(jié)果,最終得出引書(shū)集;⑤為防止遺漏,再運(yùn)用這個(gè)引書(shū)集對(duì)全文庫(kù)進(jìn)行掃描,最后得出全部引書(shū)。
  系統(tǒng)環(huán)境是windows 2000操作系統(tǒng),開(kāi)發(fā)工具選用Borland Developer Studio 2006,具體采用其Delphi for the Microsoft,NET Framework模塊作為開(kāi)發(fā)環(huán)境,數(shù)據(jù)庫(kù)選用的是SQL Server。
  
  4.2測(cè)試結(jié)果
  經(jīng)過(guò)以上處理,系統(tǒng)識(shí)別出引書(shū)1081條(不含重復(fù))。測(cè)試時(shí),借鑒信息檢索中的測(cè)試標(biāo)準(zhǔn),采用對(duì)應(yīng)的識(shí)準(zhǔn)率、識(shí)全率等指標(biāo)來(lái)進(jìn)行測(cè)評(píng)。具體公式如下:
  識(shí)準(zhǔn)率=(計(jì)算機(jī)識(shí)別出的真引書(shū)總數(shù)/計(jì)算機(jī)識(shí)別出的引書(shū)總數(shù))*100% (1)
  識(shí)全率=(計(jì)算機(jī)識(shí)別出的真引書(shū)總數(shù)/人工真引書(shū)總數(shù))*100% (2)
  筆者隨機(jī)抽取了12篇方志物產(chǎn)文檔,請(qǐng)專(zhuān)家審讀,通過(guò)人工識(shí)別,得到引書(shū)。同時(shí)應(yīng)用本系統(tǒng)設(shè)計(jì)的方法在全部文檔中進(jìn)行引書(shū)識(shí)別,并將自動(dòng)識(shí)別出的引書(shū)復(fù)原至上述抽取的12篇文檔,得到該12篇測(cè)試文檔的自動(dòng)引書(shū)識(shí)別結(jié)果。將兩者進(jìn)行比對(duì),根據(jù)上述指標(biāo)統(tǒng)計(jì)出的測(cè)試結(jié)果如表2所示:
  根據(jù)表2的數(shù)據(jù)計(jì)算出識(shí)全率為84.95%,識(shí)準(zhǔn)率為72.88%。經(jīng)過(guò)對(duì)引書(shū)識(shí)別結(jié)果的分析,影響識(shí)別效果的因素主要有:①原始文獻(xiàn)在數(shù)字化過(guò)程中人為的錯(cuò)誤,包括生僻字、特殊符號(hào)、空格等,導(dǎo)致誤識(shí)并影響正常的引書(shū)頻次;②模式本身并未涵蓋所有可能的引書(shū),導(dǎo)致漏識(shí);③n-gram本身的誤差。雖然識(shí)準(zhǔn)率并不是十分理想,但識(shí)全率較高。作為一個(gè)輔助系統(tǒng),已經(jīng)可以基本滿(mǎn)足半自動(dòng)化引書(shū)處理的要求。
  
  5 結(jié)語(yǔ)
  
  古籍中的引書(shū)識(shí)別,自計(jì)算機(jī)應(yīng)用以來(lái)是人工識(shí)別,以學(xué)人的淵博的知識(shí)為基礎(chǔ),通過(guò)人工閱讀文獻(xiàn)識(shí)別出引書(shū)。即使如計(jì)算機(jī)普及的今天,應(yīng)用計(jì)算機(jī)識(shí)別引書(shū)的研究也是寥寥。本文以《廣東方志物產(chǎn)》為語(yǔ)料,輯錄并詳細(xì)研究其引書(shū)的引用模式,作為采用模式識(shí)別方法識(shí)別引書(shū)的依據(jù)。文章最后建立一個(gè)實(shí)驗(yàn)系統(tǒng)對(duì)模式識(shí)別效果進(jìn)行測(cè)試,達(dá)到了預(yù)期效果。這說(shuō)明這種方法是可行的,是引書(shū)識(shí)別的一條捷徑。下一步工作是提高識(shí)全率和識(shí)準(zhǔn)率,并推廣到其他古籍文獻(xiàn)。

相關(guān)熱詞搜索:識(shí)別 引用 用于 用于引書(shū)識(shí)別的引書(shū)引用模式研究 模式識(shí)別+書(shū)免費(fèi)下載 免費(fèi)書(shū)軟件下載

版權(quán)所有 蒲公英文摘 www.newchangjing.com