蛤文化維基_從維基文化看我國詞表建設(shè)
發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:
〔摘要〕通過匯總我國詞表建設(shè)歷史成果,結(jié)合當(dāng)前信息技術(shù)發(fā)展新趨勢,系統(tǒng)地剖析維基百科迅速發(fā)展壯大的原因;提出在維基百科開放與協(xié)同工作的理念上,規(guī)劃我國詞表的宏觀管理、多渠道來源加工體系以及詞表結(jié)構(gòu)設(shè)計,由此構(gòu)建出我國全新的詞表建設(shè)總體框架,設(shè)計詞表建設(shè)及其應(yīng)用服務(wù)的全新模式,并指出若干重點領(lǐng)域的應(yīng)用示范。
〔關(guān)鍵詞〕詞表 Wiki 維基百科
〔分類號〕N99
The Chinese Thesaurus Construction ――From Point of View of Wiki Culture
Liang Bing Qiao Xiaodong
Institute of Scientific and Technical Information of China, Beijing 100038
〔Abstract〕This paper firstly introduces the great achievements of thesaurus building in China. Then, by referring to the new information technology development, it analyzes the reasons of rapidly development of wikipedia and puts forward that we should make Chinese thesaurus?management plan, create Multi-channet sources process system and design the structure of thesaurus. Based on that, the paper lastly presents the new thesaurus building framewort, designs, the new model of thesaurus building, application and service, and gives some applications of this model in several important fields.
〔Keywords〕thesaurus wiki wikipedia
Wiki[1-2]是一種超文本系統(tǒng),相比較以往的虛擬論壇,它具備獨特的性質(zhì):系統(tǒng)架構(gòu)開放;信息反應(yīng)及時;鼓勵知識融合;強調(diào)協(xié)作創(chuàng)新。在新一代互聯(lián)網(wǎng)絡(luò)模式興起之時,Wiki作為Web2.0技術(shù)的代表之一,其最成功的案例就是維基百科辭典的建設(shè),共完成109種語言97萬條目的內(nèi)容建設(shè),且用了不到4年時間。而我國《中國大百科全書》74卷收錄條目近8萬個,先后組織專家學(xué)者近2萬名,從1978-1993年歷經(jīng)10余年才編撰完成。從技術(shù)角度來看,維基百科并不是一種復(fù)雜的技術(shù),創(chuàng)新之處在于改變?nèi)伺c人之間的協(xié)作方式,更新了人們獲取、處理和傳播知識的途徑。以維基為代表的新一代互聯(lián)網(wǎng)知識建設(shè)重點在于其架構(gòu)的開放性,并且所有人都可以參與到知識組織與建設(shè)中。它真正給人們帶來的是思維方式、知識傳播以及認(rèn)知方式上的強烈沖擊。
對照維基詞表發(fā)展歷程回顧我國漢語詞表建設(shè),雖然在上個世紀(jì)我國漢語詞表建設(shè)取得了豐碩的成果[3],但是由于詞表系統(tǒng)研究處于行業(yè)封閉狀態(tài),研究成果沒得到廣泛地應(yīng)用。以下根據(jù)當(dāng)前信息技術(shù)的發(fā)展趨勢,并吸取維基文化的開放與協(xié)作特點,提出我國新一代詞表建設(shè)的結(jié)構(gòu)性框架,并指出部分重點領(lǐng)域應(yīng)用示范。
1我國詞表建設(shè)成果及現(xiàn)狀
由表1可以看出,建國以來,特別是在上世紀(jì)80、90年代,詞表建設(shè)蓬勃發(fā)展,眾多行業(yè)積累了豐富的建設(shè)成果。但是從另外一個角度來分析,當(dāng)詞表建設(shè)的熱潮期,我國計算機(jī)技術(shù)水平還很薄弱,很多建設(shè)成果沒有數(shù)字轉(zhuǎn)化或者不適合將來的數(shù)字化,極大地影響了成果共享和應(yīng)用。此外,這些傳統(tǒng)的詞表主要依靠詞組編纂委員會做系統(tǒng)升級和維護(hù),大量詞表只能作為印刷書籍出版,不利于網(wǎng)絡(luò)化、數(shù)字化傳播與使用,沒有統(tǒng)一的維護(hù)工具。
在日益重視知識組織與知識服務(wù)的背景下,我國的詞表建設(shè)變成了熱點。但當(dāng)前詞表建設(shè)還面臨很多問題:①詞表建設(shè)資金投入嚴(yán)重不足,僅依靠某個行業(yè)對詞表建設(shè)是不夠的,況且還不能做到持續(xù)性投資;②上個世紀(jì)的詞表建設(shè)成果沒有數(shù)字化、網(wǎng)絡(luò)化加工處理,存在著自動化,網(wǎng)絡(luò)化時使用困難,造成資源浪費;③各個行業(yè)依靠各自技術(shù)實力推行詞表,沒有統(tǒng)一標(biāo)準(zhǔn),為今后詞表的共建共享造成障礙,使得跨行業(yè)詞表無法使用,盡管眾多研究學(xué)者都在研究跨行業(yè)、跨平臺詞表的共享技術(shù),但是不具備標(biāo)準(zhǔn)規(guī)范下的眾多詞表,必然會給今后的共建共享帶來巨大的障礙;④當(dāng)前很多單位的詞表建設(shè)往往當(dāng)作一個工程項目來實施,造成后續(xù)維護(hù)、更新能力差,跟不上了實際詞匯發(fā)展。
2新時期詞表的建設(shè)與應(yīng)用
雖然我國詞表建設(shè)在上個世紀(jì)取得了重大的階段性成果,但是現(xiàn)存的詞表已不能滿足人們的需要,也不能適應(yīng)新時期網(wǎng)絡(luò)化、數(shù)字化和智能化的新要求。因此需要在新形勢下重新規(guī)劃我國詞表建設(shè)。
維基百科從開始創(chuàng)立到形成規(guī)模,只有幾年的時間,這不是因為維基百科使用了先進(jìn)的技術(shù),而是采用了與以往不同的理念:①強調(diào)系統(tǒng)的開放性,允許廣大人員的參與;②制訂了標(biāo)準(zhǔn)規(guī)范的模版,方便各種層次人員協(xié)同創(chuàng)作,系統(tǒng)目標(biāo)性明確;③維基百科是一個持續(xù)建設(shè)的項目,隨著社會發(fā)展進(jìn)步而不斷更新。可以說,維基百科為我國詞表建設(shè)提供了一個標(biāo)志性的典范。
2.1國家政策導(dǎo)向和宏觀規(guī)劃
漢語詞表的建設(shè)、開發(fā)應(yīng)該作為一種國家行為來研究。在當(dāng)前信息社會和數(shù)字化生存時代,對待我國民族語言詞匯的收集、整理、保護(hù)和開發(fā)應(yīng)該提高到一定的高度來認(rèn)識,政府要像對待國土資源、森林資源、水資源、中國基因資源等一樣看待我國漢語詞匯資源。對于詞表的建設(shè),國家應(yīng)該從政策上考慮:
●制定宏觀建設(shè)、管理和運行制度,協(xié)調(diào)與引導(dǎo)各單位、各行業(yè)對詞表共建共享,為共建及共享提供良好管理流程。
●在投資上,注意建設(shè)的領(lǐng)域和布局,避免盲目投資與重復(fù)建設(shè),支持重點建設(shè),并大力促進(jìn)標(biāo)準(zhǔn)化及成果共享。
●適當(dāng)選取若干前沿領(lǐng)域重點支持詞表工程的應(yīng)用,以點帶面,全面推進(jìn)詞表建設(shè)和應(yīng)用步伐,使得兩者協(xié)調(diào)發(fā)展,互為促進(jìn)。
2.2多技術(shù)、多來源的詞表建設(shè)體系
任何階段的詞表建設(shè)都與當(dāng)時技術(shù)條件、科學(xué)環(huán)境有著密切關(guān)系,在科學(xué)技術(shù)飛速發(fā)展的今天,需要多種來源和多種技術(shù)相結(jié)合進(jìn)行詞信息構(gòu)建,主要有以下幾個途徑:
●充分融合當(dāng)前已有的詞表建設(shè)成果。上個世紀(jì)80、90年代,我國各行業(yè)紛紛建立了自己的詞表庫,由于當(dāng)時條件所限,很多成果并不適應(yīng)當(dāng)前數(shù)字化、網(wǎng)絡(luò)化的環(huán)境。新時期進(jìn)行詞表建設(shè)時,首先應(yīng)該在眾多已有詞表建設(shè)成果中挑選具有代表性的涵蓋全面的詞表系統(tǒng),將其納入新詞表體系之中。
●充分重視當(dāng)前語料庫建設(shè)(包括網(wǎng)絡(luò)文本信息,書籍報刊文本信息等),依靠其所建立的語言統(tǒng)計模型對海量語料庫信息進(jìn)行自動漢語分詞處理,做到詞匯挖掘和新詞發(fā)現(xiàn)。
●跟蹤特定領(lǐng)域形成的詞匯,將其加工、處理并納入詞表體系。例如科學(xué)技術(shù)論文中包括的關(guān)鍵詞,都是包含各領(lǐng)域前沿和重點的詞匯,對它們重點收錄、處理與分析,對于科技發(fā)展動態(tài)以及交叉學(xué)科的發(fā)展具有重要指導(dǎo)作用。
●充分吸取維基百科的建設(shè)理念,建立開放的平臺,供社會團(tuán)體甚至個人添加或修改詞表內(nèi)容。采用一個開放的平臺不僅為資源建設(shè)加入了眾多人力資源,還為詞表建設(shè)提高了社會影響力,將詞表建設(shè)納入持續(xù)發(fā)展的軌道。
2.3技術(shù)先進(jìn)、內(nèi)容豐富的詞表結(jié)構(gòu)設(shè)計
良好的詞表結(jié)構(gòu)和內(nèi)容設(shè)計關(guān)系著詞表使用前途與社會效益,應(yīng)全面加以研究及評估,主要包括:
●詞表應(yīng)采用分類法和主題詞法一體化的架構(gòu),既能按照學(xué)科分類為基礎(chǔ),對詞的概念從總到分,層層隸屬的組織和排列,形成上下級隸屬關(guān)系與同級概念并列關(guān)系的體系結(jié)構(gòu);還能在揭示內(nèi)容以及檢索分析時,根據(jù)邏輯概念和知識分類進(jìn)行有效關(guān)聯(lián)。
●詞表內(nèi)容設(shè)計中應(yīng)包含多種語言詞匯的對照與映射關(guān)系。在建立中文詞內(nèi)部邏輯關(guān)系時(如同義、反義、邏輯關(guān)系),同時也完成其他語種的對應(yīng)鏈接工作及語義級邏輯的歸納。
●將本體研究技術(shù)與詞表建設(shè)相結(jié)合,通過本體的概念和角色的規(guī)范化與結(jié)構(gòu)化,為詞表提供類屬視圖及結(jié)構(gòu)化模式[4]。此外,針對當(dāng)前已存在的一體化兼容詞表的類目與主題詞,建立規(guī)范的邏輯轉(zhuǎn)換。
●規(guī)劃多項輔助詞表的建設(shè),完善禁用詞、關(guān)鍵詞、同義詞和反義詞等多種詞表工具;并且建立完備的多種索引機(jī)制,提高詞表的使用性能與效率。
●全面設(shè)計詞表的接口,做到標(biāo)準(zhǔn)化、模塊化。詞表的接口設(shè)計完備,既可以方便用戶從高層應(yīng)用角度訪問詞表內(nèi)容,又可以將自身作為一個工具或組件嵌入到其他項目業(yè)務(wù)應(yīng)用領(lǐng)域中,完成業(yè)務(wù)級底層調(diào)用。
2.4詞表的應(yīng)用與維護(hù)體系建設(shè)
現(xiàn)代詞表是一個不斷建設(shè)和發(fā)展的事物,是一個集成―服務(wù)―再集成―再服務(wù)的循環(huán)過程,詞表永遠(yuǎn)沒有建設(shè)完畢的時刻,期待詞表建設(shè)完畢再向社會提供服務(wù)是不切實際的,它不是某一項具體工程建設(shè)任務(wù),需要持續(xù)地建設(shè)和發(fā)展。詞表的運行服務(wù)體系如圖1所示:
圖1 詞表應(yīng)用服務(wù)平臺體系結(jié)構(gòu)
由圖1可見,詞表應(yīng)用服務(wù)分為詞表加工,服務(wù)系統(tǒng)平臺和詞表應(yīng)用三個部分,主要遵從以下要點:
●構(gòu)建維基式的開放詞表服務(wù)平臺,面向社會團(tuán)體和個人開放,系統(tǒng)通過維基詞表類似的權(quán)限管理系統(tǒng)與版本恢復(fù)機(jī)制完成對詞表內(nèi)容的版本維護(hù)。除此之外,系統(tǒng)可以依托計算機(jī)信息處理技術(shù)發(fā)展,對于語料庫及科技論文關(guān)鍵詞等特定信息源數(shù)據(jù)作批量轉(zhuǎn)換處理,由此構(gòu)成的詞表信息庫全部面向互聯(lián)網(wǎng)開放,接受社會團(tuán)體或個人的維護(hù)。
●在新的詞表應(yīng)用服務(wù)平臺體系結(jié)構(gòu)下,詞表庫結(jié)構(gòu)設(shè)計應(yīng)該全面,內(nèi)容布局合理,具有明確的分類和索引。
●充分保護(hù)已有的詞表建設(shè)成果,開發(fā)專用的轉(zhuǎn)換器,將其納入到新詞表體系中。
●充分采用信息處理技術(shù)的最新研究成果,通過學(xué)術(shù)論文關(guān)鍵詞處理加工、語料庫詞匯統(tǒng)計技術(shù)、人工智能分詞技術(shù)[5-6],引入新詞并全面構(gòu)建詞間的邏輯關(guān)系。
●在詞表的應(yīng)用中,系統(tǒng)將提供兩種接口:一種是高層的web應(yīng)用,該接口可以使其他的web應(yīng)用系統(tǒng)隨時調(diào)用當(dāng)前詞表平臺的服務(wù);另外一種是底層的嵌入式工具,詞表系統(tǒng)應(yīng)開發(fā)一個組件式底層嵌入工具,將詞表工具無縫地嵌入到其他應(yīng)用服務(wù)系統(tǒng)的業(yè)務(wù)處理流程中,從而為詞表的廣泛應(yīng)用提供堅實的技術(shù)支持。
2.5 詞表的重點應(yīng)用領(lǐng)域
詞表的建設(shè)與應(yīng)用應(yīng)該是同步的,只有這樣才能使詞表不斷發(fā)展壯大,在不斷完善服務(wù)的同時還能擴(kuò)大社會影響力。因此,進(jìn)行詞表建設(shè)的同時還要重點開發(fā)其在若干領(lǐng)域的應(yīng)用,以引起國家和社會各部門的關(guān)注,只有這樣,眾多行業(yè)才能相繼聚攏在統(tǒng)一的平臺下。詞表建設(shè)不是信息情報分析部門的責(zé)任,而是社會各行業(yè)的共同責(zé)任。詞表應(yīng)該優(yōu)先完成以下領(lǐng)域的應(yīng)用示范:
●每年定期發(fā)布各個科技研究領(lǐng)域或者相關(guān)行業(yè)的熱點主題詞和最新產(chǎn)生的詞匯。
●定期根據(jù)主題詞的演變過程歸納重點行業(yè)的科技發(fā)展研究趨勢。
●開發(fā)詞表底層應(yīng)用組件,按行業(yè)、領(lǐng)域定制組合,可方便地嵌入到各個行業(yè)知識檢索與知識管理中,這關(guān)系著詞表能否真正產(chǎn)生社會效益。
●建立詞表的高層集成加工平臺,方便各個行業(yè)團(tuán)體或個人的協(xié)作開發(fā)建設(shè),為社會團(tuán)體、企業(yè)提供共建共享服務(wù)。
3結(jié)語
Wiki不是深奧的技術(shù),而它的深刻內(nèi)涵是將一群平常的人聚合在一起,做成了不平常的事情。同理,在詞表建設(shè)過程中亦是如此。
詞表建設(shè)是一項國家基礎(chǔ)性建設(shè)工程,是我國自主駕馭漢語知識能力強弱的里程碑,它的建成對于我國科學(xué)技術(shù)研究、社會文化研究都將產(chǎn)生難以估量的重大影響。但是應(yīng)該清楚地看到:建成具有全面設(shè)計體系,完善管理功能,自主運行能力的一整套漢語詞表體系工程需要政府、研究機(jī)構(gòu)、企業(yè)等眾多社會機(jī)構(gòu)的參與,這是一項龐大的系統(tǒng)工程,需要政府以及全社會站在國家和民族利益的高度來衡量與規(guī)劃,也只有這樣才能使?jié)h語詞表真正得以順利持久地建設(shè),并將對我國信息化建設(shè)產(chǎn)生巨大的推動作用。
參考文獻(xiàn):
[1] 陳立.Wiki:網(wǎng)絡(luò)時代協(xié)同工作與知識共享的平臺.中國信導(dǎo)報,2005(1):51-54.
[2] 李綱.基于Wiki的組織內(nèi)部知識共享.江西社會科學(xué),2006(7):50-53.
[3] 常春.敘詞表編制歷史、現(xiàn)狀與發(fā)展.農(nóng)業(yè)圖書情報學(xué)刊.2002 (5):25-28.
[4] 張哲.利用本體和主題詞表的集成構(gòu)造RDF模式.微機(jī)發(fā)展.2004,14(3):87-92.
[5] 黃科.基于統(tǒng)計分詞的中文網(wǎng)頁分類.中文信息學(xué)報.2002,16(6):25-31.
[6] 張永奎.基于機(jī)器學(xué)習(xí)的網(wǎng)頁主題詞自動抽取.計算機(jī)應(yīng)用.2003, 23(3):1-3.
〔作者簡介〕 梁冰,男,1974年生,工程師,發(fā)表論文10篇;
喬曉東,男,1964年生,研究員,發(fā)表論文30余篇。
相關(guān)熱詞搜索:詞表 看我 建設(shè) 從維基文化看我國詞表建設(shè) 維基百科特點分析 維基百科中文網(wǎng)站
熱點文章閱讀