關(guān)鍵詞語料庫_基于分類標(biāo)注語料庫的關(guān)鍵詞標(biāo)引知識(shí)自動(dòng)獲取
發(fā)布時(shí)間:2020-03-07 來源: 人生感悟 點(diǎn)擊:
〔摘要〕基于大規(guī)模層級(jí)分類語料庫,抽取網(wǎng)頁上專家已經(jīng)標(biāo)引的關(guān)鍵詞形成關(guān)鍵詞表;針對(duì)關(guān)鍵詞的領(lǐng)域不均勻性和鄰界域兩個(gè)特征,提出并模擬計(jì)算了關(guān)鍵詞表征文本主題特征程度的主題度。以關(guān)鍵詞及其主題度為領(lǐng)域知識(shí),結(jié)合統(tǒng)計(jì)方法,完成了一個(gè)知識(shí)與統(tǒng)計(jì)相結(jié)合的關(guān)鍵詞自動(dòng)標(biāo)引系統(tǒng)。
〔關(guān)鍵詞〕關(guān)鍵詞標(biāo)引 分類語料庫 主題度
〔分類號(hào)〕G254.361 TP391.1
Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus
Liu Hua
College of Chinese Language and Culture of Jinan University, Guangzhou510610
〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words" subject degree by statistical model.Subject degree expresses text content" s subject concept. Based on subject degree, constructed a key words auto-indexing system.
〔Keywords〕keywords indexing classed corpus subject degree
1關(guān)鍵詞標(biāo)引知識(shí)
關(guān)鍵詞自動(dòng)標(biāo)引根據(jù)文檔的主題內(nèi)容,借助計(jì)算機(jī)處理技術(shù),自動(dòng)從文檔中直接抽取關(guān)鍵詞作為標(biāo)引詞。關(guān)鍵詞自動(dòng)標(biāo)引可分為兩種:基于知識(shí)的和基于統(tǒng)計(jì)的。基于知識(shí)的關(guān)鍵詞標(biāo)引通常見于圖書館文獻(xiàn)標(biāo)引領(lǐng)域,主要基于已有的標(biāo)引資源,如《漢語主題詞語表》、《中國分類詞語表》及其復(fù)分表以及各?菩灾黝}標(biāo)引手冊(cè)等,利用文獻(xiàn)標(biāo)引規(guī)則,由專家手工標(biāo)引;诮y(tǒng)計(jì)的主題詞標(biāo)引主要借助于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)算法實(shí)現(xiàn),如馬爾可夫統(tǒng)計(jì)模型和互信息、最大熵模型等。
關(guān)鍵詞自動(dòng)標(biāo)引的任務(wù)包括:①文檔表示為怎樣的詞語集合作為關(guān)鍵詞候選項(xiàng) ;②依據(jù)什么標(biāo)準(zhǔn)選出候選項(xiàng)作為關(guān)鍵詞。
因此,關(guān)鍵詞自動(dòng)標(biāo)引需要的領(lǐng)域知識(shí)主要包括:關(guān)鍵詞候選項(xiàng)、表示詞語主題象征性能力的某種強(qiáng)度或權(quán)重。
本文基于大規(guī)模層級(jí)分類標(biāo)注語料庫,抽取網(wǎng)頁上專家已經(jīng)標(biāo)引的關(guān)鍵詞形成超大詞語表;針對(duì)關(guān)鍵詞的領(lǐng)域不均勻性和鄰界域兩個(gè)特征,提出并模擬計(jì)算了關(guān)鍵詞表征文本主題特征程度的主題度。
2基于語料庫的關(guān)鍵詞標(biāo)注知識(shí)獲取
2.1專家標(biāo)引的網(wǎng)頁關(guān)鍵詞獲取
在構(gòu)建文本分類和主題詞標(biāo)引系統(tǒng)時(shí),我們建立了一個(gè)超大規(guī)模的語料庫。語料來自幾個(gè)門戶網(wǎng)站,時(shí)間跨度為3年(2003-2005),共約60萬個(gè)網(wǎng)頁,6億字。對(duì)60萬個(gè)網(wǎng)頁提取出詳細(xì)的語料信息,如標(biāo)題、欄目、關(guān)鍵詞、時(shí)間、同主題鏈接標(biāo)題和正文。
同時(shí),我們通過對(duì)4個(gè)門戶網(wǎng)站、3個(gè)搜索引擎和13個(gè)主流報(bào)紙網(wǎng)站的欄目分類體系和傳統(tǒng)分類體系的對(duì)比研究,使用同名欄目去重、相似欄目合并、異名同類欄目映射、子類欄目提煉上升等手段,最終在總結(jié)各大網(wǎng)站欄目共性的基礎(chǔ)上,重點(diǎn)考慮“主題劃分”、“生活優(yōu)先”的原則,歸納出一個(gè)網(wǎng)頁分類用類目體系。該體系分15個(gè)大類,層級(jí)類別最深為4級(jí),如“科技_數(shù)碼_視頻_數(shù)字電視”,類目總共244個(gè)。
將語料庫的網(wǎng)頁欄目和已建立的網(wǎng)頁分類體系進(jìn)行映射,最終,形成以XML格式存儲(chǔ)的詳細(xì)標(biāo)注語料屬性的層級(jí)分類語料庫。
語料庫信息匯總見表1(僅列舉大類):
在網(wǎng)頁信息提取時(shí),我們發(fā)現(xiàn)很多網(wǎng)頁已經(jīng)人工標(biāo)引了關(guān)鍵詞。關(guān)鍵詞往往標(biāo)引在標(biāo)題下面,是那些具有文本主題表示功能的詞語。關(guān)鍵詞是對(duì)一個(gè)網(wǎng)頁的主題進(jìn)行描述的關(guān)鍵性詞語,一般一個(gè)網(wǎng)頁約兩三個(gè)關(guān)鍵詞。例如一篇題為《中國民航總局解禁“紅眼航班” 消費(fèi)者喜聞樂見》的網(wǎng)頁,其關(guān)鍵詞為“民航、紅眼航班”。這些關(guān)鍵詞都是網(wǎng)站主題標(biāo)引專家長期積累下來的集體智慧,是我們基于知識(shí)的標(biāo)引系統(tǒng)非常珍貴的專家資源,不僅為我們的關(guān)鍵詞標(biāo)引詞表提供了來源,也為我們進(jìn)行的文本分類和主題詞標(biāo)引提供了很好的訓(xùn)練和測(cè)試語料。
我們?cè)谏衔慕⒌某笠?guī)模分類語料庫中抽取出其中已標(biāo)注的關(guān)鍵詞,總共獲得229 237個(gè)詞條(去重后),按網(wǎng)頁的主題屬性存儲(chǔ)進(jìn)詞表,形成15個(gè)大類的領(lǐng)域關(guān)鍵詞詞表和244個(gè)小類的領(lǐng)域關(guān)鍵詞詞表。
表2是科技、經(jīng)濟(jì)、藝術(shù)、汽車、體育、旅游、教育抽取的7類關(guān)鍵詞舉例。
2.2關(guān)鍵詞主題度計(jì)算
在情報(bào)學(xué)上,關(guān)鍵詞是指在論文標(biāo)題、摘要或正文中,用以標(biāo)識(shí)和表達(dá)文檔主題概念的詞語。關(guān)鍵詞的主要特征是主題性:關(guān)鍵詞揭示的是文檔最核心的內(nèi)容,關(guān)鍵詞能高度概括和代表整個(gè)文檔的基本內(nèi)容,是文檔的靈魂。
戴璞認(rèn)為“關(guān)鍵詞表達(dá)主題概念時(shí)能準(zhǔn)確地表達(dá)事物的本質(zhì)屬性”;王明燕認(rèn)為“關(guān)鍵詞是用以表示文章主題、內(nèi)容、信息、款目的單詞或術(shù)語,是反映文章內(nèi)容的名詞性術(shù)語,對(duì)文章內(nèi)容具有實(shí)質(zhì)性意義的詞或詞組,是表達(dá)文獻(xiàn)主題概念的自然語言詞匯”;楊一瓊認(rèn)為關(guān)鍵詞的主要特征是“主題性:關(guān)鍵詞揭示的是學(xué)術(shù)論文最核心的內(nèi)容,是文章最基本的學(xué)術(shù)思想、技術(shù)方法的提煉與概括,具有鮮明的主題色彩,讀者只要分析一下關(guān)鍵詞,就可大致研判論文的學(xué)科類別、主題內(nèi)容及可能提供的信息量”。
因此,我們引入了主題度概念來表示一個(gè)詞語對(duì)文檔主題概念的表征程度。主題度,是指在文本表示時(shí),將文本的主題特征(例如主題概念、核心內(nèi)容、中心思想等)鮮明地表示出來的程度。例如,常見的虛詞性成分(如“總而言之”)的文本主題表示功能較弱,主題度弱;而一些領(lǐng)域性強(qiáng)的體詞性成分(如“封閉式基金”)則文本主題表示功能較強(qiáng),主題度強(qiáng)。
標(biāo)引的關(guān)鍵詞應(yīng)該主題度高,這就需要在權(quán)重計(jì)算時(shí)不僅降低常用詞,而且應(yīng)該凸顯主題特征明顯的詞語。通常的關(guān)鍵詞標(biāo)引特別是基于詞串統(tǒng)計(jì)的關(guān)鍵詞標(biāo)引方法,最大的問題在于流于簡(jiǎn)單的詞頻統(tǒng)計(jì),往往過分突出了詞頻的影響。我們?cè)跇?gòu)建的大規(guī)模分類語料庫中進(jìn)行詞語的主題度訓(xùn)練,獲得了每一詞語的主題度。
戈夫曼提出,文獻(xiàn)詞匯的分布由高頻轉(zhuǎn)向低頻時(shí),可能存在著一個(gè)鄰界域,由于高頻詞多為功能詞,低頻詞在很低程度上是作者用詞特點(diǎn)的反映,只有處于鄰界域內(nèi)的詞才真正表達(dá)文獻(xiàn)的主題內(nèi)容,這些詞經(jīng)過停用詞表的刪除最適合做標(biāo)引詞。對(duì)已經(jīng)專家標(biāo)引的關(guān)鍵詞作進(jìn)一步分析,我們發(fā)現(xiàn)關(guān)鍵詞通常偏向于專業(yè)領(lǐng)域里的術(shù)語性較強(qiáng)的詞語,大多就是術(shù)語。術(shù)語是專業(yè)領(lǐng)域中概念的語言指稱,其主要特征也是主題性,關(guān)鍵詞的主題度就是術(shù)語主題性特征的反映。
因此,我們認(rèn)為關(guān)鍵詞主題度的本質(zhì)在于其領(lǐng)域分布的不均勻性,關(guān)鍵詞與領(lǐng)域類別密切相關(guān),是某一領(lǐng)域中具有一定頻次的(鄰界域內(nèi))區(qū)別于其他領(lǐng)域內(nèi)容特征的體詞性成分。從表2例舉的關(guān)鍵詞中,我們也可以發(fā)現(xiàn)這點(diǎn)。
基于關(guān)鍵詞的領(lǐng)域不均勻性(主題表征性)和鄰界域的考慮,我們?yōu)殛P(guān)鍵詞的主題度獲取設(shè)計(jì)了形式化的計(jì)算模型(陳克利,2003):
方差是體現(xiàn)數(shù)據(jù)分布是否均勻的很好的數(shù)學(xué)指標(biāo),但從方差公式中可以看出,方差大小又受到詞頻大小的影響,為了消除此影響(因?yàn)樵~頻因素將通過測(cè)試時(shí)被標(biāo)注文檔的詞頻來體現(xiàn),方差需要的只是訓(xùn)練時(shí)詞頻之間的差異性表示),我們用方差除以該詞在各類中詞頻之和來表示關(guān)鍵詞在不同類之間的分布差異性。
這是對(duì)領(lǐng)域性不均勻性(主題表征性)的數(shù)學(xué)模擬,對(duì)關(guān)鍵詞鄰界域的性質(zhì)則通過〔log(N(wi)/N)〕2來模擬表示,含義為:總訓(xùn)練語料中出現(xiàn)次數(shù)相對(duì)較少的關(guān)鍵詞其權(quán)重相對(duì)較高。為削弱兩頭高低頻次的過分影響,拉近高頻與低頻詞語的頻率距離,突出頻率鄰界域中的詞語,采用對(duì)數(shù)后平方的方法進(jìn)行詞語頻率的平滑。這就避免了大量高頻的功能性虛詞(如“的、了、在、我”,等等)和低頻的個(gè)性化詞語(一些非常見的數(shù)字字母串、書面語、古語、方言詞,如“TODS、殘日、稟陳、圍嘴兒”)的出現(xiàn),同時(shí)又照顧到中低頻的術(shù)語詞語。當(dāng)然,關(guān)鍵詞在總語料中的出現(xiàn)次數(shù)并不能完全說明該詞在標(biāo)引中的重要性,頻率相同的關(guān)鍵詞在標(biāo)引中的重要性是不同的:在各類之間分布越均勻,其重要性越小,主題度越低,反之亦然。這就是我們將兩者結(jié)合起來(相乘)模擬表示主題度的原因。
詞頻統(tǒng)計(jì)后,進(jìn)行權(quán)重計(jì)算,計(jì)算公式如下:
T(wi) = Fw×nZtd(wi)
其中T(wi)表示詞語wi的權(quán)重,F(xiàn)w表示詞語w的頻率,n>=1,可自由設(shè)置,這里n=3。如果某詞語,如新的數(shù)字字母串(切分時(shí)遺留的),不在詞語表中,則沒有主題度?紤]到許多數(shù)字字母串也可能是關(guān)鍵詞,如“3721、Windows XP”等,因此權(quán)重計(jì)算時(shí)將其主題度設(shè)為350(所有詞語表中詞語主題度的均值高一點(diǎn))。
表3是詞語主題度計(jì)算后主題度最低的前40個(gè)詞語。
3基于領(lǐng)域知識(shí)的關(guān)鍵詞自動(dòng)標(biāo)引實(shí)現(xiàn)
基于上文獲得的領(lǐng)域知識(shí),我們完成了一個(gè)關(guān)鍵詞自動(dòng)標(biāo)引系統(tǒng)[8]。系統(tǒng)針對(duì)非學(xué)術(shù)性的中文文章自動(dòng)標(biāo)引關(guān)鍵詞。如一篇題為《微軟昨反訴歐盟 歷史上最大反壟斷官司再次升級(jí)》的文章,系統(tǒng)處理后,輸出標(biāo)引結(jié)果為“微軟、歐盟、反壟斷”。
測(cè)試集共105個(gè)XML文件,其中經(jīng)濟(jì)、科技類文檔約占一半。測(cè)試時(shí),針對(duì)幾個(gè)測(cè)試點(diǎn),兩人分別對(duì)105個(gè)文件進(jìn)行人工打分,打分時(shí)對(duì)每一測(cè)試點(diǎn)分別打分。然后,對(duì)每一測(cè)試點(diǎn)計(jì)算其平均分,列表如下:
最后,計(jì)算各測(cè)試點(diǎn)的綜合平均得分,約為8.08。
參考文獻(xiàn):
[1] 劉華.關(guān)鍵詞自動(dòng)標(biāo)引系統(tǒng)實(shí)現(xiàn).現(xiàn)代圖書情報(bào)技術(shù),2006(2):88-90.
[2] 劉華.網(wǎng)頁信息抽取及建庫系統(tǒng)C#實(shí)現(xiàn).計(jì)算機(jī)工程,2006,32(16):49-51.
[3] 葉志清,劉端紅,袁慶等.文獻(xiàn)信息計(jì)算機(jī)全文全自動(dòng)標(biāo)引方法.情報(bào)學(xué)報(bào),2003,22(2):169-172.
[4] 楊文峰,李星.基于PAT-TREE統(tǒng)計(jì)語言模型與關(guān)鍵詞自動(dòng)提取.計(jì)算機(jī)工程與應(yīng)用,2001,(15):17-20.
[5] 吳春玉.中文全文檢索系統(tǒng)中實(shí)現(xiàn)主題詞標(biāo)引思路.情報(bào)雜志,2005(1):115-117.
[6] 李素建.關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究.計(jì)算機(jī)學(xué)報(bào),2004,7(9):1192-1197.
[7] 陳克利.基于大規(guī)模真實(shí)文本的平衡語料分析與文本分類方法[C]//孫茂松.Advances in Computation of Oriental Languages.北京:清華大學(xué)出版社,2003:540-545.
[8] 主題詞自動(dòng)標(biāo)引在線演示地址.[2007-04-25].http://www.省略/class_demo.aspx.
注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。”
相關(guān)熱詞搜索:標(biāo)引 語料庫 標(biāo)注 基于分類標(biāo)注語料庫的關(guān)鍵詞標(biāo)引知識(shí)自動(dòng)獲取 開淘寶怎么做優(yōu)化推廣 搜索引擎排名優(yōu)化
熱點(diǎn)文章閱讀