Scorpion自動標(biāo)引思想初探|思想初探
發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:
[摘要]介紹OCLC的Scorpion項目在運用杜威十進分類法探索電子資源自動標(biāo)引和編目方面所做的主要研究工作,并對杜威法作為自動主題識別工具的可行性進行驗證;接著建立Scorpion杜威數(shù)據(jù)庫實驗并對其進行結(jié)果評價和結(jié)果集改進,分析Scorpion的核心思想和技術(shù),最后簡單評價scorpion所取得的成績以及在自動標(biāo)引上取得的新進展。
[關(guān)鍵詞]Scorpion 自動標(biāo)引 杜威十進分類法
[分類號]G250.73
Scorpion是OCLC運用圖書館學(xué)和計算機信息檢索技術(shù)建立自動主題標(biāo)引工具的一個研究項目,目前已創(chuàng)建了一些自動主題標(biāo)引工具,其在探索中運用的一些思想對于研究網(wǎng)絡(luò)資源的自動標(biāo)引和編目具有較大借鑒意義。筆者系統(tǒng)地搜集了Scorpion項目資料,并對其研究內(nèi)容進行了具體分析,希望有助于進一步研究自動標(biāo)引和網(wǎng)絡(luò)信息資源組織與編目。
1 Scorpion概述
在計算機網(wǎng)絡(luò)技術(shù)迅速發(fā)展的背景下,電子網(wǎng)絡(luò)資源日益增多,終端用戶很難查詢到所需的精確信息。在此背景下,OCLC啟動了探索電子資源自動標(biāo)引和編目的研究項目Scorpion,其研究的重點在于建立一個基于杜威十進分類法的自動主題識別工具。Scorpion的簡單處理流程包括如下步驟(見圖1):首先,確定一組要包含在杜威等級檢索數(shù)據(jù)庫中的ESS記錄,并從這些記錄中選取一些字段來建立數(shù)據(jù)庫;其次,將要標(biāo)引的電子資源轉(zhuǎn)換成相應(yīng)數(shù)據(jù)庫的檢索提問,并在Scorpion杜威數(shù)據(jù)庫中進行檢索,輸出的結(jié)果集即可看作該資源潛在的標(biāo)引主題詞。盡管Scorpion最初的一些思想是容易被證明的,Scorpion研究人員仍花費了大量時間來精煉分級檢索數(shù)據(jù)庫,并且在輸入數(shù)據(jù)的預(yù)處理和輸出結(jié)果集的后處理上做了大量的工作。目前,對結(jié)果集的后處理已成為Scorpion關(guān)注的焦點。 綜觀Scorpion目前的研究,主要有如下幾方面:①Scorpion杜威等級數(shù)據(jù)庫的建立。在這一工作中,Scorpion研究人員分別探討了Scorpion與杜威十進分類法的關(guān)系以及Scorpion杜威實驗數(shù)據(jù)庫結(jié)果的檢驗、評價和改進,其中使用了截詞算法和SMART的幾種得分算法,尤其重要的是引入杜威法上下位類等級關(guān)系,提高了自動標(biāo)引的質(zhì)量。②Scorpion實驗結(jié)果集的改進及其質(zhì)量評價。在這一研究中,Scorpion研究人員運用對比杜威號碼集和Scorpion結(jié)果集的方法,并在結(jié)果集的改進中提出了幾種過濾方法。③其余相關(guān)研究,如Scorpion與自動聚類的關(guān)系等。
2 建立Scorpion杜威、實驗數(shù)據(jù)庫過程中的研究
OCLC發(fā)起Scorpion項目之目的在于以合理的成本費用將等級分類法和主題標(biāo)題法應(yīng)用于電子信息資源的組織與檢索,因而其論題之一即杜威十進分類法能否用于對電子信息資源進行自動主題分類。由于杜威法目前是由OCLC森林出版社使用編輯支持系統(tǒng)(Editori―al support system,簡稱ESS)以電子方式在線進行維護的,ESS系統(tǒng)相應(yīng)的記錄可用來制作杜威十進分類法最近的印刷版本,因而Scorpion隱含的思想之一即使用ESS記錄來建立自動標(biāo)引文獻主題的等級檢索數(shù)據(jù)庫,然后把某一文獻看作這些數(shù)據(jù)庫的檢索提問,檢索的結(jié)果即作為該文獻可能的主題標(biāo)引詞集合。
2.1建立實驗數(shù)據(jù)庫的基本方法和思想
由于任何分類工具都希望其依據(jù)的知識基礎(chǔ)立類完整,每一個主題概念明確無歧義。因而在建立杜威數(shù)據(jù)庫的過程中,Scorpion研究人員首先對杜威法是否可作為自動主題分類工具進行了驗證。具體做法即根據(jù)ESS記錄中描述的概念建成數(shù)個數(shù)據(jù)庫,然后將每一概念都轉(zhuǎn)換成針對相應(yīng)數(shù)據(jù)庫的檢索請求,讓分級檢索軟件確定數(shù)據(jù)庫中與輸入概念最為匹配的概念。
研究人員選用了SMARTll,O版(System for Ma-nipulating and Retrieving Text)作為實驗數(shù)據(jù)庫平臺,并選取了SMART的兩種得分算法ATN和ATC,這兩種算法是以同樣的方法來確定術(shù)語權(quán)重的,區(qū)別在于ATN計算的僅是術(shù)語權(quán)重的簡單總和,而ATC則使用記錄的長度將其權(quán)重標(biāo)準(zhǔn)化到0.0和1.0區(qū)間內(nèi)。標(biāo)準(zhǔn)化的目的是為了削減較長記錄比較短記錄更容易被檢索的特點。記錄長度之所以被作為實驗考慮的一個因素,是因為在等級層次中越靠后的概念具有的限制術(shù)語數(shù)越多。
在實驗過程中,研究者發(fā)現(xiàn)ESS記錄實際上是依賴于杜威法的上下位類等級屬性來完整定義一個概念。針對ESS記錄數(shù)據(jù)庫的檢索提問,只有當(dāng)考慮了號碼的等級層次以及與之關(guān)聯(lián)的概念短語時,才可能產(chǎn)生更精確的檢索結(jié)果。因而,研究者調(diào)查了在概念記錄中增加上下位類等級信息對Scorpion結(jié)果的影響。除此之外,研究人員還檢測了截詞法對杜威法概念術(shù)語檢索結(jié)果的影響,即建立有截詞算法功能和無截詞算法功能的兩種不同版本Scorpion數(shù)據(jù)庫。
此實驗是在6個特定數(shù)據(jù)庫中進行的,輸入的檢索提問記錄都限于該記錄所在的數(shù)據(jù)庫,如表1所示:
2.2實驗過程
為了客觀評價Scorpion杜威數(shù)據(jù)庫,研究人員首先檢測了一條輸入檢索提問概念被轉(zhuǎn)換成潛在主題排序列表中第一條結(jié)果的頻率。實驗假定只要輸入的檢索提問概念出現(xiàn)在排序結(jié)果中,就表明自我匹配發(fā)生。并且實驗中所有的結(jié)果集都只包含20個概念。這樣,每個結(jié)果集至多應(yīng)包含有1個自我匹配記錄和至少19個自我不匹配記錄。
對于杜威號307.77(Self-contained communities),使用012數(shù)據(jù)庫和ATC得分算法,得到如表2所示的20個返回概念:
以上實驗結(jié)果非常滿意,自我匹配記錄出現(xiàn)在排序的第一條,并且超過半數(shù)的其他檢索概念出自數(shù)據(jù)庫中杜威號307所在的同一領(lǐng)域。
而事實上并非每一個ATC算法結(jié)果集中自我匹配記錄都出現(xiàn)在序號1的位置上,這主要是SMART系統(tǒng)本身的兩個因素造成的:①在ATC得分算法下,當(dāng)一個概念和它自身對比的時候,返回的得分總是為1.0(最高的可能得分)。因而,在結(jié)果集中每一個輸入的概念得分都會為l,問題在于由于ATC得分算法的標(biāo)準(zhǔn)化,其他概念的得分也會為1.0。②SMART系統(tǒng)對所返回的具有同樣得分的記錄是按照SMART內(nèi)部文獻號的遞減順序排列的,而Scorpion數(shù)據(jù)庫是按杜威號的升序排列的。因而,在確定所輸入的檢索提問概念作為潛在主題排序列表中第一個返回結(jié)果的頻率時,在同樣的得分組中,概念是按杜威號的遞減順序排列的。
考慮到以上兩個因素,研究人員計算了某個輸入概念在一個給定數(shù)量的分值為1.O的關(guān)系組中出現(xiàn)的次數(shù),并將這些結(jié)果值繪制成圖(見圖2)。其中,x軸表示包含輸入記錄得分為1.0的結(jié)果集的數(shù)量大小,Y 軸表示具有這個數(shù)量或更少的關(guān)系組的所有結(jié)果集占總數(shù)的累計百分比。例如,數(shù)據(jù)庫012的結(jié)果集有99%是由得分為1、概念數(shù)量為4或更小的關(guān)系組組成。對數(shù)據(jù)庫012、013、015和016來說,至少97%的輸入概念作為排序號最高的概念和自身相匹配。在兩個沒有上下位等級的數(shù)據(jù)庫011和014中,結(jié)果不盡滿意,但是其匹配率仍然在93%以上。
2.3實驗發(fā)現(xiàn)――上下位類等級信息對Scorpion杜威數(shù)據(jù)庫有重要影響
在圖2中,將具有截詞功能和不具有截詞功能的數(shù)據(jù)庫進行對比(數(shù)據(jù)庫011和014對比,012和015對比,013和016對比),發(fā)現(xiàn)截詞功能對于自我匹配效果的影響不是很明顯。產(chǎn)生影響的主要因素是所包含的等級關(guān)系信息的數(shù)量,包含有上下位類等級關(guān)系數(shù)據(jù)庫的結(jié)果比僅包含上位類的數(shù)據(jù)庫更好?梢灶A(yù)言,兩者的結(jié)果都優(yōu)于不包含等級關(guān)系的數(shù)據(jù)庫。為了進一步驗證以上結(jié)果,又使用SMART ATN得分算法進行了相似的分析,同樣證明在概念中增加其上下位類等級記錄后,其結(jié)果得到了最大程度的改善。
表3列出了杜威法中的概念535,028在數(shù)據(jù)庫011,012,013中運用ATC算法檢索所得的前20條匹配記錄。值得注意的是在數(shù)據(jù)庫011的結(jié)果中ATC得分為1,O的大量的杜威概念號碼(等級序號從1-15)。當(dāng)通過增加上下位類關(guān)系使概念具有更多的上下文環(huán)境時,數(shù)據(jù)庫011中前邊的匹配概念在數(shù)據(jù)庫012和013中被分散了。在數(shù)據(jù)庫012中只有三條非自我匹配的(用黑體顯示出來)概念仍然保留在前20條記錄中。同樣在數(shù)據(jù)庫013的檢索結(jié)果中,只有6條記錄仍然被保留下來。
圖3和圖4以繪圖的形式展示了上下位類關(guān)系對記錄自我匹配效果的影響。這兩個圖是關(guān)于輸入某一檢索提問概念的前20條記錄散布圖。其中x軸是相應(yīng)的檢索提問概念的杜威號,Y軸是檢索出的相應(yīng)概念的杜威號。通過對比圖3和圖4,可以明顯看出上下位類信息加強了概念間的匹配。
2.4實驗結(jié)論
從以上實驗中得出的結(jié)論有:①杜威法描述了一個高度結(jié)構(gòu)化的分類整體,其中的概念定義很嚴(yán)密,互不交叉;②增加上下位類環(huán)境可以在很大程度上改善Scorpion為主題概念分配較窄范圍號碼的能力。以上結(jié)論表明杜威法是自動分類工具可依據(jù)的很好的知識基礎(chǔ);③實驗結(jié)果集中還出現(xiàn)了明顯不符合要求的記錄,還有待進一步改進。
3 結(jié)語
Scorpion是基于杜威法來建立sc唧ion標(biāo)引數(shù)據(jù)庫,并通過對該數(shù)據(jù)庫的檢索得到標(biāo)引詞集合的一種將關(guān)鍵詞和賦詞標(biāo)引相結(jié)合的方法。sc0Ipion在建立杜威數(shù)據(jù)庫過程中引入杜威法的上下位類等級關(guān)系以改善結(jié)果,此方法對于目前的自動標(biāo)引研究有較大的借鑒意義。這一思想在中文自動標(biāo)引研究中也有所反映,如韓客松與王永成在其《中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引》一文中,提出了一種用層次概念詞典改進主題詞標(biāo)引質(zhì)量的新方法。另外,針對僅僅用主題詞標(biāo)引的不連貫性等缺陷,提出采用直接選取上位詞、通過聚類產(chǎn)生上位詞、由兩個或以上的主題詞合成主題概念三種方法進行主題概念標(biāo)引。由于目前還沒有好的層次概念詞典,尚不能運用這一思想進行真實文本測試?偟膩砜矗M管scorpion已經(jīng)建立了一些自動主題標(biāo)引的工具,但是還不能進行完全智能操作,并且其自動結(jié)果集中仍存在明顯不符合要求的記錄,還需要對結(jié)果集進行進一步過濾和改進。因此,迄今為止scorpion還不能代替手工編目,但對于可獲得的電子資源來說,它可以向手工編目員提供一個主題列表,供其從中選擇最適合的主題,從而降低傳統(tǒng)編目的成本。這已經(jīng)將目前的自動標(biāo)引和網(wǎng)絡(luò)資源編目向前推進了一步。
相關(guān)熱詞搜索:標(biāo)引 初探 思想 Scorpion自動標(biāo)引思想初探 基于引文的自動標(biāo)引法初探 自動洗片機使用初探
熱點文章閱讀