www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

abc分類法例題及答案 自由分類法實例研究

發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:

  [摘要]從信息組織和檢索語言的角度對自由分類法的概念、發(fā)展、特征、功能和運行機制進行分析。以中文博客網(wǎng)站BlogBus為例對自由分類法進行實例研究,初步揭示中文自由分類法的語言特征,驗證自由分類法對冪律分布的遵循,并與英文領(lǐng)域類似研究的發(fā)現(xiàn)進行簡要比較。
  [關(guān)鍵詞]自由分類法 標(biāo)簽 網(wǎng)絡(luò)
  [分類號]G302
  
  1 自由分類法研究綜述
  
  2004年8月,信息構(gòu)建專家Thomas Vander Wal首先提出了“Folksonomy”(“自由分類”)這一名詞。自由分類法的概念提出后,引起了眾多學(xué)者的關(guān)注和討論,Clay Shirky、David等人都以博客的形式發(fā)表了對這一新的信息組織方式的論述文章。Emanuele QuintareIli在總結(jié)已有的各種觀點的基礎(chǔ)上,將自由分類法與傳統(tǒng)的等級列舉式分類法和分面組配式分類法進行了詳細(xì)的對比。指出三者適用于不同的資源和用戶,自由分類法不會替代傳統(tǒng)分類法,而是提供一個新的角度看待信息的分類組織方式以及用戶的新信息需求和行為,此外本體構(gòu)建學(xué)者Tom Gruber認(rèn)為,用戶產(chǎn)生的標(biāo)簽數(shù)據(jù)體現(xiàn)了群體智慧,但也是不規(guī)范和非形式化的,使用本體對這些數(shù)據(jù)進行形式化描述,有利于系統(tǒng)的互操作和知識的共享,并可以從中提取出豐富的語義信息。
  國內(nèi)關(guān)于自由分類法的討論也始于博客之中。他們認(rèn)為,對于用戶來說,自由分類法最大的價值就是簡單、實用,而在信息組織與檢索中存在的缺陷可以通過后臺系統(tǒng)的技術(shù)手段來解決。自由分類法與傳統(tǒng)信息組織方法的關(guān)系也是國內(nèi)研究者所共同關(guān)注的問題。較為一致的觀點是,自由分類法與傳統(tǒng)的分類法、主題法相比,是一種完全由用戶自發(fā)的、使用自然語言、不受控制的信息組織方式,簡單易用,更容易被大眾用戶所接受;但另一方面,自由分類法由于取消了嚴(yán)格的詞匯控制和等級結(jié)構(gòu),存在語義模糊、檢索的準(zhǔn)確率和查全率低、多語種支持不足以及標(biāo)簽濫用、信息垃圾等問題。同時,為改善自由分類法用于信息組織與檢索的效果,增加后控制手段也被認(rèn)為是必要的,學(xué)者們提出了自由分類法與分類法或詞表結(jié)合、增加同義詞控制、對檢索結(jié)果進行排序整理等構(gòu)想。
  
  2 自由分類法實例研究的方法與內(nèi)容
  
  2.1 實例研究的基本方法
  實例研究是國外學(xué)者對自由分類法的一種重要研究方法。實例研究選擇某一個特定的社會化標(biāo)注系統(tǒng),在掌握其主要功能和使用方法的基礎(chǔ)上,通過對用戶、資源和標(biāo)簽實際數(shù)據(jù)的收集、觀察和分析,揭示該系統(tǒng)中自由分類法的特征。作為最早支持自由分類法的成功應(yīng)用,Del.icio.us和Flikcr是選用頻率最高的兩個研究對象。
  數(shù)據(jù)收集的過程是根據(jù)研究目的從系統(tǒng)的用戶、資源和標(biāo)簽三種數(shù)據(jù)集合中收集一定量的樣本。標(biāo)簽是最核心的研究對象,一般可以通過兩種途徑獲。骸坝脩粢粯(biāo)簽”途徑,即首先選取一定量的用戶,通過直接Web訪問或定制RSS輸出獲得每個用戶的標(biāo)簽數(shù)據(jù);“資源―標(biāo)簽”途徑,即首先選取一定量的資源,通過直接Web訪問或定制RSS輸出兩種方式獲取與每項資源相關(guān)聯(lián)的標(biāo)簽。用于最終分析的數(shù)據(jù)中可能包含用戶、資源或標(biāo)簽的三種類型的實例以及三者之間的關(guān)系。
  由于自由分類法處于不斷的動態(tài)變化中,數(shù)據(jù)收集的工作一般在一定時間范圍內(nèi)進行,獲得的數(shù)據(jù)反映也是該系統(tǒng)在這一時間范圍內(nèi)的狀態(tài),并具有不可重現(xiàn)性。數(shù)據(jù)規(guī)模的大小一股根據(jù)研究的目的、條件和時間決定。
  對實例數(shù)據(jù)的分析包括定性和定量兩類方法。前者通過對實例的觀察,并可參照某種詞典或標(biāo)準(zhǔn),歸納概括出自由分類法的本質(zhì)特征;后者在一定規(guī)模的統(tǒng)計數(shù)據(jù)基礎(chǔ)上,借助SPSS等工具對數(shù)據(jù)集合中的數(shù)量關(guān)系進行分析,挖掘、描繪出其中的某種規(guī)律、趨勢或數(shù)據(jù)間的相關(guān)關(guān)系。
  
  2.2 實例研究的主要內(nèi)容
  基于實例數(shù)據(jù)可以展開多種分析,目前主要的研究內(nèi)容可以歸納為以下三個方面:
  ?對標(biāo)簽特征的研究,例如構(gòu)成標(biāo)簽的詞匯的性質(zhì)、形態(tài)、結(jié)構(gòu)、功能,以及整個系統(tǒng)中標(biāo)簽使用量的分布規(guī)律。
  ?對用戶標(biāo)簽使用行為的研究,例如用戶對一項資源使用幾個標(biāo)簽、用戶標(biāo)簽集合的規(guī)模與用戶的資源數(shù)量之間的關(guān)系,標(biāo)簽的動態(tài)變化與用戶需求變化之間的關(guān)系。
  ?對資源與標(biāo)注它的標(biāo)簽之間關(guān)系的研究,例如標(biāo)簽與資源之間的固定模式、對同一資源最常使用的標(biāo)簽等。
  由于不同的應(yīng)用系統(tǒng)針對不同的用戶需求提供不同的功能,特別是在資源類型和用戶行為上可能存在較大差異,因此上述后兩方面的研究往往針對特定系統(tǒng)制定目的和方法,數(shù)據(jù)分析的結(jié)果傾向于反應(yīng)該系統(tǒng)的狀態(tài)和特征。而對標(biāo)簽詞匯的研究則能夠在一定程度上揭示自由分類法作為一種信息組織方式和檢索途徑所表現(xiàn)出的共性以及某種語言文字的特性。
  
  3 實例樣本數(shù)據(jù)選取
  
  3.1 樣本簡介
  本文選擇的實例研究對象是中文博客網(wǎng)站BlogBus。BlogBus于2004年初開始試運行,其提供的首要功能是發(fā)布和管理博客文章。自由分類法是BlogBus為用戶提供的一種組織博客文章的方式,用戶每發(fā)布一篇文章可以最多添加5個標(biāo)簽,每個標(biāo)簽的長度為100個字符,多個標(biāo)簽使用空格間隔。
  
  3.2 實例數(shù)據(jù)的收集與說明
  本文從BlogBus的標(biāo)簽數(shù)據(jù)集中抽取一定量的樣本,通過研究中文用戶如何使用標(biāo)簽來描述資源,以總結(jié)中文自由分類法的語言特征,并對標(biāo)簽使用頻率的分布規(guī)律進行描繪和分析。實例數(shù)據(jù)收集主要集中在2008年3月2日至8日間,隨機選取30個BlogBus用戶,通過Web訪問的方式記錄每個用戶的標(biāo)簽,獲得每個用戶的標(biāo)簽列表信息,同時去掉其中純英文的標(biāo)簽。將30個用戶的標(biāo)簽去重,可以得到一個標(biāo)簽集合,共351個標(biāo)簽。系統(tǒng)提供了使用每個標(biāo)簽的用戶數(shù),體現(xiàn)了每個標(biāo)簽在整個系統(tǒng)空間中的使用情況,將這一數(shù)據(jù)記錄下來。例如訪問http://www.省略/tags/旅游,可以獲得所有使用“旅游”作為標(biāo)簽的博客文章列表,頁面上同時顯示“共有2241篇日志,598個Blog使用了該Fag”。將所有標(biāo)簽集合按照使用人數(shù)降序排列,數(shù)據(jù)中第一列“RANK”表示序號,第二列“TAG”表示標(biāo)簽,第三列“SCALE”表示該標(biāo)簽的使用人數(shù)。
  
  4 數(shù)據(jù)實例分析
  
  4.1 標(biāo)簽語言的特征
  觀察樣本數(shù)據(jù)中的標(biāo)簽,可以發(fā)現(xiàn)中文自由分類法的以下特征:
  首先,標(biāo)簽具有多種語法結(jié)構(gòu),包括詞、短語,甚至句子。由2~3個語素構(gòu)成的合成詞和多個詞構(gòu)成的短語是最普遍的標(biāo)簽形式,例如“心情”、“生活”等。也有部分標(biāo)簽由單個漢字構(gòu)成,例如“夢”、“雨”等。還存在少數(shù)情況直接以一個完整的句子作為一個標(biāo)簽。
  用于標(biāo)注博客文章的標(biāo)簽可能來源于文章中存在的文字,也可能是由用戶揭示的文章的隱含意義。這些中文標(biāo)簽的語 法結(jié)構(gòu)反映了一種用戶對語句進行分詞的現(xiàn)象。例如,對關(guān)于“我的心情故事”這類主題文章,用戶可能使用{“我的”、“心情”、“故事”}三個標(biāo)簽,也可能使用{“我的”、“心情故事”},或{“我的心情故事”}。從以上例子中可以發(fā)現(xiàn),用戶根據(jù)個人的認(rèn)知和需求,將語句劃分為不同“粒度”的標(biāo)簽,從而形成了多種語法結(jié)構(gòu)。從不同結(jié)構(gòu)的標(biāo)簽所占的比例和每個標(biāo)簽的使用人數(shù)上看,大部分用戶分詞的結(jié)果是較為規(guī)范的詞語,少數(shù)用戶將單字或句子作為標(biāo)簽,這樣的標(biāo)簽僅由用戶本人使用。
  其次,標(biāo)簽具有多種詞性。在詞語形式的標(biāo)簽中,絕大部分是代表不同抽象層次概念的名詞,例如:“日記”、“音樂”等。描述事物特征的形容詞也較為常見,例如“美麗”、“漂亮”。由于一些用戶直接將文章中的標(biāo)題或句子切分成若干標(biāo)簽,于是出現(xiàn)了個別動詞、介詞,甚至助詞性質(zhì)的標(biāo)簽。這些標(biāo)簽也是用戶分詞的結(jié)果,但對資源的有效標(biāo)引和檢索都不具有明顯意義,從使用情況上看這類標(biāo)簽也僅存在于少數(shù)用戶的列表中。
  最后,從功能上區(qū)分,中文自由分類法中的標(biāo)簽可以劃分為以下類型:
  ?標(biāo)識資源的主題,可能是原文中存在的關(guān)鍵詞,也可能是用戶對資源的命名。
  ?表示資源的類型。
  ?表示資源的功能或作用。
  ?專有名詞,例如人名、地名等。
  ?代表資源的屬性或特征。
  ?僅作為類目標(biāo)識,沒有具體意義,例如“默認(rèn)分類”。
  ?修飾其他類目,沒有獨立意義。
  除上述特征之外,筆者在對標(biāo)簽的觀察中還獲得了以下發(fā)現(xiàn):收集到的數(shù)據(jù)中既包含了網(wǎng)絡(luò)文化中的新名詞,例如“網(wǎng)賺”、“惡搞”,也體現(xiàn)了當(dāng)前的社會熱點問題,例如“物權(quán)法”、“釘子戶”等。通過特定的標(biāo)簽?zāi)軌蚝苋菀椎匕l(fā)現(xiàn)擁有相同興趣或關(guān)注領(lǐng)域的用戶群體,例如“電影”、“音樂”、“佛教”等。
  此外,語義控制和類目間關(guān)系的缺乏給基于標(biāo)簽的瀏覽和檢索造成了不便。例如,擁有多種含義的“蘋果”將不相關(guān)的內(nèi)容聚合到了一起;存在同義詞關(guān)系的“超女”和“超級女聲”、包含關(guān)系的“小說”和“網(wǎng)絡(luò)小說”卻不能將相關(guān)的內(nèi)容聚集和聯(lián)系,而是獨立分散于系統(tǒng)信息空間的不同位置。
  
  4.2 標(biāo)簽使用量的分布規(guī)律
  將樣本數(shù)據(jù)中RANK和SCAI正兩列的數(shù)據(jù)取值映射到坐標(biāo)系中,RANK(標(biāo)簽的序號)作為自變量x,SCAI正(標(biāo)簽的使用人數(shù))作為因變量y,用平滑曲線將坐標(biāo)系中的散點連接,圖像呈現(xiàn)出明顯的冪函數(shù)的特征。假設(shè)x和y的函數(shù)關(guān)系式為y=axb,利用SPSS進行回歸分析,得到b的取值約為2.16,a的取值約為5.7×105,R平方值為0.83,說明這一函數(shù)擬合具有較高的可信度。
  x軸代表RANK,即標(biāo)簽的序號,y軸代表SCALE,即標(biāo)簽的使用人數(shù)。排序在前幾位的標(biāo)簽具有較大的使用人數(shù),但這樣的標(biāo)簽僅是極少數(shù),使用人數(shù)超過1000的標(biāo)簽僅8個;隨著Rank值的增大,對應(yīng)標(biāo)簽的使用人數(shù)減少,且這一下降趨勢非常迅猛,使圖像的前半部分具有很大的切線斜率絕對值;在接下來的一段Rank取值區(qū)間中,圖像經(jīng)過一個短暫的過渡后,走勢逐漸趨于平穩(wěn),使用人數(shù)超過100的標(biāo)簽僅96個,更多的標(biāo)簽使用人數(shù)在100以下;圖像的后半段形成了一條基本與x軸平行的“長尾”,使用人數(shù)為2或1的標(biāo)簽為116個。
  用戶個人的標(biāo)簽在整個系統(tǒng)空間中聚集后呈現(xiàn)出了上述特征或規(guī)律。其中,使用人數(shù)最多的標(biāo)簽“默認(rèn)分類”是系統(tǒng)功能促成的結(jié)果:在應(yīng)用標(biāo)簽技術(shù)之前,BlogBus允許用戶將博客文章劃分為若干分類,每篇文章只能被歸入一個分類,對沒有歸入特定分類的文章,系統(tǒng)自動將其組織為一個“默認(rèn)分類”;開始推行自由分類法后,系統(tǒng)自動將用戶原有的類目轉(zhuǎn)換為了標(biāo)簽,因此“默認(rèn)分類”相當(dāng)于系統(tǒng)自動添加的一個標(biāo)簽,而且大多數(shù)用戶保留了這一標(biāo)簽。觀察使用人數(shù)超過“2”的標(biāo)簽,它們中的一部分反映了用戶在撰寫博客文章時常見的共同目的或思想,例如“隨筆”、“日記”等,這類標(biāo)簽的使用人數(shù)一般在200以上;另一部分標(biāo)簽反映了用戶共同關(guān)注的事物或興趣,例如“攝影”、“詩歌”、等。后一類標(biāo)簽將用戶聚集形成了目的和規(guī)模各不相同的社群,例如使用“攝影”的用戶有711人,使用“詩歌”的用戶有392人。最后,觀察使用人數(shù)為“1~2”的標(biāo)簽,不常見的詞匯以及短語、句子的情況越來越多,基本上僅對使用它們的用戶本人具有意義。
  以上的數(shù)據(jù)分析驗證了標(biāo)簽的使用量遵循冪律分布,這實際代表著用戶對標(biāo)簽的選擇遵循冪律分布。這一特征與文獻計量學(xué)中的齊夫定律很相似。統(tǒng)計物理學(xué)家將這類現(xiàn)象稱為“無標(biāo)度現(xiàn)象”,即系統(tǒng)中個體的尺度相差懸殊,缺乏一個優(yōu)選的規(guī)模,F(xiàn)實世界中的眾多網(wǎng)絡(luò)系統(tǒng)也存在這種無標(biāo)度現(xiàn)象,例如互聯(lián)網(wǎng)、人際網(wǎng),這些網(wǎng)絡(luò)中不同節(jié)點所擁有的連接數(shù)遵循冪律分布。這類現(xiàn)象的形成依賴于兩個機制:增長性和擇優(yōu)連接性。前者表示整個系統(tǒng)的規(guī)模并非保持不變,而是不斷有新的節(jié)點加入;后者表示節(jié)點之間建立連接關(guān)系時,都傾向于選擇已經(jīng)擁有較多連接的節(jié)點,其結(jié)果符合“馬太效應(yīng)”。隨著系統(tǒng)用戶和資源規(guī)模的擴大,不斷有新的標(biāo)簽進入系統(tǒng);而用戶在使用標(biāo)簽時由于受到社群的影響,會“擇優(yōu)”或“從眾”選擇,于是形成了標(biāo)簽使用的這種無標(biāo)度現(xiàn)象。
  受基本運行機制影響,不同應(yīng)用系統(tǒng)中的自由分類法都普遍遵循冪函數(shù)分布規(guī)律,但不同應(yīng)用系統(tǒng)服務(wù)于不同的目的、存在不同的用戶群體,也具有各自的特性,例如社群或系統(tǒng)影響力的不同強度。這些特性的一種體現(xiàn)即是上述冪函數(shù)表達式中系數(shù)a和指數(shù)b的不同取值。
  
  5 中英文自由分類法標(biāo)簽特征的比較
  
  5.1 英文自由分類法實例研究中關(guān)于標(biāo)簽特征的發(fā)現(xiàn)
  在目前的應(yīng)用中,每個由空格間隔的單詞被作為一個獨立的標(biāo)簽。單詞是英文語言的基本組成單位,而一些復(fù)雜的概念需要多個單詞的組合才能表達。從功能上區(qū)分,英文自由分類法中的標(biāo)簽類目包括以下幾種類型:
  ?標(biāo)識事物是什么/關(guān)于什么,表達不同抽象層次的概念。
  ?表明事物的類型。
  ?標(biāo)明事物的所有者。
  ?用于修飾其他類目。
  ?表示事物的性質(zhì)特征,主要使用形容詞。
  ?提供自我參考的功能,主要使用合成詞、自造詞。
  ?提供任務(wù)組織的功能,將與特定目的或任務(wù)相關(guān)的信息組織在一起。
  以上7種類型中,前4類體現(xiàn)的是事物的外在特征,對多數(shù)用戶具有意義,也容易在多數(shù)用戶中達成共識,后3類體現(xiàn)的是用戶個人對事物內(nèi)在性質(zhì)的理解,用于滿足個人描述和組織信息資源的目的,因此往往僅對個別用戶有意義。
  對Flickr的樣本數(shù)據(jù)的統(tǒng)計分析發(fā)現(xiàn),標(biāo)簽的使用情況類似于一個冪函數(shù)的圖像。x軸代表樣本數(shù)據(jù)中的標(biāo)簽,y軸代表每個標(biāo)簽的使用人數(shù)。少數(shù)標(biāo)簽被大量用戶使用,對應(yīng)極大的y值,而大部分的標(biāo)簽僅被少數(shù)用 戶使用,y值急劇下降;更大規(guī)模的標(biāo)簽僅被1個或2個用戶使用,使圖像的末端成為一條y取值接近1的長尾。
  
  5.2 中英文自由分類法標(biāo)簽特征的異同
  基于其他學(xué)者在英文自由分類法實例研究中的發(fā)現(xiàn)和上文中數(shù)據(jù)分析的結(jié)果,下面對中英文自由分類法進行簡要比較。
  在功能類型的劃分上,中英文自由分類法具有相似之處,表現(xiàn)出中英文用戶在事物認(rèn)識和描述上的共同點。各種功能的標(biāo)簽是用戶對資源不同分面含義的表達,用戶通過標(biāo)簽的組配來描述一項資源。在中英文自由分類法中,最多的類目名稱都是名詞性質(zhì),表達不同抽象層次的概念。此外,中英文自由分類法中標(biāo)簽的使用情況都遵循冪律分布,大多數(shù)用戶的選擇仍然是較為規(guī)范和常見的詞語,同時也存在一些體現(xiàn)用戶個性化的標(biāo)簽,例如英文中的合成詞、中文中的生僻詞和句子。
  以上中英文自由分類法的共同特征也說明,雖然沒有了專家或權(quán)威的規(guī)范和控制,自由分類法并沒有出現(xiàn)混亂失效的局面,而是充分發(fā)揮了用戶的智慧,并在用戶的利己與協(xié)作之間達成某種平衡,滿足不同的需求。
  但是,中英文自由分類法在語言結(jié)構(gòu)上存在較大的差異。英文中,由空格間隔的每個單詞是最基本的語言單位,名詞詞性的單詞能夠獨立代表一個基本概念,同時也存在復(fù)雜概念需要多個單詞組合表達的情況,因此英文自由分類法中出現(xiàn)了較多的用戶自造合成詞的現(xiàn)象,用戶還有在標(biāo)簽中使用特殊符號的習(xí)慣。而中文自由分類法中的標(biāo)簽則是用戶分詞的結(jié)果。在中文語言的自動處理中,分詞是需要解決的首要問題,也是難點問題。標(biāo)簽是用戶根據(jù)自己的理解對資源進行標(biāo)引的結(jié)果,可以認(rèn)為是將分詞的工作交給用戶完成,用戶完全根據(jù)個人的認(rèn)知和需要,將語句劃分為不同“粒度”的標(biāo)簽,這種分詞方式的成本極低,結(jié)果也更加符合用戶的需求和語言習(xí)慣。但是,由于用戶需求的各異和知識背景的參差不齊,用戶分詞的結(jié)果并不是都能很好地揭示資源的意義,并不一定利于有效的檢索。
  
  6 主要結(jié)論
  
  自由分類法是個人網(wǎng)絡(luò)信息組織需求和社會化的網(wǎng)絡(luò)環(huán)境共同作用的結(jié)果,它既是用戶個人對事物認(rèn)知的產(chǎn)物,也是社會群體共識的體現(xiàn)。自由分類法具有大眾化、自由化和社會化三方面的內(nèi)涵。
  中文自由分類法中的標(biāo)簽具有多種語法結(jié)構(gòu)、詞性和功能。中英文自由分類法中的標(biāo)簽可以被劃分為相似的功能類型,都以表達不同抽象層次概念的名詞居多。但中英文自由分類法在語言結(jié)構(gòu)上存在較大的差異:英文用戶將多個單詞合并構(gòu)成一個標(biāo)簽以表達一個完整的概念,而中文用戶則是根據(jù)需要將語句劃分為不同粒度的標(biāo)簽。
  自由分類法的運行機制使標(biāo)簽在使用量上呈現(xiàn)出無標(biāo)度現(xiàn)象,即遵循冪律分布。具有較高資源標(biāo)引和檢索價值的標(biāo)簽被多數(shù)用戶使用,并能成為熱門類目被“推薦”給更多的用戶,而標(biāo)引和檢索價值低的標(biāo)簽,或者滿足用戶的個性化需求,或者被用戶以協(xié)作的形式“過濾”,保證了信息空間的有序性。這種規(guī)律的形成源于兩點因素:一是自由分類法的動態(tài)變化、標(biāo)簽體系的不斷擴充,二是用戶在使用標(biāo)簽時的“擇優(yōu)”或“從眾”行為。
  自由分類法與傳統(tǒng)信息組織方法的主要區(qū)別在于:資源不被集中管理和控制,資源組織的權(quán)力由權(quán)威、專業(yè)人員轉(zhuǎn)交給大眾用戶,不需要使用復(fù)雜嚴(yán)格的標(biāo)準(zhǔn)保證標(biāo)引和檢索的準(zhǔn)確、全面,而是為用戶提供一種簡單易用的信息組織方式,充分發(fā)揮用戶在信息檢索系統(tǒng)中的作用,自由分類法不會完全替代傳統(tǒng)分類法,而是提供一個新的角度看待信息的分類組織方式以及用戶的新信息需求和行為。

相關(guān)熱詞搜索:分類法 實例 自由 自由分類法實例研究 現(xiàn)況研究實例 隊列研究實例

版權(quán)所有 蒲公英文摘 www.newchangjing.com