www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

用戶標簽 基于folksonomy,標簽的用戶分類研究

發(fā)布時間:2020-03-10 來源: 美文摘抄 點擊:

  [摘要]重點研究基于Folksonomy的數(shù)字資源系統(tǒng)的用戶的共性,提出利用用戶標簽對用戶分類的方法,并通過對Flikcr(閃爍照片網(wǎng))的實證研究,證明通過標簽對用戶分類的可行性和實用性,為興趣推送和進一步研究奠定基礎。
  [關(guān)鍵詞]Folksonomy 標簽 用戶分類
  [分類號]G202 TP391
  
  1 前言
  
  以人為中心的Web2.0時代的到來,使互聯(lián)網(wǎng)用戶由被動轉(zhuǎn)為主動,成為信息發(fā)布者和接受者的一體。以del.ieio.us、Flickr為代表的基于folksonomy的數(shù)字資源系統(tǒng)應運而生,形成了一種新的網(wǎng)絡信息資源的組織檢索方式。通過用戶標簽對用戶的偏好進行研究分類以及興趣推送,能夠為用戶提供多渠道、全方位的信息,更有利于folksonomy的網(wǎng)站的發(fā)展。
  然而,目前國內(nèi)對folksonomy的研究著重于其國內(nèi)外發(fā)展現(xiàn)狀、概念、優(yōu)劣勢、發(fā)展前景以及與現(xiàn)有信息組織模式的結(jié)合應用分析等方面,對folksonomy的標簽以及用戶偏好鮮有研究。在folksonomy用戶偏好研究方面,只有王翠英在《基于Folksonomy的用戶偏好研究進展》一文中將用戶分成單興趣用戶和多興趣用戶,分別構(gòu)建適用的興趣挖掘機制及對用戶偏好的應用,但主要是從用戶個體進行分析,且沒有具體操作過程。
  國外對folksonomy的研究無論理論還是應用上都明顯領先于國內(nèi)。在起源方面,國外學者傾向于從社會化站點的角度研究folksonomy,并以存在的系統(tǒng)為研究對象;在研究內(nèi)容上,Adam Mathes指出了folksonomy系統(tǒng)的存在對個人和社區(qū)的重大意義;Christopher H.Brooks和Nancy Montanezt對博客搜索引擎Technorati的標簽做了定量分析,發(fā)現(xiàn)了標簽對用戶分類的作用;Marieke Guy也對標簽做了定量分析并提供了標簽的可視化工具,指出了標簽的長尾分布。
  綜上所述,folksonomy是目前越來越受關(guān)注的一個領域,理論方面的研究比較多,但也不是很完善,定量研究方面的內(nèi)容比較少。本文主要從定量的角度研究如何利用folksonomy標簽對興趣相似的用戶進行分類,提出了通過定量分析標簽來研究用戶共性的思想,給出了基于標簽進行用戶分類的具體方法和操作流程,并以Fliekr為例,對本文提出的用戶分類方法進行了實證研究。
  
  2 用戶分類的思路
  
  Folksonomy是一種以標簽為目的的“自下而上的社會化分類”信息組織方法。標簽是folksonomy最核心的內(nèi)容,它是一種描述性的非結(jié)構(gòu)化元數(shù)據(jù),由用戶根據(jù)自己的理解和喜好自由添加,不受任何詞表的約束,標簽從某些方面代表了用戶的興趣所在,所以依據(jù)標簽對用戶進行分類,然后對用戶進行興趣推薦是十分可行的。
  用戶分類的目的是把興趣相似的用戶分為一類,方便對用戶進行興趣推薦。為了不增加用戶的負擔,研究從系統(tǒng)的角度出發(fā)收集用戶的標簽。標簽符合負責分布,即不同用戶使用了很多相同的標簽,表明這些用戶在興趣上有一定的相似性。相同標簽的個數(shù)越多,表明這兩個用戶的興趣越相近。
  因此,根據(jù)標簽進行用戶分類的基本思路是:首先確定用戶之間是否使用了相同的標簽,再確定相同標簽的數(shù)量及各個標簽的使用次數(shù)。在實證研究中,由于收集標簽的使用次數(shù)比較困難,故在抽取用戶標簽時直接抽取使用次數(shù)最多的標簽(每個用戶排名前10的標簽)。
  
  3 FIickr的用戶分類過程
  
  3.1 Folksonomy數(shù)字資源系統(tǒng)的選取
  實證研究中數(shù)字資源系統(tǒng)的選取必須滿足如下要求:①該系統(tǒng)能夠提取每個用戶的標簽;②該系統(tǒng)必須支持群組,以便分類結(jié)果的驗證;③該系統(tǒng)的訪問量要足夠大。根據(jù)以上要求對基于folksonomy的網(wǎng)站進行對比分析,排除不支持群組的和無法提取具體用戶標簽的,只有Fliekr滿足要求。它是目前比較流行的一個folksonomy數(shù)字資源系統(tǒng),2009年上榜美國《時代》周刊評選的50個最佳網(wǎng)站,2008年11月份達到6400萬的獨立用戶,而且它可以提取每個用戶的標簽數(shù)據(jù),也支持群組,可以幫助檢驗分組效果,所以,筆者最后選擇Flickr作為實證研究對象。
  
  3.2 Flickr中用戶和標簽的抽取
  考慮到最后要借助群組對分類結(jié)果進行檢驗,所以抽取用戶之前,先抽取了一些群組,然后從每個群組中抽取部分用戶,這樣有利于對分類結(jié)果的驗證。
  首先是群組抽取,主要采取兩種方法:①從熱門標簽中集中選擇最熱門的標簽作為檢索詞去搜索社群,然后從搜索結(jié)果中隨機選擇;②從網(wǎng)站的推薦群組中選擇。這兩個方法抽取群組的時候,都要滿足一個先決條件:群組的成員要多,至少超過10個,資源數(shù)量也比較多。按照這兩個方法,筆者從Fliekr中抽取了10個群組,然后按0到9編號,下面是前5個群組的名字及其網(wǎng)址:
  群組0:Motocross(http:/www.省略/groups/motoz/)
  群組1:Nikon D700 UNCENSORED!(http://www。flickr.com/groups/d700/)
  群組2:Your cartoons(http://www.省略/groups/76087665@N00/)
  群組3:European Vacation(http://www.省略/gmups/eumvaeation/)
  群組4:CHRISTMAS WORLDWIDE Fliekr’s#1Xmas Group(http://www.省略/groups/xmas2005/)……
  其次是抽取用戶,抽取方法采用重要性加隨機抽取。Hickr對每個群組都給出5個貢獻最大的用戶,抽取這5個用戶,然后按照顯示順序隨機再抽取5個,對于用戶標簽是非英語的或標簽少于10個的用戶予以刪除,再重新抽取。
  最后是抽取用戶標簽,本文選擇該用戶使用次數(shù)最多的10個標簽。
  下面是一個具體的用戶及標簽的抽取樣本,限于篇幅,本文以群組8的前5個用戶為例:
  群組8:Do More?ror Pets Sponsored by Purina?Pro Plan?(http://www.省略/groups/domore/)
  用戶80:llanniell(http://www.省略/pho-tos/32834911@N08/tags/)
  標簽:phipps,flowers,maocro,winter,snow,sky,dogs,canon,birds,blue
  用戶81:richvYYY(http://www.省略/photos/ riehyyy/tags/)
  標簽:animal,animals,animales,bull.bulldog,bully,dog,puppy,diosa,perra
  用戶82:Foto Phinagler(http://www.省略/photos/46644938@N07/tags/)
  標簽:dogs,gloversville,labs,trees,urban,5bestdogs,winter,statues,eairnterriers,ehoeolatelabs
  用戶83:Nothin’But Moose and Slobber(http://www.省略/photos/31488876@N03/tags/)
  標簽:flower,flowers,dog,garden,lab,boydog,close-up,puppy,yellowlab,yellowdog
  用戶84:jati2010(http://www.省略/photos/48414337@N07/tags/)
  標簽:flowers,dogs,sprang,roses,morning,nature,flower,dog,birds,landscape
  
  3.3 具體分類過程
  根據(jù)上一節(jié)中收集的100個用戶以及排名最靠前的1000個標簽對用戶進行大致的分類。將使用相同標簽的用戶分為一組,但這樣會存在相似度高低的問題,具體分組要看系統(tǒng)的實際需求。粒度越大,用戶的興趣的相似度越高,推薦的效果就越好,但會造成群組成員稀少,違背尋找用戶共性這一分類的初衷。粒度越小,用戶的興趣相似性越低,興趣推薦會給用戶帶來大量的“垃圾信息”,影響用戶體驗,所以分組的粒度要視系統(tǒng)具體分析。由于抽取的都是用戶最靠前的lO個標簽,是代表用戶最感興趣的,作為一篇研究性論文,本文對相似度從低到高都進行了分析。
  首先把收集的用戶以及標簽按用戶編號導人數(shù)據(jù)庫,表名為userandtag,用戶的編號是0~99(用戶n0~n9是從一個群組中抽取的,0≤n≤9),如圖l所示:
  
  分類的具體實現(xiàn)分為三個步驟,首先是確定任意兩個用戶之間的相似度,然后把任意兩個用戶之間的相似度從0一直到最高統(tǒng)計出來(見圖3),最后是確定將兩個相關(guān)性用戶聯(lián)系起來的標簽,并將其他和這個標簽相同的用戶加入到這一類中。最終的用戶分類結(jié)果是(限于篇幅,筆者只列出每個聚合度的一部分用戶)。
  
  聚合度為1的有:
  (0,1,2,4,7,3,5),(0,31),(1,5),(1,9),(2,26,47,73),(2,38,74,92),(19,20,23,68,25,90),(19,25,90,20,23,68),(20,22,24,28),(20,28,22,25),(…………)。
  聚合度為2的有:
  (2,3),(3,4),(8,12),(10,II,12,19),(12,27),(12,36,27,30,38),(30,76,48,51,80),(30,80),(30,94),(…………)。
  聚合度為3的有:
  (11,19),(30,31),(49,69,64),(50,51,59),(51,59),(65,84),(80,84),(83,84)。
  聚合度為4的有:(30,39),(31,37)。
  聚合度為5的有:(49,64)。
  從以上的結(jié)果得知:隨著聚合度的增高,用戶類似的組數(shù)越來越少。這也表示用戶的興趣是多種多樣的,大部分興趣都相同的用戶比較少。
  
  4 結(jié)果和驗證
  
  相似度分類的結(jié)果呈現(xiàn)倒金字塔型,為了分析方便筆者從金字塔的底部人手。聚合度為5的一組是(49,64),他們的標簽如圖4所示:
  
  這兩個用戶的前10個標簽中有5個是相同的(autumn,leaves,trees,nature,park),說明兩用戶的興趣有很大的相似度。而這兩個用戶并不是抽取于一個群組,查看兩個用戶發(fā)現(xiàn)用戶49加入了48個群組,其中10個與自然景色有關(guān),而用戶64本來就是nature群組的主要貢獻者,加入的48個群組有8個與自然景觀相關(guān)。這些說明這兩個用戶的興趣相似度很高,也說明分類的結(jié)果并不一定與抽取的群組一致,而是更注重依據(jù)用戶最明顯的興趣進行分類。
  聚合度為3的用戶組是(49,69,64),他們的標簽如圖5所示:
  
  他們重復的標簽為autumn、trees、nature。用戶69和用戶64來自同一個群組,興趣上本來就有一定的相似性。從排名靠前的標簽看,他們確實對自然景色比較感興趣,而用戶49來自其他群組,上文提到他加入的48個群組中有10個與自然景色有關(guān),恰好只有他的來源群組是與圣誕相關(guān)的,表明其對自然景色的興趣明顯比圣誕節(jié)大,與用戶64和69的興趣是很相近的。這也說明按照標簽對用戶分類會取得比較好的效果,能夠把興趣相近的用戶分為一類。
  再看聚合度為2的用戶組,選擇成員較多的一組(10,11,12,19),其標簽如圖6所示:
  這四個用戶因為標簽d700、nikon而聚在一起,這和他們本來就是從一個群組中抽取的相吻合,說明他們都對nikon這一數(shù)碼產(chǎn)品感興趣,并且興趣很濃厚。
  同樣,聚合度為1的用戶組大多都是來自同一群組,這也和本文當初優(yōu)先抽取對群組有突出貢獻的用戶相吻合。
  總的來說,根據(jù)排名靠前的標簽對用戶進行分類可以將用戶按照較為明顯的興趣進行分類。由于標簽是經(jīng)過長時間的積累形成的,所以這也是更傾向與針對用戶的中長期興趣的一種分類。
  
  5 結(jié)語
  
  本文利用基于folksonomy的流行網(wǎng)站――Flickr中的用戶及標簽實證研究了利用標簽對用戶進行分類的方法,研究結(jié)果表明利用標簽能對用戶進行較好的分類,使同一類中的用戶在興趣上具有較大的相似性,有了用戶群組就可以根據(jù)群組對用戶進行興趣推薦,也方便用戶更好地發(fā)現(xiàn)和利用資源。
  在研究中也發(fā)現(xiàn)一些問題或需要改進的地方,主要為:①沒有對標簽進行預處理,如提取詞根、統(tǒng)一單復數(shù);②沒有考慮同義詞、多義詞等情況;③只考慮了標簽的共現(xiàn),而沒有從標簽的相對共現(xiàn)率去定量的研究。以上這些問題都會對用戶的分類產(chǎn)生一定影響。

相關(guān)熱詞搜索:標簽 用戶 研究 基于folksonomy 標簽的用戶分類研究 用戶標簽分類 淘寶用戶標簽有哪些

版權(quán)所有 蒲公英文摘 www.newchangjing.com