基于《中國圖書館分類法》的用戶興趣建模方法:中國圖書館分類法
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
〔摘要〕提出一種基于《中國圖書館分類法》的用戶興趣建模方法。通過《中國圖書館分類法》分類號確定用戶初始興趣模型,使用《中圖分類主題詞表》中詞匯描述用戶興趣主題。對于用戶模型的學習,提出一種通用的方法,將各種反饋信息融合統(tǒng)一。在上述思想的基礎上,開發(fā)出一個科技文獻推薦系統(tǒng),使用戶在盡可能少的參與下,完成用戶模型的建立、學習和更新。
〔關鍵詞〕信息推送用戶興趣模型個性化
〔分類號〕G250.7
User Interest Modeling Based On Chinese Library Classification
Ma Haibing1Wang Lancheng4
Shanghai Branch, Nanjing Political Institute, Shanghai200433
Xiao Hui2
Ningbo Instiute of Technology , Zhejiang University , Ningbo 315100
Li Ronglu3
Autodesk Inc. Shanghai, Shanghai200001
〔Abstract〕This paper proposes a user modeling method based on Chinese Library Classification (CLC). The initial user model is defined by classification number of CLC, and the subject terms of CLC is used to describe user interests. It also puts forward a universal frame which can combine all kinds of feedback information for the user model to learn. Based on these ideas, it develops a science document recommend system, where user model can be built, learn and update as few participations of the users as possible.
〔Keywords〕information recommending systemuser interest modelpersonalization
1引言
今天,互聯(lián)網(wǎng)技術發(fā)展迅速,網(wǎng)絡信息呈指數(shù)增長,但浩瀚如海的網(wǎng)上資源往往導致“信息過載”和“信息迷向”。傳統(tǒng)的搜索引擎滿足了用戶的信息查詢需求,但它不具有智能性,不能學習用戶的興趣。具有特定興趣,信息需求相對穩(wěn)定的用戶,只能不斷在網(wǎng)上反復查詢相同的內(nèi)容。正是在這樣的需求驅(qū)動下,信息推送技術得到了長足的發(fā)展。如果把信息檢索看作是一種“人找信息”的信息服務形態(tài),那信息推送就是一種“信息找人”的信息服務形態(tài),即實現(xiàn)信息的個性化推薦服務。
個性化推薦技術的關鍵是用戶興趣模型的建立和學習。對于用戶興趣模型的建立,多數(shù)信息推送系統(tǒng)是通過讓用戶主動地輸入一系列關鍵詞,給每個關鍵詞分配合適的權值來實現(xiàn)的。但是,用戶常常找不到恰當?shù)年P鍵詞來描述自己的興趣,更不用說合適的權值了,而且詞語的多義現(xiàn)象和同義現(xiàn)象也會導致一些不正確的信息被推送過來。對于用戶興趣
模型的學習和調(diào)整,有的文獻通過顯式反饋實現(xiàn)[1-2],如將推送信息分為非常感興趣、比較感興趣、不感興趣、完全不感興趣等一些離散的等級或一些離散的數(shù)值,讓用戶進行評價;也有一些系統(tǒng)通過監(jiān)視用戶的行為來實現(xiàn)[3-5],如:瀏覽時間、保存、打印操作等,為用戶模型的學習和調(diào)整提供依據(jù),這類信息被稱為隱式反饋信息。顯式反饋信息比較準確,但是增加了用戶的負擔。隱式反饋信息減輕了用戶的負擔,但這類信息往往不夠準確,不一定能夠反映用戶真實的興趣需求。
針對這些問題,筆者提出了一種基于《中國圖書館分類法》(以下簡稱《中圖法》)的用戶興趣模型:通過《中圖法》分類號建立初始用戶興趣模型;利用《中國分類主題詞表》中的詞匯來描述用戶的興趣主題,解決詞語多義問題和同義問題;將用戶反饋信息進行分類,盡量利用用戶瀏覽時的行為信息,使用戶在盡可能少的參與下,完成興趣模型的學習和更新。
2用戶興趣模型描述
2.1用戶興趣模型的表示
用戶興趣模型指的是從用戶信息需求的提交到注銷這段時間內(nèi),對用戶某一興趣需求的一體化描述,包括用戶興趣模型隨著需求調(diào)整進行動態(tài)更新的過程。用戶興趣模型可形式化描述為一個三元組P:P=(I,F(xiàn),ψ)。其中,
這里,I為用戶興趣在學習調(diào)整過程中產(chǎn)生的全部狀態(tài)集;F為系統(tǒng)為用戶采集到的全部反饋信息集,其作用是驅(qū)動學習過程;ψ表示用戶興趣的學習函數(shù)。不難看出:I(0)為用戶興趣的初始狀態(tài);I(i)為經(jīng)過i次學習調(diào)整后的用戶興趣;F(i)表示對系統(tǒng)第i次反饋的用以調(diào)整I(i+1)的評價信息;而{I(1),∧,I(n)}則表示用戶興趣的終結(jié)狀態(tài)集。
2.2現(xiàn)有用戶模型的構(gòu)造方法
用戶興趣模型的構(gòu)造可以依據(jù)關鍵詞集和興趣文檔集,這種方式通常需要用戶積極參與(或是直接提交興趣信息,或是間接反饋興趣評價),推送系統(tǒng)服務器端利用信息抽取技術和機器學習方法從中獲取當前用戶興趣的特征信息,以使得該用戶興趣模型可以與待推送的新信息之間進行相關度計算。通過該方式獲取用戶興趣后,對用戶興趣模型的更新和維護在很大程度上可以借助對新信息的處理技術,在理論上可以依據(jù)信息抽取領域、機器學習領域和信息檢索領域中的方法和技術,所以在實踐上這種構(gòu)造用戶興趣模型的技術也是可行的。應用本文技術實現(xiàn)的科技文獻推送系統(tǒng)就是依據(jù)這一方法進行設計和實現(xiàn)的。
還有一種方法,它不需要用戶做任何事情來描述自己的信息需求,而是由系統(tǒng)根據(jù)用戶訪問資源的歷史記錄自動進行分析。近年來,出現(xiàn)了一些以用戶興趣為核心的電子商務站點,它們通常是從網(wǎng)站經(jīng)營的角度出發(fā),分析大多數(shù)用戶在網(wǎng)站中的瀏覽路徑,根據(jù)用戶對頁面的訪問次序、訪問頻度和訪問時間等信息,動態(tài)調(diào)整頁面結(jié)構(gòu)以更好地滿足訪問者的需求。其中,對服務器端Web日志的分析是得到用戶潛在需求興趣的主要依據(jù)。但該方法或是將用戶看作是單個的興趣載體,或是把所有用戶看作一個整體不做區(qū)別地進行處理。因此這種方法不適合信息推送用的用戶興趣模型構(gòu)造。
3基于《中圖法》的用戶興趣模型
《中圖法》是我國第一部集中了全國圖書館和信息部門的力量共同編制的一部綜合性大型文獻分類法。《中國分類主題詞表》則收錄了5萬余條類目、21萬條主題詞及主題標題,包括哲學、社會科學和自然科學所有各個領域的學科和主題概念。例如:“TP391 信息處理(信息加工)”中,“TP391”是該類別的中圖法分類號,“信息處理”和“信息加工”則是這個類別的主題詞。選擇《中圖法》和《中國分類主題詞表》,一方面可為信息推送提供規(guī)范的依據(jù),更重要的是將其作為構(gòu)造用戶興趣的初始模板,為用戶興趣模型的構(gòu)建提供了參照依據(jù),使得用戶需求信息與系統(tǒng)資源之間能建立有效“聯(lián)接”。而且,《中國分類主題詞表》中的詞具有單義性,非常適合描述用戶的興趣主題。
3.1初始用戶興趣模型的構(gòu)造
初始用戶興趣模型通過一個《中圖法》分類號來確定。當用戶在首次登錄時,要求用戶提供能表征其興趣主題的類別信息。用戶依據(jù)《中圖法》的分類體系,選擇某一類別作為初始的興趣類別,注冊的類別不一定是《中圖法》最底層的類別。在實際應用中,用戶與興趣之間是多對多關系,即一個用戶可以擁有多個興趣,一個興趣可以被多個用戶共同擁有。但對信息推送系統(tǒng)來講,有意義的是興趣而非用戶,因此信息的推送是基于興趣的。如果某一用戶同時注冊多個興趣,系統(tǒng)應為其建立多個用戶興趣模型;也有可能不同的用戶注冊了相同的興趣類別信息,即他們采用了相同的興趣模板,系統(tǒng)將收集所有注冊了該興趣類的用戶信息,并將其附帶提供給該興趣類的所有注冊用戶,以便具有相同興趣的用戶之間進行交流與學習。
初始的用戶興趣模型I(0)可以表示為一個二元組:
其中,N表示用戶興趣模型對應的《中圖法》分類號,一旦確定后不允許改變;W表示用戶興趣特征,由Wt、Wp、Wu、Wl四部分組成;Wt表示N對應的主題詞;Wp表示N對應類別的父類的主題詞,一般只取兩級父類的主題詞,因為隨著級別的增高,主題詞與用戶興趣的相關性變得越來越小;Wu表示由用戶手動添加到興趣模型中的特征;Wl表示用戶興趣模型在經(jīng)過i次學習和調(diào)整后新增的特征,在初始的用戶興趣模型I(0)中,還沒有利用反饋信息對其進行刷新,因此Wl是一個空集。
Wt、Wp、Wu、Wl都是一個二元組的集合,表示為{<ti,wi>,<t2,w2>,∧}其中ti表示一個特征,這個特征可能是一個字、詞、短語、N-Gram項等;wi代表特征ti的權重,是一個[0,1]之間的值。Wt、Wp、Wu,Wl間不存在重復的特征,即對于ti來說,它們之間的交集為空。Wt、Wp、Wu中的特征不會隨著用戶興趣模型的學習和調(diào)整而增加或減少,但是它們的權值可能會發(fā)生變化。而Wl中的特征及其權值會隨著用戶興趣模型的學習和調(diào)整發(fā)生較大的變化。
當Wt、Wp、Wu中的特征確定之后,需要為每個特征分配一個權重。對于Wt中的特征,設置每個特征的權值為a;對于Wu中的特征,設置每個特征的權值為b;對于Wp中的特征t,其權值為:
(公式6)
其中,l為主題詞對應類別與《中圖法》分類號N對應類別在《中圖法》分類體系結(jié)構(gòu)中相差的層數(shù)。通常a、b、c的值都設為1。
3.2新信息的推送算法
新信息的推送算法是基于向量空間模型的。向量空間模型用特征項及其相應權值來表征信息的語義,新信息和用戶興趣模型都表示為一個向量。在需要給用戶推送新信息時,新信息和用戶興趣模型的相關程度是通過向量運算來描述的,一般使用向量之間的夾角余弦來計算它們的相似度。
本文中,用戶興趣模型由一個《中圖法》分類號N和一個興趣特征列表W組成。將W表示為一個向量,就可以使用夾角余弦公式來計算用戶興趣模型和新信息的相似度。不過,我們希望在計算相似度的時候能夠利用《中圖法》分類號,因此對相似度計算方法進行了改進。設W(i)表示用戶興趣模型I(i)的興趣特征列表,l為新信息對應類別與N對應類別在《中圖法》分類體系結(jié)構(gòu)中相差的層數(shù),則文檔d和用戶興趣模型I(i)的相似度計算公式為:
(公式7)
其中,α+β,k為一個常數(shù),一般取值為1。
3.3用戶興趣模型的更新
用戶興趣模型要能夠及時準確地反映用戶的興趣,除了在初始的建立階段要全面考慮之外,還需要能夠根據(jù)用戶的瀏覽行為和興趣變化進行動態(tài)的修改,這就需要充分利用用戶的反饋信息。我們可以根據(jù)用戶的反饋信息類型將興趣模型分為兩種:
3.3.1基于顯式反饋信息的模型現(xiàn)有的系統(tǒng)普遍采用“相關反饋”作為用戶和系統(tǒng)交互的主要手段。給定一個評價標準,如:完全符合要求、相關、無關、完全無關,或給定一個評價數(shù)值,如:+2~-2,+2代表完全符合要求,-2代表完全無關。當用戶查看推送過來的文檔時,根據(jù)這些評價標準對文檔做出評價,然后系統(tǒng)利用這種相關反饋信息實現(xiàn)對用戶興趣模型的學習和更新。其中最常用的更新方法是Salton和Buckley[3]所提出的公式:
(公式8)
其中,W(i)表示用戶興趣模型I(i)的興趣特征,ej代表用戶對文檔dj的評價等級。這個方法使用簡單,但增加了用戶的負擔,用戶也很難準確地使用評價等級對推送的文檔做出評價,而且不同的用戶對評價等級有不同的認識,也會導致降低這種方法的性能。
3.3.2基于隱式反饋信息的模型用戶在瀏覽推送過來的文檔時,可以通過跟蹤記錄用戶的瀏覽行為,得到用戶對文檔感興趣的程度,如:瀏覽時間、保存操作、打印操作等行為都是用戶對文檔是否感興趣的一種反饋。本研究中,我們在服務器端建立了推送文檔的收藏、管理功能,實現(xiàn)對用戶瀏覽行為的跟蹤和記錄,從而更新和學習用戶的興趣模型。
用戶的瀏覽行為可以總結(jié)為以下5種:
●瀏覽次數(shù)。訪問同一文檔的次數(shù)越多,說明用戶對該文檔的內(nèi)容越感興趣。不過有些文檔在瀏覽過程中重復出現(xiàn)時,不一定對應于用戶要再次查看其中的內(nèi)容,可能只是對應于諸如回退之類的操作,目的是為了另一個感興趣的文檔。
●瀏覽時間。對同一文檔的關注越多,即停留時間越長,表明用戶對該文檔的興趣也越大。同時,我們也規(guī)定了最大的時間閾值MaxDuration,以處理用戶離開瀏覽狀態(tài)卻未關閉的情況。
●收藏操作。當用戶對某一文檔感興趣,并且希望經(jīng)常查看此文檔的時候,用戶可能會將文檔加入收藏夾。
●保存或打印操作。用戶一般只會保存感興趣的東西,而保存或打印文檔也往往是為了將文檔最終保存下來,方便查看。
●查詢操作。一般來說,用戶在查詢時輸入的字符串或關鍵字,往往代表他所感興趣的東西。
設D是攜帶有反饋信息的文檔集, dj∈D,vj代表dj的瀏覽次數(shù),tj代表dj的瀏覽時間,ej代表用戶對文檔dj的評價等級,fv,ft,,fe分別為文檔的瀏覽次數(shù)、瀏覽時間、評價等級的加權函數(shù),W(i)表示用戶興趣模型I(i)的興趣特征,則興趣特征W(i)的更新公式為:
(公式9)
其中,ft和fv都是對數(shù)函數(shù),fe是一個線性函數(shù)。如果文檔dj的瀏覽次數(shù)、瀏覽時間、評價等級為0或空,這三個函數(shù)都返回一個常數(shù)。
將特征類反饋信息折算為一個評價等級,公式9可以將所有反饋信息融合在同一個框架中。例如:可以給收藏、保存、打印了的文檔一個分值最高的評價等級。查詢操作比較特殊,這種反饋信息對應的不是一篇文檔,而是一個或多個關鍵詞。但是,同樣可以將每個關鍵詞看作一篇文檔,它的瀏覽次數(shù)就是這個關鍵詞的查詢次數(shù),它的瀏覽時間設置為一個常數(shù)。
4基于《中圖法》的科技文獻推薦系統(tǒng)
在基于《中圖法》的用戶興趣模型的基礎上,我們開發(fā)了一個科技文獻推薦系統(tǒng)。系統(tǒng)推薦的對象是科技文獻,主要服務于高校和科研院所的科研工作者。因為科技文獻具有比較規(guī)范的格式,而且大部分文獻都具有《中圖法》分類號,所以非常適合于使用本文提出的方法。
系統(tǒng)體系結(jié)構(gòu)如圖1所示。整個系統(tǒng)包括服務器端和客戶端兩大部分。服務器端的主要功能是收集文獻,對收集到的文獻進行索引,對全文數(shù)據(jù)庫進行更新和維護等。同時,用戶興趣模型的更新也在服務器端定期集中完成,而不是在客戶端實時地對用戶興趣模型進行更新?蛻舳说闹饕δ馨ㄗ耘d趣,修改和刪除用戶興趣模型,接收、瀏覽系統(tǒng)發(fā)送的新文獻,獲取用戶的反饋信息等。
用戶在使用系統(tǒng)之前,需要注冊一個賬戶,輸入自己的真實姓名、研究方向等個人信息。當用戶登錄系統(tǒng)后,就可以注冊自己的興趣了。系統(tǒng)提供了兩種注冊方式:一種是手動方式;另一種是自動方式。在手動方式中,用戶依據(jù)《中圖法》的分類體系,選擇某一類別作為初始的興趣類別。一個用戶可以注冊多個興趣,如果興趣之間重疊,那么選擇這兩個興趣類別的父類作為興趣類別。確定了興趣的分類號之后,就可以將這個分類號所對應的主題詞列出,然后用戶從中選擇相關的主題詞作為描述用戶興趣的特征。在自動方式中,用戶也可以先查詢本地文獻數(shù)據(jù)庫,對查詢結(jié)果文獻進行相關反饋,然后調(diào)用用戶興趣模型更新算法,由系統(tǒng)為用戶自動創(chuàng)建出一個興趣模型。用戶興趣模型的《中圖法》分類號來自于相關反饋文獻,通過取這些文獻的《中圖法》分類號的最大交集得到。
另一方面,系統(tǒng)使用網(wǎng)絡爬蟲技術對指定的資源進行抓取,將發(fā)現(xiàn)的新文獻下載到本地服務上。下載下來的這些文獻是多種格式的,需要使用格式轉(zhuǎn)換和信息抽取模塊將這些文獻轉(zhuǎn)換為統(tǒng)一的格式,并提取出文獻中的標題、作者、摘要、《中圖法》分類號等信息,再將這些信息保存到數(shù)據(jù)庫中,對于標題和摘要信息還要建立全文索引。當服務器處于閑置狀態(tài)時,或者在一段時間內(nèi)的某一固定時刻,集中進行計算,將新到文獻推送給用戶。推送給用戶的文獻實際是文獻的URL地址,當用戶要瀏覽文獻的時候,需要登陸系統(tǒng),因此系統(tǒng)能夠準確記錄文獻的瀏覽次數(shù)和瀏覽時間。同時,系統(tǒng)提供了文獻的管理功能,能夠收藏、打印、保存、刪除文獻,對文獻進行相關反饋。有了這些信息,就可以使用公式9對用戶的興趣模型進行更新。隨著新文獻的不斷推送,更多的反饋信息被記錄下來,使用戶興趣模型能夠更加準確地反映用戶的興趣需求。
5應注意的問題
上述基于《中圖法》的用戶興趣建模方法在科技文獻推送系統(tǒng)中的應用取得了較好的效果,但也存在一些問題。
5.1反面隱式反饋信息的利用
在用戶興趣模型的更新算法中,我們主要利用的是正面的隱式反饋信息,即對文獻的評價是正面的。但是還有許多反面的反饋信息可以利用,例如推送給用戶的文獻,用戶只看了標題和摘要后就刪除掉了,這可能代表用戶對這篇文獻不感興趣。這些信息可以作為用戶興趣模型學習的重要依據(jù)。
5.2協(xié)作過濾算法的使用
上述模型使用《中圖法》分類號確定用戶初始的興趣類別,等于對用戶的興趣做了一個分類。如果多個用戶模型具有相同的分類號,或分類號之間具有父子類關系,那么某個用戶興趣模型的特征信息以及該模型的一些反饋信息,對其他用戶興趣模型的學習將重要的具有參考作用。將協(xié)作過濾的思想應用于本文的方法和系統(tǒng)中,可以改善用戶興趣模型的學習算法。
參考文獻:
[1]Balabanovic M, Shoham Y. Learning information retrieval agents: Experiments with automated Web browsing //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments. Stanford: AAAI Press,1995:13-18.
[2]Armstrong R, Freitag D, Joachims T, et al. WebWatcher: A learning apprentice for the world wide Web. //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogenows, Distributed Environments. Stanford:AAAI Press,1995:6-12.
[3]Salton G, Buckley C. Improving retrieval performance by relevance feedback. Journal of American Society for Information Science, 1990,41(4):288-297.
[4]Joachims T, Mitchell T, Freitag D, et al. Webwatcher: Machine learning and hypertext // Morik K, Herrmann J. GI Fachgruppentreffen Maschinelles Lernen.University of Dortmund, 1995:145-149.
[5]Letizia L H . An agent that assists Web browsing //Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Montreal:Morgan Kanfmann, 1995:924-929.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。
相關熱詞搜索:分類法 建模 中國 基于《中國圖書館分類法》的用戶興趣建模方法 issn 中國圖書館分類法f
熱點文章閱讀