開放目錄及其優(yōu)化研究|凸優(yōu)化是什么
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]介紹開放目錄的發(fā)展概況,分析開放目錄的特點,結合作者構建開放目錄系統(tǒng)的實踐,論述開放目錄優(yōu)化的幾個方面:信息資源開發(fā)由眾智向群智優(yōu)化、信息資源組織向深層次優(yōu)化、信息資源描述由單一模板向多模板優(yōu)化、數(shù)據(jù)開放利用由精英模式向大眾模式優(yōu)化、開放目錄從綜合性向專題性優(yōu)化。
[關鍵詞]開放目錄 網(wǎng)絡信息組織 web2.0
[分類號]G302
1 引言
開放目錄是基于志愿編輯人員來審核挑選網(wǎng)站,并依照網(wǎng)站的性質(zhì)及內(nèi)容來分門別類,通過網(wǎng)民協(xié)同工作來構建龐大的網(wǎng)絡信息資源導引庫。最早的開放目錄網(wǎng)站是1998年6月創(chuàng)建的http://www.省略,后被網(wǎng)景收購并將系統(tǒng)命名為ODP(Open Directory Pro-ject,http://www.省略/),它的成功使得“ODP”成為開放目錄的代名詞,現(xiàn)在一般習慣稱其為Dmoz,以區(qū)分其它的開放目錄項目;另一個有名的開放目錄是2001年創(chuàng)建的Musicmoz(http://省略/)。Dmoz是綜合性的,而Musicmoz是專題性的,專門針對互聯(lián)網(wǎng)上的音樂信息資源進行組織,走垂直化發(fā)展道路。在國內(nèi),2000年9月網(wǎng)易公司推出了開放式目錄管理系統(tǒng),后來該公益平臺受商業(yè)化影響,最終于2006年關閉。
開放目錄與圖書情報領域開展的學科信息門戶建設相似,均是基于人工標引,注重質(zhì)量,且提供基于學科或主題體系的瀏覽和檢索服務?傮w而言,學科信息門戶是依托圖書情報單位進行的網(wǎng)絡信息資源開發(fā)模式,由于構建者和管理者的目的不同,受益對象不同,其可持續(xù)發(fā)展及壯大都會受到多方面的限制,如:項目終結、領導與政策變化、工作人員變更、人力資源不足和推廣程度低等。隨著web2.0技術的應用和web2.0思想的傳播,學科信息門戶這種以建設單位自我為中心的網(wǎng)絡信息資源開發(fā)模式表現(xiàn)出局限性,不利于其可持續(xù)發(fā)展。而開放目錄最根本的特點是其可持續(xù)發(fā)展的指導思想――“網(wǎng)聚人力”。開放目錄的這種思想應用了分布式的網(wǎng)絡技術特點,充分發(fā)掘網(wǎng)絡人力資源,通過構建一個完全開放、網(wǎng)民共建、網(wǎng)絡共享的開放目錄系統(tǒng)來實現(xiàn)其持續(xù)發(fā)展。開放目錄契合了Web2.0時代以用戶為中心、強調(diào)用戶參與的信息服務理念及信息服務模式。本文根據(jù)構建“學術信息資源開放目錄”的實踐,研究開放目錄的特點,分析傳統(tǒng)開放目錄的局限性,研究適合于當前網(wǎng)絡信息環(huán)境的開放目錄優(yōu)化策略。
2 開放目錄的特點
2.1公平編輯原則與公益性
目前,沒有一家搜索引擎承諾不會因為商業(yè)目的而改變搜索結果和網(wǎng)站收錄規(guī)則,相對于這些充斥著競價排名、商業(yè)廣告的搜索引擎,公平原則與公益性是開放目錄生存和發(fā)展的根基,也是吸引大量志愿者參與的重要原因。如Domz“是一個本著建立一個無偏見的、為大眾服務的、闡述各種不同觀點的以及全面描述人類智慧為宗旨的,并由來自不同國家、不同文化背景、不同興趣愛好的編輯共同維護的社區(qū)所組成”。為此,Domz對商業(yè)網(wǎng)站的收錄非常謹慎,對一些網(wǎng)站不負責任地提交或登錄系統(tǒng)、歧視或干預競爭者的行為進行了限制并給出相應的處罰條例。這些管理規(guī)范保證了Domz的正常運轉,維護了其信譽,激發(fā)了志愿者的榮譽感。在體現(xiàn)公益性方面,Domz除為大眾提供全球視野的導航服務外,還將其元數(shù)據(jù)開放利用,打包供人下載。
2.2數(shù)據(jù)利用的開放性
開放目錄的公平編輯原則與公益性以及由眾智完成的網(wǎng)絡信息資源開發(fā)模式,決定了其數(shù)據(jù)必然是開放利用的。任何人只要注意站點政策和接受許可協(xié)議,就可以免費下載和使用開放目錄的數(shù)據(jù)。開放目錄網(wǎng)站提供專門的數(shù)據(jù)開放利用頁面,這是開放目錄與搜索引擎及學科信息門戶的不同之處。開放目錄數(shù)據(jù)利用的開放性提升了開放目錄的社會效益,增強了志愿者的凝聚力。
2.3信息資源的自組織性
開放目錄的信息資源自組織性體現(xiàn)在信息資源建設的眾智(Wisdom of Crowds)特性和目錄體系自成長性上。web2.0體現(xiàn)了開發(fā)、參與、分享和協(xié)作精神,在web2.0概念提出之前,開放目錄已經(jīng)在實踐web2.0的精神,利用眾智構建了龐大的信息資源目錄,所有網(wǎng)站的發(fā)現(xiàn)、添加、維護都由網(wǎng)民來完成。開放目錄的網(wǎng)站構建者僅僅提供一個平臺,網(wǎng)民出于自己的興趣、愛好和公益精神,基于開放目錄平臺志愿來組織網(wǎng)絡信息資源。作為開放目錄信息資源組織的核心――目錄體系,是當前網(wǎng)絡分類工具中唯一向用戶開放的分類系統(tǒng)。目錄體系中的類目由具有某一方面專長的目錄編輯員(網(wǎng)民)來進行維護,為了能夠及時和有效地反映網(wǎng)絡信息資源的實際發(fā)展情況,不同目錄等級的目錄編輯員可刪減和擴展類目。在網(wǎng)站的長期運行中,基于眾多目錄編輯員的“添磚加瓦”,目錄體系逐步形成和得到發(fā)展完善,最終形成一個有效的、龐大的、動態(tài)變化的自成長性的目錄體系。
3 開放目錄的優(yōu)化
開放目錄上述的這些特點,使其在互聯(lián)網(wǎng)中獨樹一幟,發(fā)展至今已有10余年的歷史,在互聯(lián)網(wǎng)世界享有極高的聲譽,其先進性和可持續(xù)發(fā)展的理念已是網(wǎng)絡信息資源組織領域學習和研究的對象。隨著網(wǎng)絡的發(fā)展,在目前以用戶為中心、強調(diào)參與的web2.0環(huán)境下,將開放目錄在原有的基礎上進行優(yōu)化,這對于網(wǎng)絡信息資源組織和信息服務領域的拓展具有積極的意義。筆者根據(jù)構建和運行“學術信息資源開放目錄”網(wǎng)站的實踐,分析出開放目錄以下幾個方面的優(yōu)化:
3.1信息資源開發(fā)由眾智向群智優(yōu)化
群智(Collective intelligence)是指組織或群體通過協(xié)作獲得更高程度的資料整合以及思考問題、解決問題的能力。一個組織或群體的成員之間,如果單純依賴個體的獨立判斷、思考和決策,產(chǎn)生群體性的智慧,這種情況下的群體性智慧稱之為“眾智”。眾智與群智不同,兩者之間的區(qū)別在于是否有個體之間的交流、分享和協(xié)作,群智有,眾智則沒有。開放目錄信息資源的開發(fā)由眾智向群智發(fā)展是適應現(xiàn)代網(wǎng)絡信息環(huán)境和可持續(xù)發(fā)展的關鍵。為此,開放目錄系統(tǒng)一方面要革新注冊和審核機制,吸引更多的用戶參與進來,使其有足夠的用戶群體,夯實產(chǎn)生“群智”的基礎;另一方面需要提供有效的用戶交流平臺,促進個體之間的交流、分享和協(xié)作,形成群智,來推動信息資源協(xié)同開發(fā)和高效組織。
在用戶注冊和審核機制方面,Domz和Musicmoz目錄編輯員的申請和審核機制極其嚴格,這保證了目錄的質(zhì)量,但極大地限制了廣大網(wǎng)民參與的積極性。它們的數(shù)據(jù)更多的是被搜索引擎利用,網(wǎng)民能直接利用的極少。在web2.0環(huán)境下,其吸引新的目錄編輯員的能力大不如前,參與的用戶數(shù)量不僅無法促進群智的產(chǎn)生,反而成為開放目錄可持續(xù)發(fā)展的障礙。為此,開放目錄需要改變目錄編輯員的注冊機制和管理機 制,可將用戶分為匿名用戶、注冊用戶和目錄編輯用戶。匿名用戶不用注冊直接匿名參與交流和提交信息資源,這能吸引大量不想注冊的用戶;注冊用戶只需要提供簡單信息就可以注冊,除了具備匿名用戶的功能外,還能獲得系統(tǒng)額外提供的個性化信息資源組織和管理功能,同時系統(tǒng)可以記錄注冊用戶的貢獻度,讓用戶體現(xiàn)榮譽感,增強用戶的黏性;當注冊用戶達到一定的貢獻度就具備申請目錄編輯員的資格,目錄編輯員除了擁有注冊用戶的權限外,還有管理目錄的權限。這種開放的注冊機制和目錄編輯員申請模式,使得開放目錄既能通過龐大的注冊用戶量培養(yǎng)潛在的目錄編輯員,又能保證目錄編輯員的水平,最終實現(xiàn)由群智來推動信息資源開發(fā)。
在提供有效的用戶交流平臺方面,開放目錄需為目錄編輯員、普通用戶和專職人員之間提供合適的、有效的渠道進行交流,以形成簡潔、高效的網(wǎng)絡社區(qū),同時能使交流產(chǎn)生的群智得到有效的沉淀。對于這些方面,開放目錄可以利用成熟的網(wǎng)絡技術和網(wǎng)絡服務來實現(xiàn)。如在作者設計的系統(tǒng)中,每一條信息的展示頁面上都有添加者的“QQ臨時會話”(不需要加為好友就可以與添加者交流)鏈接和“糾錯、補充、評論、留言”區(qū)域;設立QQ群實現(xiàn)群體的即時溝通交流;利用谷歌站點發(fā)起近期協(xié)同攻堅創(chuàng)議;構建類似wiki的質(zhì)量控制文件開放編輯區(qū)域。應用這些免費的交流平臺的好處有兩個方面:一是成熟的平臺本身擁有大量的用戶群,能減輕用戶交流的障礙;其次,減輕開放目錄系統(tǒng)開放和維護的成本,使開放目錄更專注于自身的發(fā)展。從作者運行開放目錄網(wǎng)站的實踐來看,這些功能基本能夠滿足交流的需要,而且提高了信息資源開發(fā)的協(xié)同度和信息資源描述的質(zhì)量。
3.2信息資源組織向深層次優(yōu)化
傳統(tǒng)的開放目錄僅依靠目錄體系進行信息組織,同分類搜索引擎類目組織類似,均是在遵循基本的邏輯規(guī)則的基礎上,通過層層劃分,按照從總到分的方式逐級展開。這種信息組織的主要特點是一個信息資源只分給一個類目,然后通過類目的多重列類、重復反映方式揭示類目。其技術實現(xiàn)是通過符號鏈接(包括快捷鏈接、返回、多重列類)實現(xiàn)主題目錄之間的嵌套以達到信息在不同主題下的列類瀏覽。這種傳統(tǒng)的信息組織模式是事后的目錄組織而不是基于信息描述過程中的多重分類,它也是目前搜索引擎分類目錄的主流。在開放目錄創(chuàng)建之初,網(wǎng)絡信息資源以HT-ML網(wǎng)站為主,類型相對單一,這種傳統(tǒng)的信息資源組織模式適合當時的發(fā)展階段;ヂ(lián)網(wǎng)發(fā)展到今天,信息組織技術得到極大發(fā)展,信息資源的媒體形式越來越復雜,同一網(wǎng)站的主題內(nèi)容和資源類型趨于多樣化,利用這種事后的目錄組織來揭示信息資源的方式已不能適應新的信息環(huán)境。因此,在依靠目錄體系進行信息組織實現(xiàn)目錄瀏覽的同時,還需要深入到信息資源描述(元數(shù)據(jù)創(chuàng)建)層面,對單個信息資源從主題、類型、用途等方面進行多重分類。作者在實踐中發(fā)現(xiàn),25%的網(wǎng)站被分到多個主題類目中,信息提交者也很樂意在描述信息資源的同時再進行媒體類型的分類;尤為重要的是,基于這些豐富描述的元數(shù)據(jù)所進行的信息資源組織不僅能提供豐富的檢索功能,還能實現(xiàn)多種形式的瀏覽(如某學科開放期刊專題)和開放利用(如元數(shù)據(jù)定制)。
此外,主題圖作為一種新興的知識組織技術,在網(wǎng)絡信息組織領域逐漸引起重視。主題圖吸收了索引、敘詞表、分類法等思想,并有所發(fā)展。其應用方法有:構建領域本體、知識關聯(lián)量化、標引信息資源、構建XTM文件、主題圖合并和主題圖可視化。開放目錄可嘗試應用主題圖元素,提供基于主題的導航和語義檢索功能,使信息資源組織進一步向深層次發(fā)展。
3.3信息資源描述由單一模板向多模板優(yōu)化
在Dmoz設計之初,網(wǎng)絡信息資源以網(wǎng)站為主,其在信息資源的描述方面,元數(shù)據(jù)的元素比較簡單,且只用單一的元數(shù)據(jù)模板,添加者選擇對應的目錄后,只需要填寫信息資源的標題、鏈接和簡介。網(wǎng)絡發(fā)展到今天,網(wǎng)絡資源的類型變得多樣化,而普通網(wǎng)民并不具備對眾多類型的信息資源進行深度描述的知識和耐心。比如,當標引一個開放獲取的期刊時,若還是按對待網(wǎng)站的模式進行標引,就不能很好地揭示資源。Dmoz這種單一模板的信息資源描述方式,已不能適應新的信息環(huán)境和用戶需求。開放目錄若能提供多個模板,一方面能針對不同類型的信息資源通過特定元素規(guī)范信息資源的描述,引導用戶進行深度標引,減輕用戶標引的難度。其整個過程如同“傻瓜式”的填空,使用戶有更多精力用于新的信息資源發(fā)現(xiàn)。另一方面,深度標引后的信息資源能根據(jù)不同的需要進行信息組織,提供多種形式的信息服務。多模板的開放目錄相對于單一的元數(shù)據(jù)模板來說,更能提高信息資源建設質(zhì)量,豐富信息資源的組織,提供多樣化的信息服務,增強用戶的參與性。在Dmoz之后的Musicmoz是多模板的開放目錄的范例,其對信息資源描述的元數(shù)據(jù)模板進行了優(yōu)化設計,根據(jù)信息資源的不同類型提供了不同的元數(shù)據(jù)模板,目前提供了包括Article、Concert、Release、URL、Video等12種類型的元數(shù)據(jù)模板。不同類型的信息資源所要填寫的元數(shù)據(jù)元素有所不同,如URL類型只需要描述鏈接地址、網(wǎng)站標題和網(wǎng)站簡介3個元素,而對于Video的描述有16個元素。這些元數(shù)據(jù)模板能恰當?shù)胤从承畔①Y源的情況,為元數(shù)據(jù)的開放利用和開放目錄網(wǎng)站的服務提供了更多可能,因而Musicmoz在信息資源揭示和信息服務方面都大大超過Dmoz。
3.4元數(shù)據(jù)開放利用由精英模式向大眾模式優(yōu)化
在元數(shù)據(jù)開放利用方面,Dmoz和Musicmoz均以數(shù)據(jù)包的形式提供下載。其中Dmoz數(shù)據(jù)包為RDF(XML格式)元數(shù)據(jù),目前利用Dmoz數(shù)據(jù)的搜索引擎和網(wǎng)站共有189個。Musicmoz除提供總目錄體系的XML文檔數(shù)據(jù)包外,還提供信息資源元數(shù)據(jù)的XML文檔數(shù)據(jù)包?傮w來看,兩者的元數(shù)據(jù)開放利用形式對主網(wǎng)站的訪問壓力小,數(shù)據(jù)提供后可以不管,而且用戶可以基于元數(shù)據(jù)做個性化的應用。但是這些簡單的元數(shù)據(jù)開放利用只是提供“原材料”,要利用這些數(shù)據(jù)需要專門的技術人員才能做到,而且這些“原材料”因為是打包下載,不能實現(xiàn)特定數(shù)據(jù)的定制,所以只是最簡單的元數(shù)據(jù)共享,要具體應用還需做進一步的開發(fā),這勢必造成元數(shù)據(jù)開放利用門檻高。更重要的問題是當某一個記錄的元數(shù)據(jù)發(fā)生變化,維護更新也成問題。當前,有能力利用這些開放元數(shù)據(jù)的幾乎都是大的網(wǎng)站與搜索引擎,是一種精英模式的利用。對于普通網(wǎng)民,即使是那些開放目錄的貢獻者,若想應用到自己的博客或個人網(wǎng)站中,那也是有相當?shù)碾y度;即使是懂技術的網(wǎng)民去利用,也要費一番周折去解析XML文檔、設計數(shù)據(jù)顯示形式等,大多因利用費時費力而選擇放棄,從而導致開放目錄應用范圍窄,影響小。
在當前web2.0網(wǎng)絡環(huán)境下,這種精英模式的數(shù)據(jù)開放利用顯然不利于開放目錄的發(fā)展。因而,開放目錄除了要關注信息資源的組織外,還應在數(shù)據(jù)開放利用上下功夫,降低技術門檻,提供靈活多樣的數(shù)據(jù)開放利用形式,實施大眾化的數(shù)據(jù)開放利用模式。這種模式一般是以腳本和API的形式提供給用戶,如Google AJAX Search API,只需要簡單定制就可以得到一段代碼,粘貼到網(wǎng)頁中就能應用Google的搜索服務,這幾乎就是“成品”。基于這樣的思路,作者在實踐中開發(fā)了一個基于代碼定制的數(shù)據(jù)開放利用實例和搜索API,用戶可以定制任何目錄下的信息資源到自己的頁面去實現(xiàn)專題導航,而無需關心數(shù)據(jù)的維護和更新,也可利用搜索API將數(shù)據(jù)集成到自己的網(wǎng)頁中。在web2.0環(huán)境下,開放目錄網(wǎng)站除了直接開發(fā)多種形式的應用外,還可拓展利用志愿者編輯網(wǎng)絡目錄的思想,讓廣大網(wǎng)民來開發(fā)形式多樣的基于元數(shù)據(jù)的應用,然后借助開源軟件的思路將代碼廣為發(fā)布,走“網(wǎng)聚人力”的可持續(xù)發(fā)展的模式。形式多樣的利用形式可引導用戶深入利用開放數(shù)據(jù),提升開放目錄的社會效益。
3.5開放目錄由綜合性向專題性優(yōu)化
門戶網(wǎng)站經(jīng)歷過從綜合門戶向專題門戶發(fā)展的過程,搜索引擎也經(jīng)歷過類似過程,這是適應新的網(wǎng)絡環(huán)境下符合用戶需求的發(fā)展模式。在這樣的趨勢下,網(wǎng)景發(fā)展了綜合性的開放目錄Dmoz的應用創(chuàng)建了Chef-Moz,目前已有5000多個注冊編輯,主要提供酒店黃頁信息的收集整理與評論,收集的酒店數(shù)量超過32萬。在Dmoz之后的Musicmoz則僅構建音樂領域的專題開放目錄。當前,我國圖書情報界網(wǎng)絡信息資源開發(fā)領域的實踐均是從專題性人手,如我國CALIS數(shù)字圖書館項目聯(lián)合國內(nèi)重點高校圖書館構建了各重點學科的導航系統(tǒng),中國國家科學數(shù)字圖書館也構建了一系列學科信息門戶,部分高校圖書館也構建了支持本校學科發(fā)展的學科信息門戶。開放目錄從綜合性向專題性發(fā)展成為新的趨勢,這一趨勢對我國信息資源開法走web2.0道路提供了新模式。
相關熱詞搜索:優(yōu)化 開放 目錄 開放目錄及其優(yōu)化研究 優(yōu)化目錄 優(yōu)化人生全文目錄
熱點文章閱讀