基于泛域名解析方式的關(guān)鍵詞實現(xiàn)技術(shù)_關(guān)鍵詞匹配方式
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
〔摘要〕基于數(shù)字圖書館用戶的關(guān)鍵詞信息查詢問題,提出一種泛中文域名與關(guān)鍵詞超鏈接實現(xiàn)方法。通過設(shè)立關(guān)鍵詞表、利用泛中文域名的解析技術(shù)與重定向技術(shù)和添加鏈接算法,實現(xiàn)網(wǎng)頁中全中文專業(yè)術(shù)語、通用詞都能點擊和按關(guān)鍵詞加域名方式直接訪問到相應(yīng)站點、專題、網(wǎng)頁或搜索頁。本實驗通過建立關(guān)鍵詞庫、完成關(guān)鍵詞地址導(dǎo)向、泛中文域名的解析實現(xiàn)、超連接添加技術(shù)4個過程實現(xiàn)。
〔關(guān)鍵詞〕泛域名 關(guān)鍵詞 重定向技術(shù) 超鏈接
〔分類號〕G230
The Implementation Technology of Keyword Based on Wildcard Domain Name Analysis
RenHui
Ludong University library, Yantai264025
〔Abstract〕This paper tries to find a new way about the hyperlinks between wildcard domain name and keyword based on the digital library user"s need in keyword searching. Through setting up keywords table, making use of the technology of wildcard domain name analysis and re-directional technology and adding link algorithm,the Chinese technical terms, general words in web pages can be clicked and visited to correlated websites, Special domains. Web pages or search pages directly by keywords as well as domain name. This experiment can be made through the establishment of keywords table, orientation of keywords address. Analysis of wildcard domain names and additional technology of hyperlinks.
〔Keywords〕wildcard domain name keyword re-directional technology hyperlinks
超鏈接是網(wǎng)頁中最重要、最根本的元素之一。它能使多個孤立的網(wǎng)頁之間產(chǎn)生相互聯(lián)系,使單獨的網(wǎng)頁形成一個有機的整體。目前網(wǎng)頁上的超鏈接一般分為三種:①絕對URL的超鏈接,URL(Uniform Resource Locator)就是統(tǒng)一資源定位符,簡單地講就是網(wǎng)絡(luò)上的一個站點、網(wǎng)頁的完整路徑,如http://www.swnu.省略/index.htm ;②相對URL的超鏈接,將網(wǎng)頁上的某一段文字或某標題鏈接到同一網(wǎng)站的其他網(wǎng)頁上面去;③同一網(wǎng)頁的超鏈接,這就要使用到書簽的超鏈接。由于數(shù)字圖書館用戶信息需求量大,信息組織不能一步到位,一些關(guān)鍵詞的導(dǎo)向頁面不完備。本實驗以關(guān)鍵詞的超鏈接技術(shù)實現(xiàn)為例,根據(jù)用戶信息數(shù)據(jù)源的語義擴充請求,引入和結(jié)合泛中文域名解析思路,能有效解決目前關(guān)鍵詞鏈接中存在的鏈接不全面問題。
1關(guān)鍵詞的實現(xiàn)
1.1建立關(guān)鍵詞庫
WEB頁面中的關(guān)鍵詞是直接從文章中抽取出來的自然語言,關(guān)鍵詞可以是主題詞,也可以是自由詞。字、詞、短語、詞組、專業(yè)術(shù)語和別名都可作為關(guān)鍵詞進行檢索。關(guān)鍵詞庫的建立可以參照《中國分類主題詞表》、《漢語主題題表》等專家學(xué)者公認的主題詞表,也可以根據(jù)數(shù)字圖書館用戶的需要以及工作與科研的需要自己組建關(guān)鍵詞庫。所有關(guān)鍵詞條都應(yīng)對應(yīng)到知識點上或某些研究主題。我們以生物信息學(xué)為例來說明關(guān)鍵詞庫的建立,如關(guān)鍵詞可以包括納米技術(shù)、生物制藥、基因組、藥物靶、DNA分子、核苷酸順序、基因芯片、基因卡、轉(zhuǎn)基因技術(shù)、蛋白質(zhì)結(jié)構(gòu)、生物識別技術(shù)、克隆、生物信息學(xué)機構(gòu)組織、人類基因組計劃、分子設(shè)計、表達譜數(shù)據(jù)、分子模擬技術(shù)等。
1.2關(guān)鍵詞地址導(dǎo)向
每一個關(guān)鍵詞都能對應(yīng)到相應(yīng)的知識點上,鏈接導(dǎo)向地址可以是一個站點、子站點、具體的頁面、相關(guān)專題研究等。為了保證關(guān)鍵詞能鏈接到下一個完整的知識點,我們通過WEB頁面查詢對關(guān)鍵詞的鏈接進行了信息資源的準確定位,讓用戶更準確在檢索到所需要的生物信息。本實驗建立了一個關(guān)鍵詞鏈接檢索對照表(見表1) 。
另外,還通過關(guān)鍵詞的建立導(dǎo)向各高校網(wǎng)站的大量課件,其中都是各生物信息學(xué)教師講課的素材,含有大量的知識信
息,最新技術(shù)熱點。從中能挖掘出其課件內(nèi)容并加工出大量超鏈專題。在關(guān)鍵詞的建設(shè)過程中,一些關(guān)鍵詞對應(yīng)知識點
表1關(guān)鍵記號鏈接檢索對照
的地址無法確定,或因信息或欄目專題的調(diào)整導(dǎo)致某些頁面地址(URL)經(jīng)常變化,常存在關(guān)鍵詞條設(shè)置不全、無法指向正確頁面或已經(jīng)添加的網(wǎng)頁需要重新生成等一系列問題。只有關(guān)鍵詞本身是唯一的、確定的、不變的,因此,我們采用泛域名的映射解析技術(shù),將每一個關(guān)鍵詞作為二級域名。
1.3關(guān)鍵詞參照表
關(guān)鍵詞表用于生成關(guān)鍵詞詞典文件和泛域名解析和重定向。其中關(guān)鍵詞列具唯一索引,參照詞用于解決多詞一義現(xiàn)象。關(guān)鍵詞、BIG5碼、IDN編碼等列具有索引以提高解析速度。部分列數(shù)據(jù)冗余以避免嵌套查詢或反復(fù)編碼解碼操作。在關(guān)鍵詞表管理平臺中,實現(xiàn)對BIG5碼、IDN編碼列和參照詞鏈接地址列的自動維護。關(guān)鍵詞表可同時具有優(yōu)先級別、廣告鏈接等屬性(見表2) 。
3泛中文域名解析
3.省略,之下所設(shè)的*.省略全部解析到同一個IP地址上去。比如域名alex.省略就會自已自動解析到與abc.省略一樣的頁面。
泛解析定義為:設(shè)已有域名是bizsn.com,將主機名設(shè)置為“*”,IP解析到比如:203.88.192.省略之前的所有子域名都將解析到203.88.192.省略sn.省略sn.com都將解析到203.88.192.134。在系統(tǒng)里面如果單獨設(shè)置一個子域名解析,比如將主機名設(shè)置為mail,單獨解析到203.88.192.134,那么該解析記錄優(yōu)先。泛域名在實際使用中作用是非常廣泛的,比如實現(xiàn)無限二級域名功能,提供免費的url轉(zhuǎn)發(fā),在IDC部門實現(xiàn)自動分配免費網(wǎng)址,在大型企業(yè)中實現(xiàn)網(wǎng)址分類管理等等,都發(fā)揮了巨大的作用。
泛解析目前常用于博客系統(tǒng),但子域均為英文字母和數(shù)字,中文子域名由于編碼技術(shù)問題易造成無法正常訪問,尚少見應(yīng)用。下面以Windows 2000 server + asp環(huán)境下實現(xiàn)的方法為例說明建立泛解析的兩種方法:
第一種方法是直接在域下建立名為“*”的主機。但實際上在Windows 2000中你使用DNS控制臺建立“*”主機時它是不允許你輸入這個字符的,因此需要一點小技巧:就是修改c:\winnt\system32\dns\aoom.省略區(qū)域下另建一個二級區(qū)域,名為“*”,這個是系統(tǒng)允許建立的,然后在*.省略區(qū)域下建立一個空主機名的記錄就行了。建好DNS后,在區(qū)域“abc.com” 上彈出菜單中選擇“重新加載”,待刷新后,出現(xiàn)畫面如下。您會發(fā)現(xiàn)此時多了一個主機名為“*”的記錄。
3.2 編碼轉(zhuǎn)換
目前Internet DNS是7位ASCII編碼環(huán)境,中文域名解析多 以PUNYCODE編碼進行兼容轉(zhuǎn)換。中文編碼格式有國際標準(UTF-8)、國家標準(GB2312,GBK)和工業(yè)事實標準(BIG5),經(jīng)過瀏覽器提交編碼后捕捉到的可能為國際化域名(IDS)或其它標準。如CNNIC的中文域名用戶插件、TWNIC的中文通、NETSCAPE7.1以上版本、Mozzilla browser-1.4以上版本。Opera browser7.2以上版本等支持和轉(zhuǎn)換為IDN標準,Internet Explorer\3721網(wǎng)絡(luò)實名等仍采用UNI-CODE編碼或UTF-8標準。
對于大量關(guān)鍵詞若采用相應(yīng)漢語拼音或英文作子域名容易重復(fù)且不便記憶,直接采用中文關(guān)鍵詞本身將很簡潔直觀,如http://轉(zhuǎn)基因.省略。采用WEB服務(wù)器上關(guān)鍵詞多編碼對照表和子域名捕捉處理程序,泛中文域名的實現(xiàn)可以不涉及更改瀏覽者客戶端設(shè)置或DNS服務(wù)器調(diào)整。針對當前對不同瀏覽器或安裝不同插件的瀏覽器捕捉到的編碼方式差異,我們采用在頭飾詞表中預(yù)先設(shè)置好各類編碼,即除簡體中文外,同時對照有BIG5(繁體中文)、IDN或punycode編碼、漢語拼音、英文、拉丁名等字符串,用于兼顧多種標準和輔助解析,并實現(xiàn)對各類子域名如http://轉(zhuǎn)基因.省略;http://轉(zhuǎn)基因.省略;http://zhuanjiyin.省略的同時把持。
3.3子域名的重定向
DNS泛域名解析將除明確定義(如WWW)外的主機頭均指向到“*”對應(yīng)IP的WEB站點。WEB中腳本程序(JSP、ASP、ASPX、PHP等)捕捉取到子域名字符串,掃描關(guān)鍵詞表,比較子域名字符串與表中各編碼,定位到關(guān)鍵詞;若有相應(yīng)鏈接地址,通過參照詞找到和重定向到參照的鏈接地址;若沒有此關(guān)鍵詞提示高有開通此域名,或者重定向到某搜索頁面。
4超鏈接添加技術(shù)
4.1實現(xiàn)過程
在網(wǎng)頁中添加超鏈接其實就是字符串操作,實現(xiàn)過程分下面4個步驟:
4.1.1定位取出正文內(nèi)容。在制作和發(fā)布生成頁面時采用WEB標準格式,將內(nèi)容與表達分離,正文內(nèi)容用約定標簽,網(wǎng)頁中其它文字如當前位置、相關(guān)文章等在標簽之外,以便處理時準確定位。
4.1.2保護一些文字和HTML代碼。對于種類特殊用途的文字或字符,如HTML代碼、已存在的鏈接文字、圖片的alt文字、各DOM對象的title文字等進行保護處理,方法是按規(guī)則找到所有需要保護字符存入數(shù)組后替換為識別用編號。
4.1.3依次掃描關(guān)鍵詞庫。在構(gòu)建完整主題詞庫表和明確泛域名導(dǎo)出鏈接思路基礎(chǔ)上,詞庫的詞條采用近字符長度和優(yōu)先級別排序,避開語義分析和斷詞處理的困難。
4.1.4對各關(guān)鍵詞只對在正文中第一次出現(xiàn)者增加超鏈接。方法是當某關(guān)鍵詞在文中首次出現(xiàn)時將其轉(zhuǎn)換為鏈接HTML代碼記錄到中轉(zhuǎn)數(shù)組,同時將原正文換為關(guān)鍵詞前內(nèi)容+對應(yīng)數(shù)組的編號符+關(guān)鍵詞后內(nèi)容。當掃描所有詞條后,再根據(jù)識別用編號從中轉(zhuǎn)數(shù)組中還原成添加鏈接后的正文內(nèi)容。
4.2 添加方式分類
關(guān)鍵詞的添加方式一共有三種:①手工添加。即由編排人員手工勞動一條一條添加,效率低,一般不采用這種方式。②發(fā)布時自動。這是我們采用的方式,這種方式在服務(wù)器端完成,速度快,一次性完成,發(fā)布后對所有數(shù)字圖書館用戶一次性有效,利于訪問,有利于搜索引擎收錄,但當關(guān)鍵詞調(diào)整后需要重新發(fā)布各頁面;發(fā)布前手工添加,即編輯人員編排信息時人為設(shè)定、發(fā)布時添加到發(fā)布系統(tǒng),在信息編審?fù)瓿杀響B(tài)頁面后,更新發(fā)布服務(wù)器前,由添加關(guān)鍵詞超鏈接模塊自動完成。③在線添加。為HTML包含的is腳本文體在用戶瀏覽見面時對正文部分分析與實現(xiàn)。網(wǎng)頁正文本身漢有超鏈接代碼,用戶可選擇是否啟用此功能,關(guān)鍵詞表的調(diào)整能實時生效,但詞條多時資源消耗較大,適用于各種論壇或博客頁面,相對較少采用。
4.3Java腳本語言
以下是利用Javascript腳本語言將上述實現(xiàn)過程編成的腳本文件,在用戶端運行。即可實現(xiàn)所需求的目的,以下是腳本文件的主體描述部分:
//獲取關(guān)鍵詞的正文內(nèi)容
if (typeof ( thelnfoContent )! = "undefined" )
{var obj =docunent.get ElenentByld ( "thelnfo Content" );}
else {var obj = document.body; }
var s = obj.inner HTML;
//獲取關(guān)鍵詞,按順序排列,用逗號隔開
var strwords = “基因組,基因工程,分子設(shè)計,蛋白質(zhì)結(jié)構(gòu),生物芯片,細胞融合,”
var k = strwords.split",";
//初始化中間數(shù)組
Var mArray4 Protect = new Array ( );
mArray4 Prorecr[0]=" ";
//保護特別標記為添加鏈接范圍外內(nèi)容,略
Special_Content Protect ( );
//保護文中已有鏈接部分
Comm_Content Protect ("<A", " </A>");
//保護各類HTML代碼部分
Comm_Content Protect ("<", ">");
//掃描詞條,對首次出現(xiàn)的關(guān)鍵詞按加鏈接后代碼保護
for (var ilinks = 0; iLinks<= k. length; iLinks ++){Link Words2 Protected Array (k[iLinks],k[iLinks]) }
//從中間數(shù)組依次還原
Restore From Protected Array ( );
//回寫到操作對象
obj.inner HTML = s;
//保護字符到中間數(shù)組,原相應(yīng)內(nèi)容換為編號標識
function Add2 Protected Array (str4 Protect) {var iNext = mArray4 Protect.length; mArray4 Protect[iNext]= str4 Protect;
s = s.replace (str4 Protect, "-" + iNext.to String ( )+ "l" ) }
//將出現(xiàn)關(guān)鍵詞以超鏈接代碼記錄到中間數(shù)組
function Link Words2 Protected Array ( strWord, strUrl ) {var iPosition = s.index Of (str Word )
if ( iPosition= = -1) { return" "}
var iNext = mArray4 Protect.省略"target =" "-blank" cllass = "bl" >+strWord + "</a>";
var strtemp = "-"+ iNext.to String ( ) + "l"
s= s.substr ( 0, iPosition ) + strtemp + s.substring ( iPosition + strWord. Length, s .length) }
//掃描中間數(shù)組將各標識號還原
function Restore From Protected Arroy ( ){for (var larray = marray4Pr - otect.length;iarray> = 0; iarray--){s = s.replace ("-" + iarray.to String ( ) +"l", marray4 Protect[iarray]) }}
//將所有*與*間字符均保護
function Comm_ Content Protect (strStart, strEnd ) }
While ((s. index Of strStart )! = -1&& ( s. index Of (strEnd )! =-1) && ( itimes <5000 ) ) {
var strtemp = s.substring ( s. index Of(strStart ),s. index Of ( strEnd )+ strEnd. Length );
itimes++;
Add2 Protected Array ( strtemp ) }}
5結(jié)語
通過基于關(guān)鍵詞的搜索引擎進行信息的定位和查詢,這種方式隨著WEB上的信息猛增而變得越來越不適應(yīng);陉P(guān)鍵詞的搜索引擎最大的問題是其忽略了關(guān)鍵詞所包含的語義信息而造成查全率和查準率比較低。而設(shè)立關(guān)鍵詞表、利用泛域名解析技術(shù)與重定向技術(shù)和添加鏈接技術(shù)能發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢,形成文本超鏈接、圖像超鏈接、E-mail鏈接、錨記鏈接、多媒體文件鏈接等,為數(shù)字圖書館用戶提供更高效更準確的服務(wù)。
參考文獻:
[1]Li Quanzhong,Moon B.Indexing and query XML data for regular path expressions.// the International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,2001.361-370
[2]WWW Consortium,Xqueryl.0 [2003-11-12]. http://www.省略/TR/xpath20.
[3]Ashburner M,Ball C A,Blake J A,et al.Gene ontology:tool for the unification of biology.The Gene Ontology Consortium.Nature Genetics.Nat Genet,2000,(25):25-29.
[4]生物信息學(xué). [2006-05-25].http://baike.省略/view/7303.htm.
[5]生物信息學(xué)討論組. [2006-08-24].省略bio.org.
[6]Foster I,The grid:a new infrastructure for 21st century science.Physics Today,2002,55(2):42-47
[7]杜義華.基于泛中文域名的網(wǎng)頁關(guān)鍵詞超鏈接功能的探討與實現(xiàn).計算機系統(tǒng)應(yīng)用,2006(10):76-81
[8]于欣麗.試論中文域名標準化.世界標準化與質(zhì)量管理,2000(12):29-31
[9]金海峰.談ASP在實現(xiàn)虛擬域名重定向中的應(yīng)用.電腦知識與技術(shù),2005(4):38-41
[10]成 瑜,何潔月.基于本體的生物信息數(shù)據(jù)源的發(fā)現(xiàn).發(fā)現(xiàn)計算機應(yīng)用技術(shù),2005(1):38-41
相關(guān)熱詞搜索:域名解析 關(guān)鍵詞 方式 基于泛域名解析方式的關(guān)鍵詞實現(xiàn)技術(shù) 幾度網(wǎng)絡(luò) e是幾g網(wǎng)絡(luò)
熱點文章閱讀