www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<progress id="kafj9"><table id="kafj9"><meter id="kafj9"></meter></table></progress>

<acronym id="kafj9"><small id="kafj9"></small></acronym>

感恩親情 蒲公英文摘 > 感恩親情 >

語義Web環(huán)境下的搜索引擎功能分析|語義搜索引擎研究

發(fā)布時(shí)間:2020-03-10 來源: 感恩親情點(diǎn)擊：

　　[摘要]探討當(dāng)前搜索引擎存在的問題以及搜索引擎的語義功能需求，然后基于Web搜索引擎和語義Web，提出語義Web環(huán)境下的搜索引擎功能流圖，并針對(duì)crawler、本體與知識(shí)庫、語義注釋、篩選與推理、語義索引、語義檢索等對(duì)搜索引擎的功能進(jìn)行分析。語義Web環(huán)境下的搜索引擎將促進(jìn)信息、知識(shí)需求得到更好、更精確的語義表述和滿足，推動(dòng)高效的信息和知識(shí)管理。
　　[關(guān)鍵詞]語義Web　搜索引擎　功能　語義檢索
　　[分類號(hào)]G203
　　
　　1　引言
　　
　　搜索引擎如Google和百度極大地改變了人們存取信息的方式。在用戶眼里，搜索引擎為他們提供了一個(gè)友好的檢索入口，用戶只需提供檢索式(關(guān)鍵詞列表)便能搜尋到包含或者不包含這些關(guān)鍵詞的相關(guān)網(wǎng)頁。但是，當(dāng)前Web內(nèi)容的含義不是機(jī)器可處理的，雖然一些工具可以檢索文本、分割文本、檢查拼寫、計(jì)算詞頻，但在解釋句子和抽取有用的信息方面，當(dāng)前的軟件能力還是非常有限的，如搜索引擎只返回排序的檢索結(jié)果列表，提供極少甚至不提供文檔間的語義關(guān)系，檢索結(jié)果在語義上難以滿足用戶的需求。
　　Web上分布著大量重要而有價(jià)值的信息和知識(shí)。但是，Web內(nèi)容是按照供人類理解的形式設(shè)計(jì)的。面對(duì)Web上的信息，知識(shí)工作者不得不花費(fèi)大量的時(shí)間進(jìn)行瀏覽、檢索、比較和分析，以便找出文檔間是如何相互關(guān)聯(lián)。只有當(dāng)知識(shí)工作者開始在不同的信息間找出相似與不同時(shí)，他們才有可能構(gòu)建關(guān)系以創(chuàng)造新的知識(shí)。隨著Web上信息內(nèi)容的劇增，這種基于人力理解的Web信息處理和開發(fā)利用已難以適應(yīng)高效率的網(wǎng)絡(luò)信息和知識(shí)管理的需要，人們對(duì)Web信息索引、檢索、知識(shí)共享和處理等提出了更多更高的功能需求。
　　在技術(shù)上如何提高Web信息和知識(shí)管理效率方面，目前存在兩種方案：一種方案是繼續(xù)基于目前Web內(nèi)容的表示形式，不斷地開發(fā)出基于人工智能和計(jì)算語言的處理這種表示形式的更加復(fù)雜的技術(shù)；另一種方案是增加一種更容易讓機(jī)器處理的Web內(nèi)容的形式化表示，并讓智能技術(shù)充分利用這種形式化表示。后一種方案已具體體現(xiàn)在語義Web的產(chǎn)生和發(fā)展之中。語義Web是當(dāng)前Web的擴(kuò)展，它按照某種語義方式進(jìn)行結(jié)構(gòu)化設(shè)計(jì)，以便Web內(nèi)容不僅被人類所理解，同時(shí)也為計(jì)算機(jī)所理解。語義Web將促使機(jī)器能夠像人一樣具有智能，能夠從信息間找出相似與不同，并且構(gòu)建關(guān)系以創(chuàng)造新的知識(shí)。語義Web為搜索引擎的語義功能實(shí)現(xiàn)提供了一個(gè)全新的渠道和嶄新的平臺(tái)。
　　
　　2　語義Web及相關(guān)標(biāo)準(zhǔn)
　　
　　語義Web的內(nèi)容是按照某種語義方式進(jìn)行結(jié)構(gòu)化設(shè)計(jì)，以便該內(nèi)容不僅被人類所理解，同時(shí)也為計(jì)算機(jī)所理解。語義Web不是一個(gè)獨(dú)立的Web，而是當(dāng)前Web的擴(kuò)展。在當(dāng)前Web基礎(chǔ)上增加一個(gè)語義(知識(shí))層，便形成語義Web。語義Web方法應(yīng)當(dāng)開發(fā)出以機(jī)器可處理(machine processable)的形式表示信息的語言。在語義Web中，信息被賦予描述良好的含義，這有利于促進(jìn)計(jì)算機(jī)和人類的相互合作。
　　從某種意義上說，將本體(Ontology)應(yīng)用到Web促進(jìn)了語義Web的發(fā)展。領(lǐng)域本體對(duì)本領(lǐng)域描述和表達(dá)的對(duì)象、對(duì)象間關(guān)系及對(duì)象屬性進(jìn)行了規(guī)定，具體的描述和表達(dá)構(gòu)成了知識(shí)庫。本體和知識(shí)庫能夠促進(jìn)信息間相互關(guān)系的更有效發(fā)現(xiàn)。所選信息間相互關(guān)系的發(fā)現(xiàn)能夠?qū)⒎指舳铝⒌男畔⒆兂捎幸饬x的上下文，所揭示出的隱含結(jié)構(gòu)將幫助用戶更有效地利用和管理信息。這種從語義上鏈接不同數(shù)據(jù)源(文本、圖像、人、概念等)的思想非常重要。有了這個(gè)，人們能夠從當(dāng)前具有簡單鏈接的Web轉(zhuǎn)向更具語義表示的豐富的Web，在這個(gè)Web中，人們能夠逐漸增加含義，并在資源間表達(dá)一個(gè)全新的關(guān)系集，使得當(dāng)前Web中隱含的特殊上下文關(guān)系變得更加清晰。
　　將語義Web融入當(dāng)前Web結(jié)構(gòu)之中的步伐已經(jīng)邁出，語義Web構(gòu)件的相應(yīng)標(biāo)準(zhǔn)在W3C(World WideWeb)、學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力下已在全世界范圍內(nèi)得到認(rèn)可和一定范圍的應(yīng)用。XML為語義Web的發(fā)展帶來了希望。在語義Web中，XML Schema作為基礎(chǔ)構(gòu)件，與XML一起，盡管缺少語義約束，但對(duì)具有語義約束力的RDF(Resouree Description Framework)、RDF Schema和OWL(Ontology Web Language)起到很好的語法、結(jié)構(gòu)與數(shù)據(jù)類型上的支撐作用。RDF是一種對(duì)Web資源進(jìn)行信息表達(dá)的語言，其目的在于表達(dá)Web資源的元數(shù)據(jù)，如標(biāo)題、作者、Web頁面更改日期、Web文檔的版權(quán)和注冊(cè)信息、語言、格式、內(nèi)容條目等。RDF Schema并不直接提供特定應(yīng)用類以及屬性的詞匯，而是提供描述這些類和屬性的工具，并顯示哪些類和屬性在一起使用。OWL被設(shè)計(jì)成用于那些處理信息的內(nèi)容而不是僅向人類呈現(xiàn)信息的應(yīng)用，OWL通過提供更多具有形式化語義的詞匯，以便在Web內(nèi)容的機(jī)器可理解性方面強(qiáng)于XML Schema、RDF Schema等所能達(dá)到的程度。XML Schema、RDF Schema和OWL可看成是表示功能遞增的本體語言，它們逐漸具有更多的語義表示能力，并分別和不斷滿足了不同層次和不同時(shí)期信息和知識(shí)處理的需求。
　　
　　3　搜索引擎的語義功能需求
　　
　　3.1　當(dāng)前搜索引擎存在的問題
　　Web上當(dāng)前的信息檢索關(guān)注的是用戶需求和信息庫，而極少關(guān)注信息間的語義關(guān)系。Web上的信息不是機(jī)器可利用的形式，仍然需要人來區(qū)分信息的含義及其與需求間的關(guān)系。下面對(duì)當(dāng)前Web環(huán)境下的推理和檢索中存在的問題進(jìn)行分析：①當(dāng)前的Web搜索引擎不直接適合于語義標(biāo)記的索引和檢索。大多數(shù)的搜索引擎利用關(guān)鍵詞作為索引詞語。當(dāng)一個(gè)利用RDF書寫的文檔被索引時(shí)，標(biāo)記會(huì)被許多搜索引擎簡單地忽略；而語義Web的基礎(chǔ)是標(biāo)記語言且完全表達(dá)成標(biāo)記，因而對(duì)搜索引擎來說是不可見的，即使搜索引擎能夠探測(cè)和索引文檔內(nèi)含的標(biāo)記，但也并不以某種方式來處理這些標(biāo)記，而只是或者允許在檢索中使用標(biāo)記，或者能夠區(qū)分標(biāo)記和其他文本。②當(dāng)前的Web搜索技術(shù)不能利用語義標(biāo)記來改善文本檢索。Web搜索引擎基本依賴于簡單的詞語統(tǒng)計(jì)來識(shí)別與檢索最相關(guān)的文檔。利用相關(guān)技術(shù)如辭典擴(kuò)展可以在檢索中集成一定的推理，但與利用語義標(biāo)記的情形相比，這樣的推理是簡單的。在語義環(huán)境下，語義標(biāo)記可能出現(xiàn)在檢索式或索引文檔中。③文本在推理中沒有得到利用。如果有可能自動(dòng)地將文本轉(zhuǎn)換為語義表示，則所形成的語義表示可在推理中加以利用。
　　
　　3.2語義功能需求
　　語義Web的目標(biāo)之一是提升人和軟件代理在Web上發(fā)現(xiàn)和處理文檔、信息和知識(shí)的能力。語義Web環(huán)境下的搜索引擎建立在Web搜索引擎、信息檢索技術(shù)和語義Web基礎(chǔ)之上。在本體和知識(shí)庫的基礎(chǔ)上，應(yīng)當(dāng)研究語義標(biāo)記的產(chǎn)生與處理問題。語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)將標(biāo)記看成是結(jié)構(gòu)化信息，并能在RDF和OWL語義之后執(zhí)行推理。搜索引擎的語義功能需求具體表現(xiàn)如下：①本體與知識(shí)庫的支持。通過本體和知識(shí)庫，改善Web搜索的精確度，對(duì)網(wǎng)頁上的信息與相關(guān)知識(shí)結(jié)構(gòu)和推理規(guī)則進(jìn)行關(guān)聯(lián)；②同時(shí)支持檢索驅(qū)動(dòng)和推理驅(qū)動(dòng)過程；③能夠利用單詞或語義標(biāo)記或同時(shí)利用單詞和語義標(biāo)記作為索引詞語；④索引和檢索應(yīng)當(dāng)與推理緊密關(guān)聯(lián)，推理的改善應(yīng)當(dāng)導(dǎo)致索引和檢索的改善。
　　
　　4　語義Web環(huán)境下搜索引擎的功能
　　
　　基于當(dāng)前的Web搜索引擎和語義Web，本文提出語義Web環(huán)境下的搜索引擎功能流圖，如圖1所示：
　　
　　語義Web包含兩種類型文檔，一類是通常的Web文本文檔(text documents)(暫不考慮多媒體資源和Web服務(wù)資源)；另一類是與這些Web文本文檔平行的語義Web文檔。一方面，Web文本文檔通過語義Web文檔的注釋得到豐富，這些注釋提供元數(shù)據(jù)和機(jī)器解釋的捕獲Web文本文檔內(nèi)容含義的陳述；另一方面，語義Web文檔用來對(duì)Web文本文檔進(jìn)行語義描述，以便機(jī)器能夠理解與處理Web文本文檔中的知識(shí)。
　　語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)能夠運(yùn)行一些推理引擎以識(shí)別所需要的事實(shí)和規(guī)則，從而達(dá)到所期望的結(jié)論，如能夠在語義Web上篩選所需的事實(shí)和規(guī)則，并將篩選結(jié)果合并到推理過程之中。圖1中的功能針對(duì)語義Web環(huán)境，顯示了搜索引擎的語義推理、語義索引和語義檢索等功能。另外，語義Web環(huán)境下的搜索引擎還具有傳統(tǒng)搜索引擎功能，即基于關(guān)鍵詞的索引與檢索，這已具備了成熟的理論與實(shí)踐。下面結(jié)合圖1，對(duì)語義Web環(huán)境下的搜索引擎功能展開分析。
　　
　　4.1　Crawler
　　URLs集和crawl模塊一起組成為基本crawler，控制并執(zhí)行所有的爬行過程。crawl模塊先從一個(gè)種子URLs集出發(fā)開始爬行，對(duì)爬回的靜態(tài)網(wǎng)頁，crawl模塊進(jìn)行以下兩個(gè)方面的處理：從網(wǎng)頁中抽取所有的由鏈接指向的URLs，并將這些URLs存入到URLs集中；將爬回的網(wǎng)頁保存在文本文檔數(shù)據(jù)集中(如果存在)，或者保存在緩存中足夠長的時(shí)間，旨在完成索引。URLs集為crawl提供將要爬行的靜態(tài)網(wǎng)頁地址，crawl從URLs集中選擇下一個(gè)將要爬行的URL地址重復(fù)前面的過程。crawl模塊爬行的網(wǎng)頁總數(shù)由存儲(chǔ)資源決定或事先由人為決定。
　　語義Web環(huán)境下的搜索引擎與傳統(tǒng)搜索引擎一樣，也是基于crawler。因此，當(dāng)前搜索引擎所面臨的爬行問題也同樣是語義Web環(huán)境下的搜索引擎必須面對(duì)與研究的，如動(dòng)態(tài)網(wǎng)頁爬行與并行爬行。
　　
　　4.2本體與知識(shí)庫
　　語義Web包含Web文檔和與這些Web文檔平行并對(duì)它們進(jìn)行描述的語義Web文檔(Semantic Web Documents，SWDs)。語義Web文檔中擁有大量的本體與知識(shí)庫。本體與知識(shí)庫以及下面的語義注釋，構(gòu)成了語義Web的核心，為搜索引擎的語義功能實(shí)現(xiàn)提供了基礎(chǔ)。
　　本體構(gòu)建語言在W3C的努力下已得到標(biāo)準(zhǔn)化，相應(yīng)的工具也得到很好的開發(fā)和應(yīng)用，如Prot6g6平臺(tái)是一個(gè)集成的軟件工具，其最新版本是2010年3月8日發(fā)布的Prot6ge 3.4.4。Prot6g6平臺(tái)為越來越多的用戶提供一套利用本體構(gòu)建領(lǐng)域模型和基于知識(shí)庫應(yīng)用的工具，可供系統(tǒng)開發(fā)者和領(lǐng)域?qū)＜议_發(fā)基于知識(shí)的系統(tǒng)，以便構(gòu)建基于知識(shí)的工具和應(yīng)用，從而解決特定領(lǐng)域中的問題。但是，本體的構(gòu)建和標(biāo)準(zhǔn)化以及知識(shí)庫的構(gòu)建還有一個(gè)漫長的路要走，它依賴于許多組織的關(guān)注和努力。與多媒體資源和Web服務(wù)資源相比，文本資源本體涉及人類知識(shí)體系的各個(gè)學(xué)科和領(lǐng)域。在語義Web文本本體構(gòu)建中，一方面，不論在哪個(gè)領(lǐng)域，本體構(gòu)建都需要可以使用的概念以及概念之間的關(guān)系表達(dá)，強(qiáng)烈地依賴于特定領(lǐng)域的知識(shí)體系結(jié)構(gòu)，因此，需要領(lǐng)域?qū)＜业膮⒓雍徒槿�；另一方面，本體構(gòu)建需要充分考慮標(biāo)準(zhǔn)本體語言如OWL的知識(shí)表示能力，以便利用標(biāo)準(zhǔn)本體語言來恰當(dāng)而合理地表示特定領(lǐng)域的知識(shí)體系。本體的構(gòu)建是其標(biāo)準(zhǔn)化的前提，圍繞特定領(lǐng)域本體的構(gòu)建已有一些研究，如客戶抱怨本體的構(gòu)建，合同本體的構(gòu)建，等等。
　　
　　4.3語義注釋
　　語義注釋能夠在文本文檔中注釋和鏈接命名實(shí)體，將到語義描述的鏈接分配給文本中的實(shí)體，產(chǎn)生有關(guān)文本中實(shí)體、實(shí)體屬性和實(shí)體間關(guān)系的語義元數(shù)據(jù)標(biāo)記。應(yīng)當(dāng)說，手工獲得清晰的語義并不是一個(gè)可行的方法，從手工到自動(dòng)的轉(zhuǎn)變應(yīng)當(dāng)首先研究和開發(fā)完全自動(dòng)的語義注釋方法。因此，應(yīng)當(dāng)面對(duì)和解決必要的設(shè)計(jì)和建模問題，提供必需的資源和基礎(chǔ)設(shè)施。
　　語義元數(shù)據(jù)必須以一種允許進(jìn)行有效管理的格式加以存儲(chǔ)，相關(guān)研究認(rèn)為，最有效的方法是對(duì)文本文檔、元數(shù)據(jù)(注釋)和形式化知識(shí)(本體和知識(shí)庫)進(jìn)行分開的表示和管理。
　　
　　4.4篩選與推理
　　并非所有的語義標(biāo)記都是有價(jià)值的，因?yàn)橐恍?biāo)記可能來自于不適當(dāng)?shù)幕虿豢尚诺臋C(jī)構(gòu)，一些標(biāo)記是多余的，一些標(biāo)記是不相關(guān)的。因此，抽取的語義標(biāo)記必須按照一定的規(guī)則進(jìn)行篩選和推理，所得的結(jié)果將是可信任的事實(shí)和規(guī)則集，新增加的事實(shí)和規(guī)則集添加到本體與知識(shí)庫中。不斷擴(kuò)展的本體與知識(shí)庫將進(jìn)一步促進(jìn)推理運(yùn)行。推理引擎利用在文本抽取中獲得的元數(shù)據(jù)信息可推理更多的語義關(guān)系，為搜索引擎系統(tǒng)的索引做好準(zhǔn)備，這些語義關(guān)系將直接決定檢索的范圍并提供更相關(guān)的響應(yīng)。
　　對(duì)于何時(shí)對(duì)語義Web標(biāo)記進(jìn)行推理可以進(jìn)行選擇，如在對(duì)文檔即將索引之前對(duì)標(biāo)記進(jìn)行推理，這將導(dǎo)致產(chǎn)生更多的三元組語義標(biāo)記，擴(kuò)大該文檔的語義檢索點(diǎn)；對(duì)包含RDF三元組的檢索在處理和提交到檢索系統(tǒng)之前進(jìn)行推理，以提高檢索效率；為了完成檢驗(yàn)任務(wù)進(jìn)行推理。另外，在語義Web上發(fā)現(xiàn)的知識(shí)在信任度上將存在很大變化，正如當(dāng)前Web上發(fā)現(xiàn)的信息一樣。為了產(chǎn)生一致的知識(shí)庫，需要對(duì)語義Web上的信任模型環(huán)境進(jìn)行研究。在對(duì)語義Web上發(fā)現(xiàn)的事實(shí)和知識(shí)進(jìn)行抽取和推理時(shí)，應(yīng)當(dāng)能夠從語義模型中去掉重復(fù)的事實(shí)，能夠掌握信任模型并對(duì)每個(gè)事實(shí)的信任度做出更好的決策。
　　
　　4.5語義索引
　　索引文檔包含RDF三元組和RDF三元組通配符，這為用戶提供了表達(dá)具有RDF三元組通配符檢索式的靈活性。語義標(biāo)記能夠捕獲詞語之間的語義關(guān)系，因而提供檢索式與相關(guān)詞語間更好的匹配。在一個(gè)索引文檔的表示中包含語義標(biāo)記能夠提高信息檢索效率，如果在索引前對(duì)文檔語義標(biāo)記運(yùn)行推理，將會(huì)獲得更好的效果。
　　
　　4.6語義檢索
　　當(dāng)前的檢索技術(shù)是基于關(guān)鍵詞的，而許多用戶可能傾向于根據(jù)高層語義概念構(gòu)建檢索，這些概念是更標(biāo)準(zhǔn)的術(shù)語和隱含知識(shí)。開發(fā)在詞語之間抽出語義關(guān)系的檢索技術(shù)將促進(jìn)智能信息服務(wù)、個(gè)性化Web站點(diǎn)和語義強(qiáng)大的搜索引擎。
　　圖1中，語義Web環(huán)境下的搜索引擎應(yīng)當(dāng)能夠通過定制的檢索界面進(jìn)行檢索，并接受自由文本以及結(jié)構(gòu)化的檢索。假設(shè)系統(tǒng)的輸入是某些類型的語義Web檢索式，如果用戶的目標(biāo)是檢索，則該檢索式可能是對(duì)正在檢索的概念進(jìn)行編碼的語義標(biāo)記；如果用戶的目標(biāo)是推理，則該檢索式可能是一個(gè)系統(tǒng)將要證實(shí)的陳述。在任何一種情況下，檢索式被提交給推理引擎。對(duì)于檢索，推理引擎可以利用用戶模塊、本體與知識(shí)庫產(chǎn)生新的語義標(biāo)記；對(duì)于檢驗(yàn)，推理引擎將盡可能地利用本體與知識(shí)庫，產(chǎn)生部分檢驗(yàn)樹。
　　基于圖1功能流圖的語義Web環(huán)境下的搜索引擎應(yīng)具有更好的檢索效果：首先，Web搜索引擎應(yīng)很好地處理同義詞問題，如可以將“HK”和“H.K.”索引為特定的實(shí)體“Hong Kong”，就好像存在一個(gè)惟一的ID標(biāo)識(shí)符一樣，體現(xiàn)了對(duì)命名實(shí)體引用的清晰處理。相反，當(dāng)前的索引系統(tǒng)因?yàn)椴话瑢?shí)體識(shí)別，所以只能對(duì)“HK”、“H”和“K”分別進(jìn)行索引，這正是基于關(guān)鍵詞的搜索引擎存在的問題。其次，在對(duì)搜索引擎進(jìn)行檢索時(shí)，可通過指定實(shí)體類型限制、名稱和其他屬性限制以及實(shí)體之間的關(guān)系限制檢索實(shí)體。例如，通過語義索引，能夠更有效地檢索到某個(gè)人，即使只知道該人在某機(jī)構(gòu)中擔(dān)任某職位、具有某些屬性如性別等。最后，搜索引擎能提供強(qiáng)大的推理功能。例如，“檢索包含在中國從事信息服務(wù)行業(yè)的企業(yè)的文檔”，則返回的文檔可能包含“清華同方股份有限公司”、“萬方數(shù)據(jù)股份有限公司”，或“維普資訊公司”，而不是簡單地包含“中國”、“信息服務(wù)”或“企業(yè)”等文字。
　　
　　5　結(jié)語
　　
　　語義Web是一個(gè)全球分布的知識(shí)庫，這一點(diǎn)由Tim Bemers-Lee在Web開發(fā)中提出。Tim Bemers-Lee試圖最終創(chuàng)建出網(wǎng)絡(luò)化的知識(shí)庫，他將語義Web描述成：能夠從經(jīng)驗(yàn)中學(xué)習(xí)，創(chuàng)建不同應(yīng)用環(huán)境下知識(shí)獲取、表示和利用的基礎(chǔ)設(shè)施�；谡Z義Web的搜索引擎能夠?yàn)槊總€(gè)文本中的實(shí)體引用同時(shí)提供到本體中特定類的鏈接和到知識(shí)庫中特定實(shí)例的鏈接；能夠基于實(shí)體對(duì)文本文檔進(jìn)行索引和檢索；允許用戶指定感興趣的命名實(shí)體，并通過命名實(shí)體的屬性和關(guān)系進(jìn)行限制。語義Web環(huán)境下的搜索引擎將促進(jìn)信息、知識(shí)需求得到更好、更精確的語義表述和滿足，推動(dòng)高效的信息資源開發(fā)利用以及高效的信息和知識(shí)管理。

相關(guān)熱詞搜索：語義搜索引擎功能語義Web環(huán)境下的搜索引擎功能分析語義分析的基本功能簡要說明語義分析的基本功能

熱點(diǎn)文章閱讀

版權(quán)所有 蒲公英文摘 www.newchangjing.com