Deep。祝澹庑畔⒊槿⊙芯縷信息抽取
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
[摘要] 針對DeepWeb信息資源的利用問題,指出對其進行信息抽取的意義,分析對比在信息抽取過程中處理查詢接口和抽取結構化數據這兩個主要步驟所使用的技術,采用基于關鍵詞查詢和建立文檔對象模型的方法對專利數據庫進行抽取實驗。通過分析實驗結果,驗證抽取方法的準確性,指出不足之處和解決的途徑,以期達到充分利用DeepWeb信息資源的目的。
[關鍵詞] Deep Web 信息抽取 查詢接口 命名實體識別 文檔對象模型
[分類號] TP31l
1、Deep Web的特點
隨著網絡信息資源的爆炸式增長,如何從中獲取用戶所需要的信息成為人們所關注的焦點問題。人們可以通過搜索引擎來獲取需要的信息,但這是建立在搜索引擎對網頁進行索引的基礎上。而有很多網頁是搜索引擎所無法建立索引的,這些具有隱形特性的網頁集合被人們稱之為Deep Web或Hid―denWeb。
Deep Web的概念最初由Dr.Jill Ellsworth在1994年提出,指的是常規(guī)搜索引擎不能索引到的網絡資源。根據2001年Michael K Bergman關于Deep Web研究的白皮書數據,相對可以被搜索引擎索引到的Surface Web而言,Deep Web的規(guī)模是其400至500倍,而根據文獻[2]中關于DeepWeb的調查報告,從2000年到2004年,它的規(guī)模增長了3~7倍,并且還在不斷增長中。由以上的研究數據可知,如果能夠將如此規(guī)模龐大的網絡資源的信息內容有序地抽取、整理出來,對于情報分析和研究工作是很有意義的。
2、抽取方法概述
Deep Web中的信息資源,根據文獻[2]中的分析,基本上是以網絡數據庫的結構進行存儲。那么在訪問時,首先要經過數據庫的訪問接口,普通搜索引擎不能索引Deep Web內容的原因也就在于其不能同Web表單進行交互,因此也就無法取得檢索結果頁面進行索引。那么要實現對這種資源類型的信息抽取,除必要的抽取程序外,還需要處理數據庫查詢接口的交互問題,以下分兩部分進行介紹。
2.1 處理查詢接口
Web表單,其實質是后臺數據庫查詢接口。用戶通過查詢接口輸入相應的信息來查詢數據庫內容,而抽取程序通過特殊定制的表單交互程序來訪問數據庫。
按交互程序的特點,可以分為兩類:
2.1.1通過關鍵詞覆蓋的方法使查詢有選擇地覆蓋結果集。此類方法的原理可以表述為:給定查詢q,使用P(q,)表示對于查詢qi服務器所返回的結果頁面占所有可能結果頁面的比例,那么目標就是尋找一個查詢集合(q1,q2,…,qn)使得返回結果P(q1 V q2 V…V qn)值最大化。在實際查詢中,有兩種關鍵詞選擇策略:一是隨機策略,即從候選詞典中隨機選取關鍵詞用于提交查詢表單;另一種是適應性策略,通過分析之前查詢所返回的結果集,估測待選查詢關鍵詞的返回頁面數,并找到可能返回數最高的關鍵詞。適應性策略是一個迭代計算的過程,步驟上比隨機策略復雜,但根據文獻[5]中的實驗結論可知其查詢覆蓋率一般要優(yōu)于隨機策略。
2.1.2根據對表單形式的查詢接口進行的研究所總結出的基于查詢接口模型的方法表單內一般含有以下常見的控件元素:文本框、選擇列表框、單選按鈕、復選按鈕等。這種方法將表單內各種控件元素進行歸納分析,解析控件元素的標簽元素和值域類型以構造出一個查詢接口模型。此模型的形式如二元關系組的集合:F={(E,D1),(E2,D2),…,(En,Dn)},其中F代表當前表單,E是標簽元素,D是值域。如專利數據庫的查詢表單通常由專利類型、申請專利號、專利名稱、申請專利權人等元素構成,有以下結構的模型:
F={(專利類型,{發(fā)明專利,實用新型專利,外觀設計專利}),
(申請專利號,字符串),
(專利名稱,字符串),
(申請專利權人,字符串),
(…,…))
這個模型描述了這個專利數據庫的查詢接口特征。用(L,V)的二元關系來表示輸入表單的信息,其中L是標簽名,V是輸入值,所有的(L,V)關系組成集合Label Value Set(Lvs)。對于每個標簽元素E,它的標簽名是L=label(E),對應有V={v1,v2,…,vn}的值集合來滿足輸入條件。那么對于一個表單F,其所有可能的輸入集是(F,Lvs)=V1×v2×…×vn,所需要的輸入集就是使有P({E1←∥V1,En←Vn})=1-II(1-Mv),其中Mv是值v的相關度。這里的相關指的是該輸入值與值域的相關性,其計算有不同的實現方法,常見的方法有計算相關性權重以及計算特征向量的夾角等。
2.2抽取結構化數據
信息抽取的信息類型主要分為:結構化信息、半結構化信息和自由格式文本,而要抽取的Deep Web資源對象一般以半結構化的查詢返回網頁的形式存在,對它進行信息抽取實際上是將半結構化網頁內的信息以結構化的形式抽取出來的過程。
根據MessageUnderstandingforComprehension(MUC)對信息抽取的分類,按信息抽取的內容和抽取信息的聚集水平,信息抽取可以分為命名實體識別(Named Entity Recognition)、多語種實體識別任務(Multi-lingual Entity Task)、模板元素(Template Element)、參照(coreference)、模板關系(TemplateRelation)、情景模板(scenario Template)這6種類型;谝陨戏诸悾瑢eep Web的信息抽取方法可歸納為以下三類。
2.2.1基于命名實體識別的抽取方法 命名實體識別是信息抽取中的基礎類型,抽取系統從信息源中標識出命名實體并按相應的實體名進行分類。在檢索結果頁面中,存在大量可標注信息,如文獻檢索結果頁面內的題名、摘要、作者等和專利檢索結果頁面內的申請?zhí)、公開號,專利權人等。此類方法在實現上一般借助文本識別工具,將標注的文本信息匹配識別出來。針對返回頁面,通常使用正則表達式匹配標注的字符串。正則表達式又稱正規(guī)表達式,是指用來描述或者匹配一系列符合某個句法規(guī)則的字符串的單個字符串表達式。標注命名實體也就是對要抽取的數據編寫相應的正則表達式,然后根據這些正則表達式就可以把命名實體從返回頁面中抽取出來。這種方法的優(yōu)點在于正則表達式構造過程比較簡單,而檢索結果頁面上的命名實體數量一般不會超過30個,因此使用這種方法能夠快速地構造抽取程序,并且可以保證很高的準確率(見表1)。但缺點就是命名實體的表示和正則表達式的緊密耦合,一旦返回頁面發(fā)生改變,就得重新進行標注,導致抽取程序缺乏通用性。
2.2.2基于模板的抽取方法在MUC對信息抽取的分類里, 模板元素指的是從文本中抽取特定類型的實體信息,并將這些信息填寫到預先定義的屬性模板中;谀0宓某槿》椒ǖ暮诵木褪穷A先構建屬性模板的過程。在實現時,針對返回頁面,一般先將其解析成語法樹,再由語法樹生成抽取模板。在網頁信息抽取中,使用文檔對象模型(Document ObjectModel,DOM)來生成語法樹是常用的手段。DOM文檔中的邏輯結構可以用節(jié)點樹的形式進行表述。通過對網頁進行解析,頁面中的元素便轉化為DOM文檔中的節(jié)點對象,生成的語法樹也稱為DOM樹,而包含所有待抽取節(jié)點的DOM樹就是抽取模板。與基于字符串匹配的抽取方法比較,基于模板的抽取方法通過模板這個抽象概念將被抽取對象與抽取程序解耦,因此具有較高的通用性,但模板依賴網頁結構生成,仍然具有一定的局限性。
2.2.3基于情景的抽取方法這里的情景(Scenario)指的是要抽取的特定信息實體及實體之間的關系。這種方法拋開了信息載體的表面結構,挖掘信息的內部聯系并將這種關系提取出來。該方法綜合涉及實體的標識、實體與不同場合的自身及不同實體間的參照、在模板基礎上的模板元素間關系的抽取和由實體到事件的填充并還原整個事件模型等內容。雖然目前的英文抽取系統在命名實體和實體關系的識別方面已達到或接近實用的水平,但在真正使用中,由于實體到事件和還原事件模型方面涉及自然語言處理中的一些核心問題,抽取性能還有待提高。
除以上三種方法,還有一些其他信息抽取方法和模型,如基于語言模型的隱馬爾可夫模型和最大熵模型、基于神經網絡、本體以及基于元數據標引等抽取方法。但Deep Web的信息內容主要由結構化網頁構成,這些抽取方法有些不適用,有些被前述三類方法所包含。
3、基于模板的專利數據抽取實驗
對于專利數據,其絕大部分的都存儲在專利數據庫內,那些可以通過網絡來訪問的專利數據庫構成了Deep Web資源的一部分,并且很難被搜索引擎索引到。使用上述的信息抽取方法對這部分專利數據進行抽取,對于專利情報研究工作很有幫助,同時也可以驗證所總結出的信息抽取方法的有效性。
這里對美國專利數據庫(USPTO)和中國專利數據庫內的部分資源進行抽取。在設計表單處理程序時,考慮到實驗的規(guī)模,沒有采用遍歷整個數據庫的形式,而是選擇一些關鍵詞在其所代表的領域內進行小范圍內的信息抽取。經由分析數據庫的查詢表單,將關鍵詞和限定條件(專利年份、類型等)封裝到HTTP POST數據包內,發(fā)送到服務器端,并取得返回的檢索結果頁面。在對結果頁面進行信息抽取時,在保證準確率的前提下選擇適用性較高的基于模板的抽取方法,對返回頁面進行解析,生成抽取模板,具體步驟如下:
頁面轉換。使用Tidy等工具將HTML格式的返回頁面去除頁面噪音,并轉換為XML或者XHTML的格式以方便DOM樹的生成。
DOM遍歷。使用DOM工具遍歷轉換后的文檔內容,生成對應的DOM樹。樹的結構如圖1所示:
生成抽取模板。將DOM樹上不需要的節(jié)點裁剪,得到關于抽取節(jié)點的最小DOM樹,即為模板。如把圖l中TD→“申請專利號”、TD→“申請日”等多余標簽所在的路徑去掉后得到的樹就是一顆包含頁面上所有專利信息的最小DOM樹。
信息抽取。在得到抽取模板后,就可以對整個檢索結果頁面集進行抽取。對每個頁面,依次進行上述前兩步處理,得到DOM樹對象,然后按最小DOM樹抽取模板取得樹上各節(jié)點的值。在程序實現時,涉及樹節(jié)點的定位問題,常用的方法是采用XPath工具來解決。對于XML文檔,XSL(可擴展樣式表語言,Extensible Stylesheet Language)使用XPath來標識XML文檔中的元素位置。對于抽取模板,用XPath表達式的形式把各節(jié)點的位置信息記錄下來,而對于檢索結果頁面生成的DOM樹,就可以使用根據模板得到的XPath表達式來把需要的節(jié)點一一找到。如把圖l中申請專利號、申請日、專利名稱、公開號和公開日這幾個節(jié)點的位置用XPath表達式來描述就是一個如下的集合:
集合表示的是各節(jié)點及其位置的一一對應關系,其中的數字序號表示兄弟節(jié)點的順序(圖1中同一顆子樹內最左邊節(jié)點的位置計為1,其兄弟節(jié)點位置計數向右遞增)。那么對于已經DOM化后的檢索結果頁面,就可以使用以上XPath表達式來定位節(jié)點并獲取值。
按以上方法,對兩個專利數據庫的部分專利數據進行抽取,得到實驗結果如表2所示。
實驗數據來自對兩個數據庫內有關納米顆粒的專利數據,都抽取100項專利,在美國專利中一共有129項相關專利,得知召回率是100/129=77.5%,而由于該專利數據庫檢索結果頁面本身的結構上差異比較大的原因,很多頁面所包含的待抽取信息項(抽取節(jié)點數)并不相同,導致抽取模板的適用性不高,直接影響抽取準確率即抽取記錄中相關記錄占總抽取記錄數的比例;而中國專利數據的準確率很高,達到了98.7%,原因在于該專利數據庫檢索結果頁面結構統一,每個頁面均含有19個待抽取信息項,因此抽取模板對于擁有統一結構的檢索結果頁面能夠準確地把每一項專利信息抽取出來。由實驗數據可知,在頁面結構統一的情況下,基于模板的抽取方法能得到較高的準確率,相反,差異性較大的頁面結構也降低了抽取準確率。
4、結語
本文針對Deepweb資源的信息抽取,總結了信息抽取過程中處理查詢接口和抽取結構化數據這兩個主要步驟所使用的技術,并實證基于模板的抽取方法的可行性;谀0宓某槿》椒ň哂休^高的準確率,并且模板結構使得抽取程序具有較好的可移植性,但它在模板生成和抽取準確率上過于依賴網頁結構的局限性,限制了它在Deepweb眾多結構的網絡資源抽取工作中的進一步應用。隨著自然語言處理技術的進一步發(fā)展,拋棄了信息載體的結構特征而基于信息內部聯系的抽取技術將是下一步研究工作的重點。 3.2圖書館學理論傳播和普及過程中的中國化
西方圖書館學作為與中國圖書館實踐有一定距離的學理結構,其輸入過程大致經歷了以下幾個階段:①中國的現實需要,這是前提。從鴉片戰(zhàn)爭及洋務運動中國先賢對西方圖書館的宣傳介紹,到戊戌變法前后學習西方創(chuàng)辦新式圖書館,到清末新政時期公共圖書館觀念的傳播和公共圖書館運動的興起,直到1919年新文化運動以來對西方圖書館學理論的引進,中國近現代圖書館理論和實踐過程始終伴隨著如何學習西方的問題。這其中積累的經驗和教訓,在當今圖書館學研究如何中國化的問題上仍有參考價值。②傳播普及。即努力突破西方圖書館理論的純粹學術層面,引起官方和大眾的廣泛關注。這首先涉及到語言轉換和理解轉換的問題,意味著學者們不僅要在學術層面上一展身手,還要在學術層面之外有所作為。③發(fā)現問題和證偽通則。即西方學理在面對中國圖書館實踐時,到底表現出了哪些錯位甚至無能。這是中國化研究過程中最為重要和核心的一環(huán),集中體現了中國圖書館實踐的現實需要與西方學理之間的張力。
圖書館學知識體系現有了一定程度的普及,全國高校設立的圖書館學本科、碩博士教育已初具規(guī)模。如何在普遍性工作大發(fā)展的基礎上,對因中國社會政治經濟發(fā)展而帶來的圖書館事業(yè)新問題作出新理解,這是目前中國化問題的重中之重。遺撼的是,學術界目前津津樂道的仍是上世紀90年代以來西方“后現代”話語在圖書館學中的嫁接和應用。技術圖書館學、科學圖書館學和人文圖書館學,作為當前中國圖書館學研究的三大話語類型無一不是在亦步亦趨于西方的學術理論。如圖書館哲學作為一個新興的研究領域,即起源于1986年卿家康等翻譯了美國學者謝拉的《圖書館哲學》。
3.3西方圖書館學科學主義經驗研究的中國化
西方圖書館學理論是具體的,同時也因具有西方科學主義經驗研究的傳統而具有“通則”性。然而,這些具有“通則”性的理論雖然“科學”,但不一定符合中國的國情。這樣,通則如何在中國經驗下被證偽,就成為圖書館學研究中國化的重要課題。我們認為,那些在西方形成的“科學”理論,在相關論域中只能作為分析中國問題的參照,無可避免地體現著西方理論與中國實踐之間的緊張。如,元數據作為一種微觀知識組織法,其理論所強調的對各種復雜形式的知識的格式化描述,在現實知識組織過程中并不為中國人(尤其是普通用戶)所接受和理解。早在《七略》時代,中國圖書分類的類名就不是“格式化”的。如“六藝略”這個一級類名其實下分“九種”文獻,人們是根據先秦以來關于“六藝”(它的組成、它和孔子的關系、它在政治教化上的功能等)文化背景來理解這一“略”的所有文獻的;又如《四庫總目?集部?詩文評》類以《文心雕龍》為核心文獻,人盡皆知的“《文心雕龍》”參與著人們對“詩文評”類名含義及其下分所有文獻的理解[8]。雖然以“科學和民主”為信念的五四新文化運動迄今已有近一個世紀的時間,但飽受傳統文化熏陶下的中國知識分子仍然更多地傾向于諸如“六藝略”或“詩文評”那樣的經驗感受而不是西方科學主義演繹下的抽象理解。這可以很好地解釋,為什么西方自信心爆棚的各種知識管理方法,當運用于中國圖書館實踐時幾無成功案例的事實。
4結語
圖書館學研究中國化是世界范圍內圖書館學研究本土化的一個子課題。當今世界的全球化浪潮,作為一種非蓄意和非預期的全球性效應,正促進著基于民族本位立場的圖書館學中國化關懷。圖書館學研究中國化問題不僅淵源久遠,而且將永遠存在,這是由西方圖書館學產生的歷史背景和其學理結構決定的。圖書館學研究中國化的內容包羅甚豐,但目前中國化研究的重點應該轉移到努力發(fā)現中國當今特定時空下、特定圖書館實踐的新問題,去證偽那些一度作為中國圖書館學研究中心的西方通則。
參考文獻:
[1]吳慰慈.圖書館學學科建設要本土化.圖書情報工作,1998(1):1.
[2]劉茲恒.再論圖書館學本土化.圖書與情報,2005(4):13-16.
[3]劉茲恒.試論圖書館學本土化的目的與特征.圖書館雜志,2004, (11):2-7.
[4]孟廣均,徐引篪.國外圖書館學情報學研究進展.北京:北京圖書館出版社,1999:64-114.
[5]劉國鈞.發(fā)刊詞.圖書館季刊,1926(1):1.
[6]鮑曼.全球化――人類的后果. 郭國良,徐建華,譯.北京:商務印書館,2001:57.
[7]艾斯.全球網絡的文化與交流:文化多元性,道德相對主義,以及一種全球倫理的希望.華明,譯.上海師范大學學報,2006(5):11-23.
[8]傅榮賢.《七略》中的核心文獻.大學圖書館學報,2004(4):69-72.
相關熱詞搜索:抽取 研究 信息 Deep Web信息抽取研究 deepweb網民恐怖經歷 deepweb暗網鏈接
熱點文章閱讀