www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<acronym id="qgiiu"></acronym>

人生感悟 蒲公英文摘 > 人生感悟 >

【信息集成中的數據源訪問機制分析】excel怎么選擇數據源

發(fā)布時間:2020-03-07 來源: 人生感悟點擊：40

　　[摘要]從系統(tǒng)實現(xiàn)的角度，將信息集成中的關鍵技術――異構數據源的訪問機制分為4類：基于HTTP協(xié)議、基于標準接口協(xié)議、基于API以及基于本地數據庫接口的訪問機制，對其基本原理、特點和使用原則加以詳細介紹，并對這些信息獲取機制的優(yōu)勢和劣勢進行深入分析和對比，提供多種協(xié)議的選擇原則，簡單描述其實現(xiàn)策略，以便對其進行封裝后加以集成。
　　[關鍵詞]異構數據源　信息集成　訪問機制
　　[分類號]G250.76
　　
　　1　引言
　　
　　隨著計算機技術特別是Web的迅猛發(fā)展，越來越多的數據在Web上發(fā)布，并具備比較便利的訪問接口，使用戶可以方便快捷地獲取各類信息。但是，由于數據提供方及專業(yè)領域的不同，每個數據源幾乎都是異構的，因而它們之間的信息、組織和接口都不一樣，這就構成了一個巨大而復雜的異構數據環(huán)境。只有將這些孤立的數據都集成起來，提供給用戶一個統(tǒng)一的視圖，才有可能從巨大的數據資源中獲取所需的東西。為了集成這些數據，關鍵環(huán)節(jié)之一是將異構的訪問接口進行封裝，屏蔽各種數據源的差異，使這些異構系統(tǒng)“互聯(lián)互通”。本文主要分析和探討各類數據源的數據訪問機制，為進一步的接口封裝奠定基礎。
　　
　　2　異構數據源的訪問機制分析
　　
　　目前數據資源的結構及接口形式各異，所支持的接口協(xié)議主要包括：HTTP、Z39，50、JDBC、ODBC、SOAP(Simple Ob―ject Access Protoc01)、Web Service、LADP(Lightweight DirectoryAccess Protocol)等。
　　針對目前異構數據源所支持的協(xié)議集，可將訪問機制大致劃分為4類：①基于HTTP的訪問機制；②基于標準接口協(xié)議的訪問機制；③基于API的訪問機制；④基于本地數據庫接口的訪問機制。每種訪問機制均有其自身的特點及其適用范圍，面對紛繁復雜的網絡資源，集成時需要針對各類資源的具體情況進行區(qū)別對待。有些資源只支持一種訪問機制，而還有一部分資源則允許多種協(xié)議對其進行訪問。每種連接技術或協(xié)議都有其優(yōu)點及缺點，因此，如果一種資源可以通過多種連接方式獲取，那么在數據訪問模塊中應確定優(yōu)選的連接方案。具體地說，通過HTTP協(xié)議可以檢索許多網絡資源，但是檢索結果的集成需要對網頁進行解析，因此它的結構性最差，應盡量采取其他標準接口的協(xié)議，以保持系統(tǒng)的穩(wěn)定性和標準化。通過數據庫接口軟件與不同的數據庫直接連接，在同時檢索的數據庫數量較少時，使用此技術可在一定程度上解決異構檢索問題，但數據庫達到一定數量時，處理速度很難保證。這種方式僅適用于對屬于本單位的少量異構數據庫進行統(tǒng)一檢索。某些數據源本身提供的檢索接口API，很容易識別和使用資源本身的元數據。信息集成中應該在選擇訪問機制時綜合考慮穩(wěn)定性、標準化、開放性等多種因素。為了封裝各種協(xié)議，必須對每種協(xié)議進行分析研究，以下筆者結合實際開發(fā)經驗，分析上述4類訪問機制的實現(xiàn)技術。
　　
　　2.1　基于HTFP的訪問機制
　　現(xiàn)有各種數據源都提供相應的客戶端接口，因此可利用HTTp訪問機制向其發(fā)送檢索請求加以集成。HTTP(HyperText Transfer Protoc01)協(xié)議，即超文本傳輸協(xié)議，是WWW服務器使用的主要協(xié)議。它是一個屬于應用層的面向對象的協(xié)議，由于其簡捷、快速的方式，適用于分布式超媒體信息系統(tǒng)。HTrP協(xié)議基于請求／響應方式，客戶／服務器模式中信息交換的實現(xiàn)過程主要包括建立連接、發(fā)送請求、發(fā)送響應和關閉連接4個步驟。HTTP協(xié)議是支持信息集成的最基本協(xié)議，通過它實現(xiàn)與分布式網絡數據庫、電子期刊等信息資源的連接，執(zhí)行檢索與瀏覽操作。
　　在實際應用中，不同數據源的Web處理接口存在很多細節(jié)上的差別，筆者對所掌握的各種情況進行總結，歸納出以下差別：
　　2.1.1　檢索請求的發(fā)送方式大部分數據源都可以同時支持GET請求和POST請求，但也有一些數據源只接受POST請求，應進行區(qū)別對待。
　　2.1.2　檢索請求URL的分析成本大部分數據源的集成都需要經過一定的人工分析，對它的檢索機制要有一定的了解，但有一小部分數據源的集成幾乎是“零成本”，即幾乎不用進行分析就可以輕松集成。具體來說，在數據源的檢索頁面中輸入檢索詞，執(zhí)行檢索后進入檢索結果頁面，包含各種參數的檢索請求URL在瀏覽器的地址窗口中完全呈現(xiàn)，檢索引擎只需根據具體情況改變檢索參數值，以POST或GET方式向數據源發(fā)送檢索請求，即可返回檢索結果。這種數據源可以很容易地加以集成，但這種情況非常少見。
　　大部分數據源在執(zhí)行檢索后，向用戶呈現(xiàn)的檢索結果頁面并不會直接將檢索請求的所有參數顯示在地址欄中，而只是顯示結果頁面的基本URL，如果檢索引擎直接利用這個URL作為檢索請求，由于參數不足，不能正確返回檢索結果。因此在將這類資源添加到集成檢索系統(tǒng)中時，開發(fā)人員還必須對數據源的檢索頁面進行細致分析，查找各種隱藏或顯式的檢索參數，將其進行組配，才能得到有效的檢索請求。
　　因此，根據這一點可以將數據源分為兩類：①檢索請求直接呈現(xiàn)；②檢索請求間接轉換。
　　2.1.3　檢索請求的動態(tài)參數值向每個數據源發(fā)送的檢索請求中除了基本的服務器地址，還包括多種參數，只有這些參數互相配合才能真正從數據源得到檢索結果，訪問信息源的參數可以存放到請求URL或實體當中。每個參數的形式一般都是“參數名=參數值”，參數之間用“&”連接。參數分成兩種：一種是固定值的，另一種是動態(tài)值的。動態(tài)值的參數可以與信息源訪問算子中捆綁約束謂詞內出現(xiàn)的屬性作對應，其中參數名對應屬性名，參數值對應捆綁約束謂詞內的具體屬性值。因此，只要建立捆綁約束謂詞內屬性名到訪問參數名的固定映射以及捆綁約束謂詞內屬性值到訪問參數值的映射函數，就能實現(xiàn)信息源的訪問。
　　動態(tài)變化的參數一般是數據源的檢索系統(tǒng)為用戶的每次會話建立的標識SessionID。根據這一點可以將數據源分為以下三類。
　　?檢索請求中不包含會話標識。向這一類數據源發(fā)送的檢索請求中不包含SessionID，這就意味著同一個檢索請求無論什么時候發(fā)送都可以從遠端的服務器得到響應，不會有會話過期的問題。
　　?檢索請求中顯式包含會話標識。某些數據源在用戶進入檢索頁面時，會給用戶分配一個隨機生成的會話標識，只要用戶沒有退出或會話沒有超過時效，用戶的相關信息就會保存在Session中，數據源的檢索系統(tǒng)將根據該標識識別用戶的相關操作，因此在將這類數據源集成到系統(tǒng)中時，集成系統(tǒng)應在多次發(fā)送的檢索請求中包含會話標識，才能得到最終的檢索結果，對于不同的數據源有時需要獲取多個會話標識。
　　?檢索請求中隱式包含會話標識。用戶在使用某些數據源的檢索系統(tǒng)時，需要賬號登錄后才能進行檢索。將這類數據源集成到系統(tǒng)中時，檢索引擎應模擬人工手動向數據源提交用戶名和密碼。這種類型與上述的第二類比較相似，都需要檢索引擎向數據源發(fā)送的多次請求保持連貫性，但不同的是后者可以得到一個保證操作連續(xù)性的會話標識，而前者卻是在瀏覽器中隱含著為用戶分配的標識，用戶需帶著這個標識才能保持登入的狀態(tài)。
　　2.1.4　完成一次檢索需要發(fā)送請求的次數　對不同的數據源來說，要完成一次檢索，檢索引擎需要發(fā)送的檢索請求次數是不同的。某些數據源只要經過一次連接就可以得到檢索結果。對于一些需要建立Session的數據源(2.1.3中的第二、三類數據源)，則要經過多次檢索請求的發(fā)送才能得到最終的檢索結果。另外還存在一部分數據源在多次發(fā)送檢索請求后，只能得到帶有檢索結果頁面URL的網頁，檢索引擎在處理這些數據源時，需要利用人工分析的結果進行重新定位，才能得到最終檢索結果。
　　對于任何采用HTTP訪問機制進行集成的數據源，我們都可以用上述4個指標進行衡量，只要把數據源的這些方面進行充分了解，就可以“對癥下藥”采取相應的策略，從而將其進行整合。
　　HTTP連接是目前在檢索引擎中最常用的信息獲取機制，其主要原因有以下幾點：首先，采用HTTP訪問機制可以進行無障礙通信，由于采用端口80，從而可以避開防火墻的阻擋，取得檢索結果；其次，通信過程簡單快速，檢索引擎向服務器請求服務時，只需傳送請求方法和路徑，請求方法常用的有GET、POST、HEAD等，每種方法規(guī)定了客戶端與服務器聯(lián)系的類型不同；再次，HTTP允許傳輸任意類型的數據對象，較其他協(xié)議更靈活；最后，HTT P的通信過程屬于無連接狀態(tài)，無連接的含義是限制每次連接只處理一個請求，服務器處理完檢索引擎的請求，并收到應答后，即斷開連接，采用這種方式可以節(jié)省傳輸時間。
　　不過HTTP訪問機制也存在一定的缺點，主要是在集成數據源時，需要對它們的Web處理接口一一進行詳盡分析，比較繁瑣；另一方面，由于網絡資源更新頻率越來越快，各個數據庫的Web處理接口也經常發(fā)生變化，一旦發(fā)生細微的改變，就需要重新進行分析設計，接口的穩(wěn)定性較差。如果從結果處理的角度出發(fā)，HTTP連接所獲得的檢索結果是不甚規(guī)范的HTML網頁，為結果整合提供了一定的難度。因此，如果數據源同時支持HTTP協(xié)議及其他標準接口協(xié)議，建議還是采取標準接口協(xié)議進行連接。
　　
　　2.2　基于標準接口協(xié)議的訪問機制
　　除了常見的HTTP訪問機制外，還有很多數據源是支持標準接口協(xié)議訪問機制的，采用標準接口協(xié)議的檢索引擎一般比較穩(wěn)定，獲得的檢索結果格式統(tǒng)一、結構標準，對于這些數據源的集成需要對這些協(xié)議有一定的了解。目前檢索引擎中采用的標準接口協(xié)議主要包括Z39.50t、OAI(Open Ar－chives Initiative)、OpenURL和SOAP，它們的主要目的都是提供整合性的信息查尋與連接服務。
　　采用Z39.50協(xié)議的檢索引擎主要應用于對書目數據庫的檢索。這種開放網絡平臺上的應用層協(xié)議，支持不同數據結構、內容、格式的系統(tǒng)之間的數據傳輸，可以實現(xiàn)異構平臺、異構系統(tǒng)之間的互聯(lián)與查詢。OAI屬于基于元數據搜尋和檢索的分布式系統(tǒng)，通過OAI，可以實現(xiàn)對“深層網絡(deep Web)”資源的訪問。OAI具有很好的開放性和適用性，使得不論各個數據庫內部結構如何，都可以將它們靈活地無縫連接起來。OpenURL是在基于Web的學術信息環(huán)境下實現(xiàn)開放互連的機制。作為需要與外界建立鏈接的資源，只要遵循OpenURL，原則上就可以與任何資源(或者服務)建立鏈接，而無需關注鏈接對象的平臺和規(guī)則。SOAP是在分散或分布式的環(huán)境中交換信息的簡單協(xié)議，通過采用標準化的動作，調用遠程過程來檢索特定的信息對象系統(tǒng)，從而解決跨平臺的程序溝通問題。
　　同HTFP訪問機制一樣，標準接口協(xié)議在資源集成方面同樣存在各種優(yōu)勢和劣勢。筆者將從以下幾個方面對這4種標準接口協(xié)議進行比較說明。
　　2.2.1　訪問機制的跨平臺性及可擴展性這4種協(xié)議都是將成熟的基于HTTP的Web技術與XML的靈活性和可擴展性組合在了一起，其最大優(yōu)點是不受特定的平臺或語言的局限，因此采用這些標準接口協(xié)議作為訪問機制可以擴大集成數據源的范圍。
　　2.2.2　訪問機制的可靠性相對于HTTP協(xié)議的無狀態(tài)性，有狀態(tài)、確認性的網絡連接方式可以保證數據傳輸的可靠性與安全性，但這種有狀態(tài)的連接方式可能引起系統(tǒng)并發(fā)數的限制。Z39.50協(xié)議即屬于后者，一旦建立SOCKET連接，在整個過程中將一直保持，客戶端很長時間不與服務端交互，也要占用連接資源。其他三種標準接口協(xié)議則是屬于無確認性的訪問機制。
　　2.2.3　整合檢索模式主要分為兩種：①采用標準接口協(xié)議，自動批次獲取各個數據源的元數據，如OAI；②通過標準接口協(xié)議實時檢索數據源，如Z39.50、SOAP、OpenURL。對于使用者而言，前者查詢速度較快。
　　2.2.4　實現(xiàn)復雜度這4種標準接口協(xié)議都是經過認證的國際標準，具備了穩(wěn)定性、開放性等多種優(yōu)勢，相較于其他非標準接口協(xié)議，實現(xiàn)方式也很簡單。但這4種協(xié)議的復雜度有所不同：Z39.50的應用實現(xiàn)最為復雜，主要原因在于抽象的記錄語法、RPN的檢索表達式、ASN.1的傳輸方式，復雜的屬性集支持等；OpenURL、OAI、SOAP均是相當簡單的協(xié)議。
　　2.2.5　字符支持檢索引擎從各個異構數據源獲得檢索結果后，結果處理模塊要對它們進行整合，整合工作的一部分就是將字符編碼進行轉換、規(guī)范，其中需要特別關注的是中文問題。Z39，50的返回信息中字符編碼種類繁多，如GBK、GB2312、EACC、CCCII等，檢索引擎需要對每種情況進行特殊處理，相對比較復雜。OpenURL主要是以強化超級鏈接為目的，沒有中文化問題。
　　總之，盡管還存在種種不足，但標準接口協(xié)議是信息集成的推薦使用訪問機制，不僅接口穩(wěn)定，而且格式統(tǒng)一的結果有利于進行結果整合。
　　
　　2，3　基于API的訪問機制
　　
　　除了以上通用的、常見的協(xié)議，某些數據源本身提供公開的接口API，在集成這些資源時可以利用這些API來構建檢索引擎，從而可以在接口比較明確的情況下，以靈活的方式將數據源有效集成。采用這種機制的檢索引擎相對穩(wěn)定，結果整合比較容易。
　　例如搜索引擎Coogle提供對外開放的查詢接口API，可以讓全世界各地的Java以及NET程序員，通過Web服務接口訪問其索引。這就是說，開發(fā)人員可以采用編程的方法將請求發(fā)送到Google服務器，然后取回結果。雖然這些請求的參數與用戶通過Web界面進行正常的COogle搜索使用的所有參數完全一樣，但是程序員可以在程序內部控制這些參數。程序員還可以利用其他一些信息，如拼寫建議服務器。這就是說，可以寫一個能利用Google引擎來檢查用戶的拼寫并提出建議的應用程序。檢索得到的輸出結果規(guī)范統(tǒng)一，API中提供了各種查找設定方法，例如從第幾筆開始查找、設定傳回筆數、偏好查找(避免查找“java”時傳回“咖啡”的結果)等。
　　目前，Google的API還沒有提出正式的運營模式和收費方式，處于測試階段，因此，在API的使用上還有一些限制。例如，使用這些API需要申請一個賬號，取得一個32位長度的license key，每次呼叫查詢時，必須發(fā)送這個license key才能使用。對于免費申請的賬號，為了防止開發(fā)人員不正當的使用，限制每個賬號、每天最多只能查詢1 000次，每次最多返回10條搜索結果，通過這個服務只能找到前1 000條結果。另外，由于這是一個試驗性的服務，Google可能為維護而關掉服務，可能修改了API而導致與開發(fā)人員的程序不兼容，或干脆不再提供這項服務，因此，信息集成過程中還應密切關注各種API的動態(tài)。
　　
　　2.4　基于本地數據庫接口的訪問機制
　　在異構資源中，各單位的自建數據庫也是相當重要的一部分數據源，這些數據源與其他網絡數據源的相同點是通過互聯(lián)網提供服務，其對外服務接口可能屬于本文前面介紹的種種類型，不同的是集成系統(tǒng)的開發(fā)人員可以直接獲得數據源的詳細底層接口、數據結構、裸數據等。
　　由于目前比較成熟的數據庫都存在相應的數據庫接口軟件，因此集成系統(tǒng)的檢索引擎可以利用這些接口軟件(如JDBC、ODBC等)，將用戶的查詢請求轉換為數據庫查詢語句執(zhí)行檢索，進而將其集成到系統(tǒng)中。采用這種訪問機制集成的數據源結構性較好，也比較穩(wěn)定、簡單，得到的檢索結果是沒有經過任何包裝的數據，可以借助數據庫提供的功能或其他技術直接轉換成利于整合的XML文檔，因此這是一種優(yōu)先采用的機制。
　　可以采用這種機制的數據源只是占到全部資源的很小比例，因此在擴充集成資源數目及類型上作用甚微。在對數據源進行集成時，采用本地數據庫接口軟件這種訪問機制將涉及到多種數據庫驅動程序，以采用JDBC為例，SQL Server、Oracle、MySQL等數據庫所加載的驅動程序各不相同，甚至有時同一種數據庫的不同版本所采用的驅動程序也有差別，如SQL Server2000和SQL Server 7.0。因此，需要針對不同類型的數據庫采用不同的連接器，并了解每種驅動程序的機制。另外，使用JDBC訪問數據記錄的速度會受到一定程度的影響，從而影響系統(tǒng)整體的檢索速度。
　　
　　3　結論
　　
　　目前而言，數據類型及來源的不同導致各個數據源不可能提供統(tǒng)一的訪問接口，尚無完美的解決方案可以集成所有的電子和網絡資源，但是針對不同的需求、平臺或是系統(tǒng)、資源，都有不同的、適合的集成技術和協(xié)議。因此應針對不同的需求和方式，結合適合的資源集成技術和協(xié)議，發(fā)揮最大的整合效益，通過保證用戶可以獲得大量多樣的相關資源，而基于Wrapper的封裝技術可以實現(xiàn)這個目標，內部封裝的各個組件能夠連接支持不同協(xié)議集的目標數據源，實現(xiàn)對用戶的透明化，并可以通過新增組件方便地進行擴充，從而實現(xiàn)對任何協(xié)議資源的連接功能。

相關熱詞搜索：數據源機制集成信息集成中的數據源訪問機制分析輿情信息匯集分析機制研究什么是機制分析

熱點文章閱讀

版權所有 蒲公英文摘 www.newchangjing.com

<acronym id="x310a"></acronym>

<input id="x310a"><source id="x310a"><blockquote id="x310a"></blockquote></source></input>