www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘|數(shù)據(jù)庫與數(shù)據(jù)挖掘

發(fā)布時間:2020-02-16 來源: 短文摘抄 點擊:

  摘要:數(shù)據(jù)挖掘能從龐大的數(shù)據(jù)群中提取出有益的信息,通過建立空間數(shù)據(jù)庫可以對現(xiàn)實中復雜和相互關聯(lián)的數(shù)據(jù)進行更為有效的存儲、分析和各種處理,從而提高獲取信息的效率。本文對目前空間數(shù)據(jù)庫中知識發(fā)現(xiàn)所面臨的困難做了一些研究,通過對比空間數(shù)據(jù)庫挖掘和擴展傳統(tǒng)數(shù)據(jù)挖掘之間的區(qū)別,提出了一些解決的方案,并對空間數(shù)據(jù)庫的數(shù)據(jù)挖掘目前仍存在的問題和未來的發(fā)展趨勢做了預測。
  關鍵詞:空間數(shù)據(jù)庫;數(shù)據(jù)挖掘;空間數(shù)據(jù)挖掘
  中圖分類號:TP311.132.4 文獻標識碼:A
  
  1 引言
  
  現(xiàn)代科技和數(shù)據(jù)獲取設備的迅速發(fā)展,極大提高了社會經(jīng)濟各部門生產(chǎn)、收集、存儲和處理數(shù)據(jù)的能力,使得各種數(shù)據(jù)資源日益豐富。近年來,隨著空間數(shù)據(jù)采集手段及工具的日益豐富和自動化,海量空間數(shù)據(jù)的存儲及人類對從海量數(shù)據(jù)中提煉有用知識的迫切需要,地理信息系統(tǒng)(GIS)作為空間數(shù)據(jù)存儲、表達和管理的主流,在各個行業(yè)得到廣泛應用,同時由于數(shù)據(jù)挖掘、空間數(shù)據(jù)采集技術、數(shù)據(jù)庫技術的迅速發(fā)展,對從空間數(shù)據(jù)庫發(fā)現(xiàn)隱含知識的需求日益增長,出現(xiàn)了用于在空間數(shù)據(jù)庫中進行知識發(fā)現(xiàn)的技術――空間數(shù)據(jù)挖掘(Spatial Data Mining)。
  空間數(shù)據(jù)庫是一類重要的、特殊的數(shù)據(jù)庫,它存儲了大量與空間有關的數(shù)據(jù),例如地圖、預處理后的遙感或醫(yī)學圖像數(shù)據(jù),以及VLSI芯片設計數(shù)據(jù)等?臻g數(shù)據(jù)庫有許多和關系數(shù)據(jù)庫所不同的顯著特征,它包含了拓撲和/或距離信息,通常按復雜的、多維的空間索引結構組織數(shù)據(jù),其訪問是通過空間數(shù)據(jù)的訪問方法,通常需要空間推理、地理計算和空間知識表示技術。
  空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個研究方向,與數(shù)據(jù)挖掘一脈相承,具體說來是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式與特征、空間與非空間數(shù)據(jù)的普遍關系及其它一些隱含在數(shù)據(jù)庫中的普遍的數(shù)據(jù)特征,它是對KDD技術在空間數(shù)據(jù)庫方面應用的延伸。
  由于空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘和空間數(shù)據(jù)庫技術結合的產(chǎn)物,因此它既繼承現(xiàn)有數(shù)據(jù)挖掘技術的特點,又具有一些新的特征。
  
  2 空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘
  
  2.1 空間數(shù)據(jù)挖掘的必要性
  空間數(shù)據(jù)庫含有空間數(shù)據(jù)和非空間數(shù)據(jù)。目前衛(wèi)星、紅外、電視攝像、光電、電子顯微成像、CT成像等各種宏觀與微觀傳感器的大量使用,空間數(shù)據(jù)的數(shù)量和復雜性都在飛快地增長。終端用戶要詳細的分析這些空間數(shù)據(jù),并提取感興趣的知識或特征是不現(xiàn)實的。因此,從空間數(shù)據(jù)庫中自動地挖掘知識,尋找隱藏在空間數(shù)據(jù)庫中的不明確的、隱含的知識、空間關系或其他模式,即空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn),變得越來越重要。
  目前,從空間數(shù)據(jù)庫發(fā)現(xiàn)知識的傳統(tǒng)途徑是通過數(shù)據(jù)挖掘和專家系統(tǒng)空間分析等技術來實現(xiàn)的。但是在空間數(shù)據(jù)庫隱含知識的發(fā)現(xiàn)方面,只單獨依靠某一種技術,往往存在著這樣或那樣的缺陷。比如對于數(shù)據(jù)挖掘來講,空間數(shù)據(jù)庫與普通數(shù)據(jù)庫在數(shù)據(jù)存儲機制方面的不同、空間數(shù)據(jù)的相互依賴性等決定了在空間數(shù)據(jù)庫無法直接采用傳統(tǒng)的數(shù)據(jù)挖掘方法。對于專家系統(tǒng)來講,專家系統(tǒng)不具備自動學習的能力,僅能利用已有的知識進行推導。對于空間分析來講,雖然空間分析中常用的統(tǒng)計方法可以很好地處理數(shù)字型數(shù)據(jù),但是它存在的問題很多。此外,統(tǒng)計方法對大規(guī)模數(shù)據(jù)庫的計算代價非常高,所以在處理海量數(shù)據(jù)方面能力較低。因此,在空間數(shù)據(jù)庫進行知識發(fā)現(xiàn),需要融合多種不同技術,比如使用空間數(shù)據(jù)挖掘技術來解決從空間數(shù)據(jù)庫知識發(fā)現(xiàn)隱含知識的難題。
  2.2 空間數(shù)據(jù)挖掘的特點
  空間數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘的不同表現(xiàn)在以下三個方面:
  傳統(tǒng)數(shù)據(jù)挖掘處理的是數(shù)字和類,而空間數(shù)據(jù)則是一些更為復雜的數(shù)據(jù)類型;
  傳統(tǒng)數(shù)據(jù)挖掘通常具有顯式的輸入,而空間數(shù)據(jù)挖掘的輸入則常常是隱式的;
  在傳統(tǒng)數(shù)據(jù)挖掘中,有一個至關重要的前提假設:數(shù)據(jù)樣品是獨立生成的。而這一假設在空間數(shù)據(jù)分析中是不成立的。事實上,空間數(shù)據(jù)之間是高度自關聯(lián)的。
  2.3 空間數(shù)據(jù)挖掘的挖掘對象
  2.3.1 普遍的幾何知識(General Geometric Knowledge)
  普遍的幾何知識是指某類目標的數(shù)量、大小、形態(tài)特征等的普遍的幾何特征。計算和統(tǒng)計出空間目標幾何特征量的最小值、最大值、均值、方差、眾數(shù)等,還可統(tǒng)計出特征量的直方圖。在此基礎上,可根據(jù)背景知識歸納出高水平的普遍幾何知識。
  2.3.2 空間分布規(guī)律(Spatial Distribution Regularities)
  空間分布規(guī)律是指目標在地理空間的分布規(guī)律,分成在垂直向、水平向以及垂直向和水平向的聯(lián)合分布規(guī)律。垂直向分布即地物沿高程帶的分布;水平向分布指地物在平面區(qū)域的分布規(guī)律;垂直向和水平向的聯(lián)合分布即不同的區(qū)域中地物沿高程分布規(guī)律。
  2.3.3 空間關聯(lián)規(guī)則(Spatial Association Rules)
  空間關聯(lián)規(guī)則是指空間目標間相鄰、相連、共生、包含等空間關聯(lián)規(guī)則。例如村落與道路相連,道路與河流的交叉處是橋梁等;再如目標與目標之間的相連、相鄰與共生關系的知識,從GIS的圖形和屬性庫中,不難發(fā)現(xiàn)目標間的相連、相鄰及共生關系。
  2.3.4 空間聚類規(guī)則(Spatial Clustering Rules)
  空間聚類規(guī)則,或空間分類規(guī)則,是指特征相近的空間目標聚類成上一級類的規(guī)則,可用于GIS的空間概括和綜合。例如,將距離很近的散布的居民點聚類成居民區(qū)。
  2.3.5 空間特征規(guī)則(Spatial Characteristic Rules)
  空間特征規(guī)則是指某類或幾類空間目標的幾何的和屬性的普遍特征,即對共性的描述。普遍的幾何知識屬于空間特征規(guī)則的一類,由于它在遙感影像解譯中的作用十分重要,所以分離出來單獨作為一類知識。
  2.3.6 空間區(qū)分規(guī)則(Spatial Discriminate Rules)
  空間區(qū)分規(guī)則是指兩類或多類目標間幾何的或屬性的不同特征,即可以區(qū)分不同類目標的特征。
  2.3.7 空間演變規(guī)則(Spatial Evolution Rules)
  如果GIS數(shù)據(jù)庫是時空數(shù)據(jù)庫或者GIS數(shù)據(jù)庫中存有同一地區(qū)多個時間數(shù)據(jù)的快照(Snapshot),則可以發(fā)現(xiàn)空間演變規(guī)則。空間演變規(guī)則是指空間目標依時間的變化規(guī)則,即哪些地區(qū)易變,哪些地區(qū)不易變,哪些目標易變及怎么變,哪些目標固定不變。
  
  3 空間數(shù)據(jù)挖掘的工作原理
  
  3.1 空間數(shù)據(jù)挖掘的過程
  
  空間數(shù)據(jù)挖掘是一個多步驟的處理過程,在處理過程中可能會有很多次反復,如圖1所示。在整個數(shù)據(jù)挖掘過程中,用戶可以控制知識發(fā)現(xiàn)的每一個步驟。像空間、非空間的概念層次,或者是類似數(shù)據(jù)庫信息等背景知識都存儲在知識庫中。數(shù)據(jù)是從數(shù)據(jù)庫接口中獲取的,其中數(shù)據(jù)庫接口可以使查詢得到優(yōu)化。為了加速查詢的過程,通常會使用索引結構(R-樹或R*-樹等)來提高效率,需要使用像OGIS SQL這樣的查詢語言來訪問空間數(shù)據(jù)庫。聚焦部分的工作則決定用于模式識別的數(shù)據(jù)。規(guī)則和模式的發(fā)現(xiàn)在模式提取階段進行,因此在這個過程中可能使用到統(tǒng)計、機器學習、空間數(shù)據(jù)挖掘技術和計算地理等算法。接著,由評估模型來對挖掘出來的知識進行精化,從而刪除那些明顯冗余的知識。整個挖掘過程中,控制部分可以與各個部分進行交流,并且提供查詢精化的反饋信息。最后,對發(fā)現(xiàn)的知識進行驗證。對輸出結果的驗證、精化和可視化的工作通常是通過GIS軟件來完成的。
  3.2 空間數(shù)據(jù)挖掘的挖掘方法
  空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方法是多學科和多種技術交叉綜合的新領域,它們綜合了機器向歷史學習、數(shù)據(jù)庫技術、模式識別、統(tǒng)計、地理信息系統(tǒng)、基于知識的系統(tǒng)(包括專家系統(tǒng))、可視化等領域的有關技術,因而數(shù)據(jù)挖掘與知識發(fā)現(xiàn)方法也是多種多樣的。同時由空間數(shù)據(jù)庫本身的特點決定了各種方法之間并不是孤立的,而是相互滲透與交融的,整個空間數(shù)據(jù)庫挖掘就是一個各種方法采用的集合。
  3.2.1 統(tǒng)計方法
  統(tǒng)計方法一直是分析空間數(shù)據(jù)的常用方法,使用這種方法一般是首先建立一個數(shù)學模型或統(tǒng)計模型,然后根據(jù)這種模型提取出有關的知識。這種方法有著較強的理論基礎,擁有大量的算法,可有效地處理數(shù)字型數(shù)據(jù),有時需要數(shù)據(jù)滿足統(tǒng)計不相關假設,但很多情況下這種假設在空間數(shù)據(jù)庫中難以滿足。分類和評價常用的數(shù)學方法有主成分分析、層次分析法、聚類分析法和判別分析法等。
  3.2.2 聚類方法
  聚類分析方法按一定的距離或相似性測度將數(shù)據(jù)分成一系列相互區(qū)分的組,它與歸納法不同之處在于不需要昔景知識而直接發(fā)現(xiàn)一些有意義的結構與模式。該方法也可以看作是統(tǒng)計方法的一個分支,可以直接從數(shù)據(jù)庫中發(fā)現(xiàn)感興趣的結構或聚類模式,類似于機器學習的非監(jiān)督學習。根據(jù)聚類條件的不同,可以產(chǎn)生不同的聚類定義和算法?臻g數(shù)據(jù)庫上的聚類算法主要有三種:分區(qū)算法、層次聚類算法和單掃描算法。
  3.2.3 空間關聯(lián)規(guī)則
  空間關聯(lián)規(guī)則是對傳統(tǒng)數(shù)據(jù)挖掘中的關聯(lián)規(guī)則的擴展?臻g關聯(lián)規(guī)則即是指空間鄰接圖中對象之間的關聯(lián)?臻g關聯(lián)規(guī)則形如A→B[s%,c%],A和B是空間和非空間謂詞的集合,s%表示規(guī)則的支持度,c%表示規(guī)則的可信度。關聯(lián)規(guī)則通?煞譃閮煞N:布爾型的關聯(lián)規(guī)則和多值關聯(lián)規(guī)則。多值關聯(lián)規(guī)則比較復雜,一種自然的想法是將它轉換為布爾型關聯(lián)規(guī)則。由于空間關聯(lián)規(guī)則的挖掘需要在大量的空間對象中計算多種空間關系,因此其代價是很高的。一種逐步求精的挖掘優(yōu)化方法可用于空間關聯(lián)的分析,該方法首先用一種快速的算法粗略對一個較大的數(shù)據(jù)集進行一次挖掘,然后在裁減過的數(shù)據(jù)集上用代價較高的算法進一步改進挖掘的質量。因為其代價非常高,所以空間的關聯(lián)方法需要進一步的優(yōu)化。
  3.2.4 空間趨勢分析
  空間趨勢指的是離開一個給定的起始對象時,非空間屬性的變化情況?臻g趨勢分析需要根據(jù)某空間維找出變化趨勢,通常趨勢分析考慮的是時間上的變化,如在時間序列數(shù)據(jù)中時態(tài)模式的變化?臻g趨勢分析中的空間替代了時間,研究的是空間上的非空間與空間數(shù)據(jù)的變化,如離海洋越來越遠時,氣候與植物的變化趨勢。對此類問題的分析,一般要建立在空間數(shù)據(jù)結構和空間訪問方法之上,使用回歸和相關分析方法。還有很多的應用,其模式也是隨空間和時間一起變化的,如高速公路和城市的交通流量是與時間和空間都相關的。
  雖然在空間分類和空間趨勢分析方面有一些研究,但時空數(shù)據(jù)挖掘研究還遠遠不夠,特別是與時間有關的方法和應用還需要進一步的研究。
  除了上面所談到的一些方法外,還有Rough集、決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡等被應用在空間數(shù)據(jù)挖掘的研究中。
  
  4 空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘面臨的新問題和發(fā)展趨勢
  
  空間數(shù)據(jù)庫的發(fā)展至今取得了一定的成果,但對其研究畢竟還只是處于初期,仍然還有許多問題值得進一步的研究與探討。歸納起來有如下幾點:
  4.1 算法的有效性和效率
  空間庫數(shù)據(jù)挖掘的對象是存有成百上千屬性表和成百萬個元組的海量數(shù)據(jù)庫,這就必然導致問題的維數(shù)很大,不僅增大了發(fā)現(xiàn)算法的搜索空間,也增加了盲目搜索的可能性。因此,必須利用領域知識除去與發(fā)現(xiàn)任務無關的數(shù)據(jù),有效地降低問題的維數(shù),設計出更加有效的知識發(fā)現(xiàn)算法,提高挖掘的效率。
  4.2 對復雜的空間數(shù)據(jù)庫的處理
  數(shù)據(jù)庫技術不斷發(fā)展完善,像面向對象空間數(shù)據(jù)庫和時空數(shù)據(jù)庫這樣復雜的空間數(shù)據(jù)庫也在不斷地涌現(xiàn)和發(fā)展。所以,將空間挖掘技術應用到這些數(shù)據(jù)庫中是至關重要的。
  4.3 對WWW的處理
  WWW正日益普及,在這信息的海洋中可以發(fā)現(xiàn)大量的知識。已有一些資源發(fā)現(xiàn)工具可用來發(fā)現(xiàn)含有關鍵字的文本,但至今WWW上發(fā)現(xiàn)知識的研究仍然不多。目前的問題是,如何從復雜的數(shù)據(jù)例如多媒體結構化的數(shù)據(jù)中提取有用的信息,對多層次數(shù)據(jù)庫的維護,以及如何處理數(shù)據(jù)的異類性和自主性等。
  4.4 空間查詢語言
  數(shù)據(jù)庫技術的飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展。由此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間查詢語言,這樣才能為高效快速的空間數(shù)據(jù)挖掘奠定堅實的基礎。
  隨著GIS與數(shù)據(jù)挖掘及相關領域科學研究的不斷發(fā)展,空間數(shù)據(jù)挖掘在廣度和深度上的不斷深入,在不久的將來,一個集成了挖掘技術的GIS、GPS、RS集成系統(tǒng)必將朝著智能化、網(wǎng)絡化、全球化與大眾化的方向發(fā)展。
  
  參考文獻
  [1]李德仁,王樹良.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[J].武漢大學學報•信息科學版,2001(12).
  [2]劉宇,曲波.空間數(shù)據(jù)挖掘理論與方法的研究[J],微型電腦應用,2000(8).

相關熱詞搜索:數(shù)據(jù)庫中 數(shù)據(jù)挖掘 空間 空間數(shù)據(jù)庫中的數(shù)據(jù)挖掘 地理空間數(shù)據(jù)庫引擎 空間數(shù)據(jù)庫引擎技術

版權所有 蒲公英文摘 www.newchangjing.com