www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

空間數(shù)據(jù)挖掘中的不確定性_不確定性游戲steam

發(fā)布時(shí)間:2020-02-16 來(lái)源: 散文精選 點(diǎn)擊:

  摘要:本文從空間數(shù)據(jù)的采集、錄入、編輯、處理的過(guò)程和數(shù)據(jù)挖掘的技術(shù)層面上闡述了空間數(shù)據(jù)挖掘的不確定性,并對(duì)這種不確定性的現(xiàn)狀進(jìn)行了簡(jiǎn)單分析。   關(guān)鍵詞:不確定性;空間數(shù)據(jù);數(shù)據(jù)挖掘
  中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
  
  近年來(lái),空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(Spatial Data Mining & Knowledge Discovery from Spatial Databases/Repositories,SDM&KDD) 已成為空間信息技術(shù)的一個(gè)重要研究領(lǐng)域,并已取得許多可喜的成果。目前它的研究熱點(diǎn)包括:面向海量空間數(shù)據(jù)的挖掘算法、遙感影像數(shù)據(jù)的挖掘,以及分布式(網(wǎng)絡(luò)) 空間數(shù)據(jù)挖掘等。然而,其中的另一個(gè)重要問題:空間數(shù)據(jù)挖掘過(guò)程及其結(jié)果的不確定性還沒有引起廣泛而足夠的重視,相關(guān)的報(bào)道也很少。事實(shí)上,不但空間與非空間數(shù)據(jù)本身具有不確定性,在空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)處理的過(guò)程中也會(huì)帶來(lái)一系列的不確定性,并且會(huì)不斷傳播和積累,從而可能導(dǎo)致被挖掘出來(lái)的信息、知識(shí)含有一定的誤差、偏差甚至是毫無(wú)意義等。我們不能認(rèn)定挖掘出來(lái)的知識(shí)都是有用的和確定性的。因此,研究空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)過(guò)程與結(jié)果的不確定性及其傳播規(guī)律是十分必要的。
  
  1 空間數(shù)據(jù)的不確定性
  
  空間數(shù)據(jù)挖掘的不確定性的根源在于空間數(shù)據(jù)本身的不確定性。空間數(shù)據(jù)質(zhì)量與不確定性是目前GIS 研究的重要基礎(chǔ)理論之一?臻g數(shù)據(jù)質(zhì)量是指空間數(shù)據(jù)的淵源(lineage) 、精度(accuracy) 、完整性(completeness) 、邏輯一致性(logical consistency) 、語(yǔ)義精度(semantic accuracy) 、現(xiàn)勢(shì)性(currency) 。由于難以對(duì)復(fù)雜的現(xiàn)實(shí)世界進(jìn)行完美的表達(dá),所以所有類型的空間數(shù)據(jù)都存在不同性質(zhì)、不同程度的不確定性。本人認(rèn)為空間數(shù)據(jù)的不確定性主要有兩個(gè)主要類型。一方面,空間數(shù)據(jù)在測(cè)量中會(huì)產(chǎn)生誤差。誤差指觀測(cè)值與其真值間的差異,具有統(tǒng)計(jì)意義。例如遙感影像數(shù)據(jù),由于不同物體存在著光譜重疊,或者有混合現(xiàn)象,將使圖象出現(xiàn)同物異譜或同譜異物特征,從而產(chǎn)生多解性。再加上在數(shù)據(jù)整理、綜合過(guò)程中存在著模型和加工技術(shù)方法的不確切和局限性,又可能使這種偏差擴(kuò)大,甚至給出謬誤的結(jié)果,或者給決策帶來(lái)失誤。另一方面,空間數(shù)據(jù)的不確定性源于自然現(xiàn)象自身存在的不穩(wěn)定性和人類對(duì)其認(rèn)識(shí)的不完備性。例如,在空間關(guān)系表述“天津在北京附近”中,“附近”是一個(gè)語(yǔ)義上定性的模糊的概念,在不同的語(yǔ)義或上下文中具有不確定的定量含義;又如,在表達(dá)“這起交通事故發(fā)生在京滬高速公路上”中,交通事故發(fā)生的“點(diǎn)位置”在公路這條“線”上,但是具體在該線形的什么位置是不確定的;再如,隨著比例尺的變化,某一地理對(duì)象在GIS中的表示也跟著變化,城市在國(guó)家地圖中使用點(diǎn)表示,但在城市地圖中就變成了面狀圖形。
  對(duì)空間數(shù)據(jù)的采集、解譯、錄入、編輯、處理和表達(dá)都會(huì)帶來(lái)不確定性,而且前一階段的不確定性又會(huì)傳播給后一階段,從而導(dǎo)致相當(dāng)數(shù)量的不確定性積累與傳播。對(duì)空間數(shù)據(jù)的不確定性的傳播的研究具有重大的意義,因?yàn)椴淮_定性的傳播會(huì)不斷地放大,從而導(dǎo)致數(shù)據(jù)挖掘的結(jié)果不準(zhǔn)確甚至不可用?臻g數(shù)據(jù)不確定性傳播問題可以用式(1) 描述:
  Y (x) = Opt (D 1 (x) ,……,D m (x) )(1)
  其中Y ( ) 為GIS的分析結(jié)果;Opt(x)為m個(gè)空間數(shù)據(jù)集Di(x)上的操作。空間不確定性傳播分析的原理是給定空間操作Opt()和輸入不確定性數(shù)據(jù)集Di(x),觀察分析結(jié)果Y(x)的不確定性。當(dāng)空間分析Opt()是一個(gè)線性函數(shù)時(shí),空間不確定性傳播度量相對(duì)容易,按傳統(tǒng)的誤差傳播定律即可。但絕大多數(shù)情況下,Opt()不是連續(xù)、可導(dǎo),或者由誤差傳播定律引起的近似誤差是不可接受的,因此不能直接用解析方法。Monte Carlo 模擬法可以在任意精度水平下產(chǎn)生Y (x) 的分布,所以它是度量空間數(shù)據(jù)不確定性傳播的更實(shí)用的方法。其基本算法過(guò)程如下:
  (1) 確定每個(gè)待輸入空間數(shù)據(jù)集D i (x) 的不確定性類型;
 。2) 依空間數(shù)據(jù)集D i (x) 分布的隨機(jī)采樣來(lái)代替原輸入空間數(shù)據(jù);
 。3) 應(yīng)用空間分析;
 。4) 對(duì)每一次實(shí)現(xiàn),存儲(chǔ)其結(jié)果Y (x);
  (5) 計(jì)算所有結(jié)果的統(tǒng)計(jì)特征。
  
  2 空間數(shù)據(jù)挖掘中的不確定性
  
  除了空間數(shù)據(jù)的不確定性,數(shù)據(jù)挖掘的過(guò)程本身也會(huì)造成不確定性。空間數(shù)據(jù)挖掘過(guò)程可分為4個(gè)階段:數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評(píng)價(jià)與知識(shí)表示。同樣,在空間數(shù)據(jù)挖掘的過(guò)程中也存在相當(dāng)數(shù)量的不確定性積累和傳播,而且有時(shí)比空間數(shù)據(jù)本身的不確定性更為復(fù)雜。
  空間數(shù)據(jù)選擇階段的不確定性主要是指根據(jù)空間數(shù)據(jù)挖掘任務(wù)的要求,主觀選擇目標(biāo)數(shù)據(jù)過(guò)程帶來(lái)的不確定性,包括哪些數(shù)據(jù)應(yīng)該被選擇以及多少數(shù)據(jù)量才足夠等。空間數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)歸納。數(shù)據(jù)清理的主要任務(wù)是填充空缺的值、識(shí)別孤立點(diǎn)、消除噪聲和糾正數(shù)據(jù)中的不確定性。數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,可采用平滑(去掉數(shù)據(jù)中的噪聲) 、聚集(對(duì)數(shù)據(jù)做進(jìn)一步的分析歸納) 、數(shù)據(jù)概化(用高層次的概念替換低層次“原始”數(shù)據(jù)) 、規(guī)范化(如將屬性數(shù)據(jù)按比例縮放) 和屬性構(gòu)造(構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過(guò)程) 等方法。在這一處理過(guò)程中,將處理掉一些不確定性,同時(shí)又可能帶來(lái)新的不確定性。數(shù)據(jù)挖掘本身帶來(lái)的不確定性主要是指由于挖掘算法的局限性而造成挖掘結(jié)果與真實(shí)情況的不完全一致,這是導(dǎo)致數(shù)據(jù)挖掘不確定性的重要原因。知識(shí)表示中的不確定性主要是指知識(shí)本身隱含的不確定性,包括隨機(jī)性、模糊性和未確知性。同一知識(shí)可以用多種方法表示。不同的知識(shí)可用一種方法表示,也可用多種方法表示?臻g數(shù)據(jù)挖掘所獲得的知識(shí),大都是經(jīng)過(guò)歸納和抽象的定性知識(shí),或是定性和定量相結(jié)合的知識(shí)。對(duì)這些知識(shí)的最好表示方法就是自然語(yǔ)言,至少在知識(shí)表示方法中含有語(yǔ)言值,即用語(yǔ)言值表達(dá)其中的定性概念。
  目前,人們對(duì)不確定性的分析和處理都是分階段進(jìn)行的,對(duì)不確定性在各個(gè)階段之間的傳播及在挖掘整個(gè)過(guò)程中對(duì)傳播規(guī)律的研究還有許多難題未解決。
  
  3 不確定性的研究現(xiàn)狀
  
  目前,人們主要使用目標(biāo)模型和場(chǎng)模型兩種方法來(lái)描述空間數(shù)據(jù)的不確定性。目標(biāo)模型比較適合于表示具有明確定義的空間實(shí)體,例如一系列離散的點(diǎn)(測(cè)量控制點(diǎn)、采樣點(diǎn)等)、線(道路、河流、邊界線等)、面(地塊、湖泊的范圍等) 和體(規(guī)則的或不規(guī)則但有明確邊界的形體等)。當(dāng)然,它們也還有屬性數(shù)據(jù)。在目標(biāo)模型的意義中,空間對(duì)象不確定性的含義基本上是指其位置、大小、形態(tài)等的不精確性,不存在粗差。 對(duì)其不確定性或誤差的度量可以采用方差、概率(分布) 來(lái)描述。場(chǎng)模型比較適合于表示模糊的、含混的空間對(duì)象,并且往往具有大體連續(xù)的空間。例如,污染范圍、地殼中的應(yīng)力分布、重力場(chǎng)、城市的熱島現(xiàn)象、森林的覆蓋空間、人口分布等自然界和社會(huì)現(xiàn)象。遙感圖象數(shù)據(jù)一般表現(xiàn)為場(chǎng)模型。在GIS 中用以表示場(chǎng)模型特征的空間對(duì)象的方法較多,如不規(guī)則的數(shù)據(jù)點(diǎn)、規(guī)則的數(shù)據(jù)點(diǎn)、格網(wǎng)、等值線和不規(guī)則三角網(wǎng)等。
  空間數(shù)據(jù)的不確定性處理方法包括:1)空間統(tǒng)計(jì)學(xué)(geo statistics)?臻g統(tǒng)計(jì)學(xué)過(guò)去稱為地學(xué)統(tǒng)計(jì)學(xué)或地質(zhì)統(tǒng)計(jì)學(xué),它是關(guān)于不確定性和有限信息條件下進(jìn)行分析、評(píng)價(jià)的學(xué)科。它強(qiáng)調(diào)空間預(yù)計(jì)概率方向的作用,并把統(tǒng)計(jì)變量理解為重要的信息源,以改善在有限觀測(cè)量條件下的空間屬性數(shù)據(jù)預(yù)測(cè)。近10多年來(lái),空間統(tǒng)計(jì)學(xué)有很大發(fā)展。運(yùn)用空間自協(xié)方差結(jié)構(gòu)、變異函數(shù)或與其相關(guān)的自協(xié)變量或局部變量值的相似程度來(lái)描述空間特征,對(duì)不確定性研究是很有好處的。過(guò)去,空間統(tǒng)計(jì)學(xué)與GIS研究未能結(jié)合起來(lái)的原因,在于實(shí)際需求還不迫切,GIS 工作者對(duì)空間統(tǒng)計(jì)學(xué)不太熟悉或不太感興趣,以及空間統(tǒng)計(jì)學(xué)者往往不太注意對(duì)研究成果的顯示和可視化。GIS技術(shù)對(duì)空間統(tǒng)計(jì)學(xué)研究的意義是多方面的,顯而易見的。而空間統(tǒng)計(jì)學(xué)對(duì)GIS技術(shù)及其應(yīng)用研究的價(jià)值在于能增強(qiáng)、改善對(duì)隨機(jī)過(guò)程的處理,特別是在進(jìn)行資源與環(huán)境問題的模擬和決策分析時(shí)。例如點(diǎn)源數(shù)據(jù)的內(nèi)插處理,估計(jì)誤差范圍及不確定性范圍,分析空間模型的誤差傳播規(guī)律,空間數(shù)據(jù)的約化、綜合,分析空間過(guò)程,預(yù)計(jì)環(huán)境、災(zāi)害的危及帶等。2) 模糊集理論(fuzzy set theory)。資源分布、環(huán)境污染及其變化往往表現(xiàn)為非勻質(zhì)的,模糊性的。另外,在許多情況下,空間對(duì)象存在著不確定性,知道什么是可能發(fā)生的,什么是不可能發(fā)生的,但卻不知道也難以構(gòu)建其概率分布模型。模糊集理論有助于其研究,可作為空間統(tǒng)計(jì)學(xué)的補(bǔ)充。它在GIS 研究中的優(yōu)勢(shì),如對(duì)不確定性條件下數(shù)據(jù)的選擇和檢索,作迭置(overlay) 分析時(shí)生成多變量分類、模糊集內(nèi)插、三維表面可通視性分析等。研究表明,在許多情況下,模糊集理論的偏差比布爾SQL 法小。3) 粗集理論( rough set theory)。粗集理論是一種新的數(shù)學(xué)工具,適合于處理模糊性和不確定性數(shù)據(jù)。自1982 年由波蘭數(shù)學(xué)家Z.Paw lak提出以來(lái),在理論和應(yīng)用上已取得較大發(fā)展。它是從集合論的觀點(diǎn)出發(fā),以知識(shí)作為對(duì)象分類的能力。若全域里的元素(對(duì)象) 具有必要的信息和知識(shí),則通過(guò)這些信息和知識(shí)能夠?qū)⑵鋭澐譃椴煌念愋,并給出劃分類型的精度。若兩個(gè)元素有相同的信息,則它們不可區(qū)分,這是一種等價(jià)關(guān)系;诖,引入成員關(guān)系、上近似和下近似等概念,并用于描述對(duì)象的不精確性或模糊性。在GIS屬性值系統(tǒng)的研究中,上述概念是很有用的。
  
  4 總結(jié)
  
  通過(guò)分析與研究空間數(shù)據(jù)的不確定性和在數(shù)據(jù)挖掘的過(guò)程中會(huì)出現(xiàn)的誤差,初步了解了空間數(shù)據(jù)挖掘中可能存在的不確定性。對(duì)于這種不確定性的研究,可以使我們今后在對(duì)空間數(shù)據(jù)的處理過(guò)程中有意地避免各種會(huì)出現(xiàn)錯(cuò)誤的地方,同時(shí)盡量減小必然存在的誤差,大大提高空間數(shù)據(jù)挖掘運(yùn)算結(jié)果的準(zhǔn)確性。
  
  參考文獻(xiàn)
  [1]李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:科學(xué)出版社,2006.
  [2]史文中.空間數(shù)據(jù)與空間分析不確定性原理[M].北京:科學(xué)出版社,2005.
  [3]崔鐵軍.地理空間數(shù)據(jù)庫(kù)原理[M].北京:科學(xué)出版社,2007.
  [4][加]韓家煒,堪博.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.

相關(guān)熱詞搜索:不確定性 數(shù)據(jù)挖掘 空間 空間數(shù)據(jù)挖掘中的不確定性 數(shù)據(jù)挖掘用什么軟件 數(shù)據(jù)挖掘的四個(gè)方法

版權(quán)所有 蒲公英文摘 www.newchangjing.com