基于上市企業(yè)財(cái)務(wù)數(shù)據(jù)的貝葉斯統(tǒng)計(jì)與知識推理
發(fā)布時(shí)間:2019-08-06 來源: 感恩親情 點(diǎn)擊:
【摘要】本文主要使用matlab和R自帶軟件包對上市企業(yè)財(cái)務(wù)數(shù)據(jù)建立貝葉斯網(wǎng)。用matlab對建立好的貝葉斯網(wǎng)絡(luò)進(jìn)行參數(shù)學(xué)習(xí),利用多種推理引擎進(jìn)行精確推理,并對結(jié)果進(jìn)行比較分析。
【關(guān)鍵詞】貝葉斯網(wǎng) 精確推理 財(cái)務(wù)數(shù)據(jù)
一、引言
在上個(gè)世紀(jì)80年代以前,人工智能學(xué)術(shù)界普遍認(rèn)為用概率論的方法來處理較大規(guī)模不確定問題是不切實(shí)際的,因?yàn)樗谟?jì)算上太復(fù)雜,使其沒有現(xiàn)實(shí)價(jià)值。然而,隨著人工智能的不確定性問題專題會議的召開,研究者提出幾種概率近似的變換方法,特別是貝葉斯網(wǎng)絡(luò)等概率模型在實(shí)際中成功地應(yīng)用(如專家系統(tǒng)和故障分析系統(tǒng)等),使貝葉斯技術(shù)被確立為處理不確定性問題的一種主要技術(shù)。但是關(guān)于貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)和推理還存在一些理論和應(yīng)用方面的問題,隨著今二十年的研究深化,這些問題逐步解決,貝葉斯網(wǎng)絡(luò)已成為當(dāng)前一種重要的智能化數(shù)據(jù)分析與處理工具。貝葉斯網(wǎng)絡(luò)與其他數(shù)據(jù)挖掘方法(如決策樹,神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)規(guī)則等)相比,貝葉斯網(wǎng)絡(luò)有以下特點(diǎn):貝葉斯網(wǎng)絡(luò)可以表示變量間的因果關(guān)系,這種聯(lián)系的置信度是以概率的形式來表達(dá);貝葉斯網(wǎng)絡(luò)能夠充分利用專家經(jīng)驗(yàn)和樣本數(shù)據(jù)的信息;貝葉斯網(wǎng)絡(luò)能夠方便處理有缺失值的數(shù)據(jù);貝葉斯網(wǎng)絡(luò)具有靈活的雙向推理能力,能夠有效避免數(shù)據(jù)的過度擬合和局部最優(yōu)的問題。
二、數(shù)據(jù)處理
133只股票、31個(gè)因素變量的4年數(shù)據(jù)記錄,共532條記錄。其中符號表示的含義如表2-1所示。
為唯一標(biāo)識每一股票數(shù)據(jù),對股票重新編號,作為一個(gè)股票數(shù)據(jù)編號。如,第一只股票2003年的數(shù)據(jù)賦予編號1,第一只股票2002年的數(shù)據(jù)賦予編號2,以此類推。
首先對數(shù)據(jù)進(jìn)行類型一致化和歸一處理,在本文把極小型、居中型和極大型的變量統(tǒng)一化成極大型,下面是對每種類轉(zhuǎn)計(jì)算公式:
把極小型指標(biāo)轉(zhuǎn)化為大的計(jì)算公式:
其中M是變量x的最大值。
把中間型指標(biāo)轉(zhuǎn)化為極大型指標(biāo)的計(jì)算公式為:
其中m、M分別是變量x的最大值和最小值。
然后“標(biāo)準(zhǔn)化”處理法。即取
其中Xij為標(biāo)準(zhǔn)觀測值,其平均值和均方差分別為0和1。式中j(j=1,2,...,31)為第j項(xiàng)指標(biāo)原始觀測值的平均值,Sj(j=1,2,...,31)為第j項(xiàng)指標(biāo)原始觀測值的均方差。
不考慮變量為連續(xù)性的情況,所以必須把是連續(xù)型通過離散化處理變成離散型的變量,在這里我們通過等距對數(shù)據(jù)進(jìn)行把每一個(gè)連續(xù)性的變量離散出三值1,2,3,最后經(jīng)過類型一致化、標(biāo)準(zhǔn)和離散化處理數(shù)據(jù)。
三、貝葉斯網(wǎng)絡(luò)的構(gòu)建
。ㄒ唬㎏2法建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)
Matlab中的貝葉斯網(wǎng)絡(luò)工具箱(BNT)提供了豐富的參數(shù)學(xué)習(xí)函數(shù),K2是其中的一種。函數(shù)調(diào)用如下:
data=xlsread("課程論文.xlsx");
data_train=data";
N=size(data,2);
ns=3*ones(1,N);
order=[19 24 25 29 23 28 13 18 14 20 22 30 10 11 12 8 16 9 4 1 2 3 5 31 17 6 7 15 21 27 26];
max_fan_in=4;
discrete_nodes=1:N;
dag_K2=learn_struct_K2(data_train,ns,order,"discrete",discrete_nodes,"max_fan_in",max_fan_in);
建立的結(jié)構(gòu)圖如下圖所示:
。ǘ┡郎椒ń⒇惾~斯網(wǎng)絡(luò)結(jié)構(gòu)
Matlab同時(shí)也提供爬山法學(xué)習(xí)函數(shù)learn_struct_hc(),所有條件都采用默認(rèn)條件,調(diào)用形式如下:
data=xlsread("課程論文.xlsx");
data_train=data";
N=size(data,2);
ns=3*ones(1,N);
dag=learn_struct_hc(data_train,ns);
dag_pashan=dag;
建立的網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
R軟件也提供貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí),下面是采用R中的爬山法建立的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。
在使用matlab和R兩種軟件輔助建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中,均采用爬山法,默認(rèn)條件下,R的結(jié)構(gòu)學(xué)習(xí)時(shí)間大大小于matlab的結(jié)構(gòu)學(xué)習(xí)時(shí)間,其中R只需要幾秒鐘的時(shí)候,matlab卻用了2個(gè)多小時(shí)。
。ㄈ┴惾~斯網(wǎng)絡(luò)的精確推理
為了提高運(yùn)算速度,使各種推理算法能夠有效應(yīng)用,BNT工具箱采用了引擎機(jī)制,不同的引擎根據(jù)不同的算法來完成模型轉(zhuǎn)換、細(xì)化和求解。這個(gè)推理過程如下:
BNT中提供了多種推理引擎,都有:
1.不同推理引擎對K2法建立貝葉斯網(wǎng)的精確推理比較。
使用軟件是matlab,以K2法建立的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行精確推理,采用不同的參數(shù)學(xué)習(xí)和推理引擎,結(jié)果如下表所示:
2.不同推理引擎對爬山法建立貝葉斯網(wǎng)的精確推理比較。
使用軟件是matlab,以爬山法建立的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行精確推理,采用不同的參數(shù)學(xué)習(xí)和推理引擎,結(jié)果如下表所示:
3.貝葉斯網(wǎng)的精確推理結(jié)論。
由表3-5至3-7可以看出,matlab中提供的推理引擎,聯(lián)合樹推理引擎比較實(shí)用,適用于各種推理。通過統(tǒng)計(jì)樣本數(shù)據(jù),發(fā)現(xiàn)當(dāng)證據(jù)變量為查詢變量的父節(jié)點(diǎn)或者祖父節(jié)點(diǎn)時(shí),適用聯(lián)合樹推理引擎的極大似然估計(jì)推理出來的結(jié)果與統(tǒng)計(jì)樣本得到的結(jié)果一致。
四、結(jié)論
。1)在網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)中,運(yùn)用爬山法在不同軟件輔助學(xué)習(xí)中,所用時(shí)間不同,matlab用時(shí)遠(yuǎn)遠(yuǎn)多于R。
。2)不同算法學(xué)習(xí)得到的網(wǎng)絡(luò)結(jié)構(gòu)不同。在同種算法學(xué)習(xí)中,使用不同軟件,學(xué)習(xí)結(jié)構(gòu)也不太一樣。
(3)在使用matlab提供的推理引擎,當(dāng)證據(jù)變量為查詢變量的父節(jié)點(diǎn)或者祖父節(jié)點(diǎn)時(shí),適用聯(lián)合樹推理引擎的極大似然估計(jì)推理出來的結(jié)果與統(tǒng)計(jì)樣本得到的結(jié)果一致。
參考文獻(xiàn)
[1]茆詩松.貝葉斯統(tǒng)計(jì)[M].北京:中國統(tǒng)計(jì)出版社.1999.
[2]嚴(yán)慧鑫.貝葉斯網(wǎng)精確推理算法的研究[D].吉林:吉林大學(xué),2006.
[3]余申慶.基于條件獨(dú)立性測試的貝葉斯網(wǎng)構(gòu)建以及對股票數(shù)據(jù)的應(yīng)用分析[D].廣東:華南理工大學(xué),2015.
[4]Pearl J F,propagation and structuring in belief networks[J].Artificial Intelligence,1986,29(3):241-288.
[5]Lauritzen S L,Spiegelhalter D J. Localcomputations with probabilities on graphical structures and their applications to expert systems[J]. Proceedings of the Royal Statistical Society,1988,B(50):154-27.
[6]張燕.基于圖模型分解的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)與推理研究[D].西安:西安電子科技大學(xué),2014.
[7]楊海深.貝葉斯網(wǎng)絡(luò)中不確定性知識推理算法及其應(yīng)用研究[D].廣東:華南理工大學(xué),2010.
[8]王建康等.混合分布理論及應(yīng)用[J].生物數(shù)學(xué)學(xué)報(bào),1995,10(3):338-353.
[9]張連文等.貝葉斯網(wǎng)引論[M].北京:科學(xué)出版社.2006.
[10]廖芹.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社.2010.
相關(guān)熱詞搜索:推理 財(cái)務(wù)數(shù)據(jù) 統(tǒng)計(jì) 上市 知識
熱點(diǎn)文章閱讀