高校人事管理數(shù)據(jù)庫技術應用初步研究
發(fā)布時間:2019-08-14 來源: 美文摘抄 點擊:
摘要:隨著計算機技術的進步,許多高校相繼建立了日益完善的人事信息管理系統(tǒng),積累了大量的完整數(shù)據(jù)。本文以教職工信息庫作為基礎信息來處理的,通過對整個院系(或學科)的教職工的個人信息進行加工處理、運用統(tǒng)計方法對每一個學科的院系(或學科)分別進行聚合、挖掘。從而找出影響學科發(fā)展的因素及各因素間的關聯(lián)關系。
關鍵詞:高等學校;人事管理;數(shù)據(jù)庫技術;應用研究
中圖分類號:G203文獻標識碼:A文章編號:1009-3044(2008)05-10ppp-0c
1 引言
隨著計算機技術的進步,許多高校相繼建立了日益完善的人事信息管理系統(tǒng),積累了大量的完整數(shù)據(jù)。目前,這些數(shù)據(jù)的主要用途是向各級管理部門提供各類統(tǒng)計報表和信息查詢,但對這些數(shù)據(jù)所隱藏的價值沒有挖掘利用,十分可惜。借用計算機和數(shù)據(jù)庫管理手段,實現(xiàn)人事管理目錄信息的計算機化和網(wǎng)絡化管理。它包括建立人事檔案部局域網(wǎng)環(huán)境,加強部門內(nèi)部人員之間的信息溝通和網(wǎng)絡化應用:建立人事管理數(shù)據(jù)庫,實現(xiàn)人事管理目錄信息的統(tǒng)一管理:實現(xiàn)對人事管理基本信息的增、刪、查、存、轉等操作以及統(tǒng)計、打印等功能:采用條碼技術實現(xiàn)檔案盤點功能:整合現(xiàn)在文件級數(shù)據(jù),將單機版數(shù)據(jù)加載到網(wǎng)絡數(shù)據(jù)庫中,實現(xiàn)人事管理數(shù)據(jù)的集中存放和統(tǒng)一模式的管理。本文以高校人事信息庫為對象,研究數(shù)據(jù)挖掘的方法。以圖“透過現(xiàn)象看本質(zhì)”,找出有價值的信息,為管理決策者提供參考。
2 高校人事管理數(shù)據(jù)庫概述
高校人事信息庫是由幾個子庫組成的,這些子庫按照級別分:院系(或學科)信息庫和院系的教職工信息庫。院系(或學科)信息庫稱院系情況信息庫,它由下列字段組成:學科(或系)代號,學科(或系)名稱,學科(或系)在全國的學術排名。建立時間,教職工總數(shù),教學人員編制數(shù),教學人員實有人數(shù)。科研人員編制數(shù),科研人員實有數(shù),文獻總量,文獻購置費,儀器設置總值,大型儀器設備臺件數(shù),國家級重點實驗室個數(shù),本科生總數(shù),碩士生總數(shù),博士研究生總數(shù),留學生總數(shù),其他學生數(shù),學科帶頭人年齡,學歷、性別等,是院系(或學科)的基本情況庫。
院系(或學科)的教職工信息庫是由教職工基本情況庫、教職工來源情況庫、工作簡歷情況庫等22個子庫組成,這些情況庫是反映每位教職工的各方面情況的檔案庫。這些庫中有些情況是不會變化的,如:出生年月、性別、民族、出生地等;有些情況變化頻率不高,如部門、室科組、來源情況,婚姻狀況等;有些情況變化頻率較高,如教學工作情況、獎懲情況、發(fā)表論著情況等。如果對所有的情況一并對待不利于數(shù)據(jù)挖掘。本文并未對上述教職工信息庫進行直接挖掘,而是以它作為基礎信息來處理的,通過對整個院系(或學科)的教職工的個人信息進行加工處理、運用統(tǒng)計方法對每一個學科的院系(或學科)分別進行聚合、挖掘目的是:找出影響學科發(fā)展的因素及各因素間的關聯(lián)關系。
3 用關聯(lián)規(guī)則發(fā)現(xiàn)技術對人事信息庫進行挖掘
關聯(lián)規(guī)則技術是數(shù)據(jù)挖掘領域的一個重要方法,其方法和算法近幾年研究較多。所謂關聯(lián)規(guī)則就是描述數(shù)據(jù)庫中數(shù)據(jù)項(屬性,變量)之間所存在的(潛在)關系的規(guī)則。根據(jù)人事工作戰(zhàn)線上的老同志的經(jīng)驗,在人事管理中,發(fā)現(xiàn)一些平時并不能引起注意的因系(或規(guī)則),具有十分重要的意義。設一個項目的集合I為數(shù)據(jù)庫D中所有的120個項目的集合,每一個記錄中的項都是按字典順序存儲的。數(shù)據(jù)庫D中的一個記錄T(即T含40個項),T I,T與一個唯一標識符Tid相聯(lián)系(即記錄的形式是
關聯(lián)規(guī)則發(fā)現(xiàn)算法的主要問題是通過怎樣的算法找出所有強項集(large item sets),然后找出有效關聯(lián)規(guī)則。所以挖掘所有有效關聯(lián)規(guī)則的問題可分為兩個子問題:① 尋找所有的支持度大于最小支持度的項集,即尋找所有的強項集;②用這些強項集去產(chǎn)生想法的規(guī)則。第二個問題相對容易解決。
4 算法討論
Agrawal等人幾年前提出了關聯(lián)規(guī)則的發(fā)現(xiàn)算法AIS和SETM,1994年又提出了改進算法Apfiofi和ApnofiTid。AIS和SETM算法都是在將記錄數(shù)據(jù)讀人數(shù)據(jù)庫的過程中迅速生成候選數(shù)據(jù)項集。在讀人新的記錄數(shù)據(jù)后,就要決定前次過程中的強的數(shù)據(jù)項集中的哪些應該和這些讀入的記錄數(shù)據(jù)中的數(shù)據(jù)組合,以產(chǎn)生新的候選數(shù)據(jù)項集。這種方法的缺點是導致許多不必要的數(shù)據(jù)項集的生成和計數(shù)。而Apriori和AprioriTid算法只利用前次過程中生成的強的數(shù)據(jù)項集來生成新的候選數(shù)據(jù)項集,因此具有k個數(shù)據(jù)項的候選數(shù)據(jù)項集可以通過對具有k-1個數(shù)據(jù)項的強數(shù)據(jù)項集組合而生成,刪除了那些包含任一k-1子項集不強的數(shù)據(jù)項集。所產(chǎn)生的候選數(shù)據(jù)項集要小得多,提高了算法的效率。
文獻給出了多層關聯(lián)規(guī)則的發(fā)現(xiàn)算法ML_T2T1,ML_T1TA,ML_T ML4和ML_T2TA 這幾個算法與Agrawal等人的算法不同在于彩了層次優(yōu)化技術。而層次算法的缺點是層次是由系統(tǒng)早已定好的。不利于挖掘一些人們從未想到過的有效規(guī)則。
Apriofi和AprioriTid算法不考慮數(shù)據(jù)庫中具體的記錄來生成候選集。僅僅考慮在上一次掃描中發(fā)現(xiàn)為強的項集,用它們生成候選項集并在本次掃描中計數(shù)。指導思想是任一強項集的子集必定是強的。因此,由k個項組成的候選項集是由k-1個項組成的強項集生成的。并且刪除那些包含任何不強子集的項集。這一過程會導致產(chǎn)生更少數(shù)量的候選結果。
Apriori算法中的Apriori-gen函數(shù)是一個極優(yōu)秀的生成候選項函數(shù),它幾乎生成了不可能再少的候選項集,也一直被后來的研究者引用。可以說Apriori-gen函數(shù)是Apriori算法的精華,其缺點是掃描數(shù)據(jù)庫D次數(shù)很高,尤其是當數(shù)據(jù)庫D非常大時,I/O量很大,會引起系統(tǒng)顛簸和性能降低。
AprioriTid算法根據(jù)記錄編碼Tid,對掃描數(shù)據(jù)庫作了一些改進,尤其是當k較大時,生成Ck比原數(shù)據(jù)庫D要小得多,大大提高了速度,但是當k較小,特別是候選項占所有項目的比較較大,這樣生成的C 就比原數(shù)據(jù)庫D要大得多,性能就極差,同樣CPU與I/O的開銷也非常大。
后來,A?Sowasere等人提出Paritition算法,這個算法對非常大的數(shù)據(jù)庫較適合,減少了I/O開銷。Paritition算法與以前的算法根本不同之處是它最多只需要讀取數(shù)據(jù)庫二次就能生成所有有意義的規(guī)則,而以前的處落地掃描數(shù)據(jù)庫的次數(shù)能生成所有有意義的規(guī)則,而以前的算法掃描數(shù)據(jù)庫的次數(shù)根本無法先確定,并且這個算法適合構成并行算法。它的基本思想是根據(jù)計算機的內(nèi)存大小和數(shù)據(jù)庫D本身的某些性能,對數(shù)據(jù)庫D進行分區(qū)。算法一次讀取是一個分區(qū)而不是一個記錄,并對每個分區(qū)求強項集。然后把每個分區(qū)的強項集合在一起作為候選項集,再掃描數(shù)據(jù)庫D,計算這些候選項集的支持度,確定強項集,它的理論依據(jù)是:對整個數(shù)據(jù)庫D的任一強項集它必定會是至少某個分區(qū)的強項集。數(shù)據(jù)庫D數(shù)據(jù)量越大,分區(qū)算法的優(yōu)點就越明顯。
Paritition算法的缺點也是很明顯的:①如果數(shù)據(jù)庫D中的數(shù)據(jù)性能不好,尤其是對交易數(shù)據(jù)庫D,因為超市中商品的銷售肯定與季節(jié)有關,如果分區(qū)方法剛好與某個季節(jié)和氣候有關,那么在這個分區(qū)里強的項集,在其他分區(qū)里很有可能不強,這樣生成的候選項集將是相當大,但對整個數(shù)據(jù)庫D來說真正強的項集相對這個候選項集來說可能很小。這樣在第二次掃描時將大大增加CPU和I/O的開銷。對人事數(shù)據(jù)庫也同樣,對進人與退休的高峰期,數(shù)據(jù)庫性能就不一定好,還有各種原因都不能保證數(shù)據(jù)性能很好;②大部分強項集在上次掃描時都已經(jīng)在某些分區(qū)中計過數(shù),但在第二次掃描時,這些信息都丟失了。這樣就增加了CPU的開銷;③當支持度較小時,算法的效果較差。
相關熱詞搜索:人事管理 數(shù)據(jù)庫技術 高校 研究
熱點文章閱讀