資源描述:
《關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用關(guān)于數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用一、經(jīng)濟統(tǒng)計中數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性(一)隨著社會的發(fā)展,數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用得到很大發(fā)展,已被廣泛的應(yīng)用,其具有很多優(yōu)點,能夠更好的提供服務(wù)于經(jīng)濟統(tǒng)計,因此進一步加強對其的研究非常有必要數(shù)據(jù)挖掘技術(shù)的發(fā)展是從二十世紀九十年代到現(xiàn)在,雖然時間不長,但是發(fā)展速度迅猛,因此也是越來越受到人們的重視。就目前的情況來看,國外對于其關(guān)注度非常高,致力于數(shù)據(jù)挖掘技術(shù)的開發(fā)和應(yīng)用,例如IBM、微軟等等。而其在我國也是得到很大的關(guān)注,我國對
2、于該技術(shù)主要是體現(xiàn)在已經(jīng)為其相繼的建立了相應(yīng)的工作實驗室。(二)數(shù)據(jù)挖掘工具日益豐富,能夠滿足經(jīng)濟統(tǒng)計的各種需要為了更好的符合市場發(fā)展需求,數(shù)據(jù)挖掘的工具也是不斷更新,呈現(xiàn)出不同的形式,就目前的情況,數(shù)據(jù)挖掘工具的市場主要由3個部分,包括通用型工具、綜合工具和面向特定應(yīng)用。1.通用型工具。在我們的現(xiàn)有市場中比較廣泛的應(yīng)用是通用型工具,其實用性非常廣,就目前市場的這種類型工作主要包括:SGIMineset、SASEnterprise、SPSSClementine等軟件。2.綜合工具。綜合工具的主要特
3、點是能夠滿足商業(yè)活動的相關(guān)要求,其主要的目的是能夠及時地提供相關(guān)數(shù)據(jù)情況以及管理報告等,就目前的情況來看,這種類型的工作市場中主要有CognosScenario、BusinessObjects等。(三)宏觀經(jīng)濟數(shù)據(jù)庫的建立,為數(shù)據(jù)挖掘技術(shù)的應(yīng)用創(chuàng)造了良好的條件就目前的情況來看,我國的很多部門經(jīng)濟統(tǒng)計中都使用了數(shù)據(jù)挖掘技術(shù),其主要工作內(nèi)容是采集、處理。但是其還是存在著一些不足,主要是還沒有完全的形成一個整體,從而進行數(shù)據(jù)的管理時候會有很多問題,因此,經(jīng)濟統(tǒng)計工作是本文由.L.收集整理需要開發(fā)新的技術(shù)
4、。而宏觀經(jīng)濟統(tǒng)計數(shù)據(jù)庫剛好能解決好這一問題,其能夠準確的確保經(jīng)濟統(tǒng)計信息,然后在對其進行整理,從而不斷的擴充數(shù)據(jù)資源。二、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟統(tǒng)計中的應(yīng)用在社會經(jīng)濟管理活動中,管理主體對經(jīng)濟統(tǒng)計數(shù)據(jù)的要求主要有兩個:一個是統(tǒng)計數(shù)據(jù)的真實性;一個是數(shù)據(jù)統(tǒng)計信息的實用性。單就這兩個經(jīng)濟統(tǒng)計數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟統(tǒng)計工作的需求,是適用性極強的一種經(jīng)濟數(shù)據(jù)統(tǒng)計技術(shù),其在具體的經(jīng)濟數(shù)據(jù)統(tǒng)計活動中主要有以下四種應(yīng)用方法。(一)預(yù)處理方法在經(jīng)濟數(shù)據(jù)統(tǒng)計活動中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟數(shù)
5、據(jù)的預(yù)處理方法。因為數(shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù),其本身是受基礎(chǔ)經(jīng)濟信息限制的,不可能無中生有代替經(jīng)濟數(shù)據(jù)收集系統(tǒng)的功能,所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟統(tǒng)計數(shù)據(jù)信息都應(yīng)該進行預(yù)處理。處理的內(nèi)容主要包括:數(shù)據(jù)中不正確、不真實、不準確,以及不同經(jīng)濟統(tǒng)計數(shù)據(jù)信息之間差距較大等現(xiàn)象。對這些基礎(chǔ)數(shù)據(jù)存在的問題進行處理的過程被稱為數(shù)據(jù)清理,當前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當基礎(chǔ)數(shù)據(jù)中的一個數(shù)據(jù)點是空值或者噪聲數(shù)據(jù)
6、的時候,可以采用均值法進行處理,即用數(shù)據(jù)庫中所有該屬性已知的屬性均值來填補空缺,保證數(shù)據(jù)挖掘系統(tǒng)對基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進行,得出相對而言準確度較高的統(tǒng)計分析數(shù)據(jù)。(二)決策樹方法就目前的情況來看,在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中使用比較多的方法是決策樹,因為其能夠快速、直接的反映情況。對于該方法最主要的是要構(gòu)建好決策樹,通常情況下回分為2部:1)利用訓(xùn)練集建立并精簡一棵決策樹,同時建立一個模型,能夠進行輸出分析。2)將構(gòu)建完的決策樹充分利用,做好數(shù)據(jù)分類工作,這一分類是一個遞歸的過程,從決策樹的根
7、部開始進入到樹干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個:一個是當一個節(jié)點上的所有數(shù)據(jù)都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數(shù)據(jù)進行再分割。在決策樹構(gòu)建完成后,還要根據(jù)使用者的具體要求對決策樹進行剪枝,剪枝的主要目的是要降低因為使用訓(xùn)練集而對決策樹本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。三、數(shù)據(jù)挖掘技術(shù)在某省經(jīng)濟統(tǒng)計中的具體應(yīng)用舉例本文主要是將序列模式和決策樹進行結(jié)合的方法進行經(jīng)濟統(tǒng)計中的數(shù)據(jù)挖掘技術(shù)的分析,將其進行分類,從而能夠確定出調(diào)查的對象。通過
8、某地區(qū)企業(yè)歷年上報的數(shù)據(jù)建立各個企業(yè)的序列模式,通過這個方法能夠計算出一個企業(yè)的預(yù)測值,然后進行分析得到差別率,主要的對象是預(yù)測值和上報的數(shù)據(jù),最后是將這個差別率進行第一次的分類。根據(jù)分類可以將其分為3種,A、B、C類,其分類的依據(jù)是差別率所占比率,順序為大于等于百分之二十,百分之二十和百分之十之間以及百分之十以下。然后是進行建立決策樹,其主要是從2個方面進行,即企業(yè)的規(guī)模變化率和企業(yè)是否發(fā)生了重大經(jīng)營事件。如果企業(yè)的規(guī)模變化率非常大,就需要對其進行調(diào)查,如果變化率小,還需要進一步