資源描述:
《數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用管窺》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用管窺數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用管窺自從我國實(shí)行改革開放的政策后,我國社會經(jīng)濟(jì)不斷發(fā)展。隨著改革開放的深入,十分必要對經(jīng)濟(jì)活動進(jìn)行合情合理的經(jīng)濟(jì)分析。數(shù)據(jù)挖掘技術(shù)作為新的統(tǒng)計(jì)方法,用來分析社會經(jīng)濟(jì)的活動狀況,受到社會各界的廣泛關(guān)注。利用數(shù)據(jù)挖掘技術(shù)分析數(shù)據(jù),滿足信息使用者的使用需求,推動我國經(jīng)濟(jì)又好又快發(fā)展?! ∫弧?shù)據(jù)挖掘技術(shù)的概念 隨著我國社會經(jīng)濟(jì)的進(jìn)步和發(fā)展,數(shù)據(jù)信息量越來越龐大,如何對這些龐大和繁瑣的信息進(jìn)行處理成為經(jīng)濟(jì)統(tǒng)計(jì)的難題。傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)遠(yuǎn)遠(yuǎn)不
2、能滿足現(xiàn)在數(shù)據(jù)使用者的使用需要,所以數(shù)據(jù)挖掘技術(shù)在這種背景下應(yīng)運(yùn)而生。數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)的數(shù)據(jù)處理方式存在較大的不同之處。傳統(tǒng)的數(shù)據(jù)處理主要是運(yùn)用一些數(shù)據(jù)處理軟件,分析經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù),以此來得出經(jīng)濟(jì)發(fā)展?fàn)顩r。傳統(tǒng)的數(shù)據(jù)處理是簡單分析各項(xiàng)數(shù)據(jù),停留在數(shù)據(jù)分析的表面,并沒有從深度和廣度中進(jìn)一步分析和處理數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)能從龐大的數(shù)據(jù)信息庫中搜索到有價(jià)值有品質(zhì)的數(shù)據(jù)信息,然后對這些信息進(jìn)行分析和處理,滿足信息使用者的使用需求。數(shù)據(jù)挖掘技術(shù)能解決我國經(jīng)濟(jì)發(fā)展經(jīng)濟(jì)統(tǒng)計(jì)困難的窘境,使數(shù)據(jù)使用者能真正利用好這些對我
3、國經(jīng)濟(jì)發(fā)展有用的信息。數(shù)據(jù)挖掘技術(shù)能改善數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)利用率,加強(qiáng)數(shù)據(jù)之間深層次聯(lián)系?! 《?、數(shù)據(jù)挖掘技術(shù)的應(yīng)用 ?。ㄒ唬╊A(yù)處理方法 收集到的數(shù)據(jù)并不一定是齊全的,有些數(shù)據(jù)是不一致的,有些數(shù)據(jù)存在噪聲,還有些數(shù)據(jù)存在空值。數(shù)據(jù)預(yù)處理方法是一種最基礎(chǔ)的處理方法,它能事先把經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息進(jìn)行預(yù)先處理。數(shù)據(jù)預(yù)處理由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換三部分組成?! ?shù)據(jù)清理指的是通過一定的方法把經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息中不全的、存在噪聲和空值的信息給去掉。一般采取的方法有四種本文由.L.收集整理,分別是均值法、平滑
4、法、預(yù)測法和頻率統(tǒng)計(jì)法。具體情況具體分析,對于不同的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息要采取適合的方法。當(dāng)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中的數(shù)據(jù)存在噪聲或數(shù)據(jù)點(diǎn)是空值的情況時,可以采取均值法進(jìn)行數(shù)據(jù)清理。對于數(shù)據(jù)中的噪聲和空值,也可以采取平滑法。平滑法和均值法的不同之處是,平滑法用加權(quán)平均數(shù)代替了均值法中的平均數(shù),這種方法充分考慮到數(shù)據(jù)中的每一個數(shù)據(jù)對數(shù)據(jù)結(jié)果的權(quán)重影響。使用平滑法能讓計(jì)算出的結(jié)果更加接近真實(shí)值。而均值法是利用均值來填補(bǔ)數(shù)據(jù)中的空缺,能得到比較高準(zhǔn)確度的統(tǒng)計(jì)分析數(shù)據(jù)。這兩種方法都有各自不同的特點(diǎn),要根據(jù)實(shí)際情況,選取適宜
5、的數(shù)據(jù)處理方法。 數(shù)據(jù)集成是指把各種不同的數(shù)據(jù)進(jìn)行集合,使這些不同的數(shù)據(jù)成為一個集體。數(shù)據(jù)集成要考慮到既能把各種數(shù)據(jù)集合起來,又能保證數(shù)據(jù)的準(zhǔn)確性。社會經(jīng)濟(jì)的不斷發(fā)展,導(dǎo)致數(shù)據(jù)信息量十分龐大。提供數(shù)據(jù)信息的來源是多方的,既有官方提供的數(shù)據(jù)信息,又有民間提供的信息,又或者是社會主體提供的數(shù)據(jù)信息。但數(shù)據(jù)集成也會出現(xiàn)問題,主要是兩個問題,一個是模式集成問題,另一個是冗余問題。模式集成問題是指實(shí)體識別存在問題。因?yàn)閿?shù)據(jù)挖掘的過程中,多個數(shù)據(jù)通過多種數(shù)據(jù)模式呈現(xiàn)出來。冗余問題主要是指數(shù)據(jù)存在多余,所以要讓數(shù)
6、據(jù)量保持在一個比較低的水平,拋去繁瑣的數(shù)據(jù)。數(shù)據(jù)挖掘的目的就是通過某種方式方法把經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)以一個最簡的狀態(tài)呈現(xiàn)出來。就數(shù)據(jù)挖掘本身而言,它就是對經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行深一層次的加工,把挖掘出來的數(shù)據(jù)和其他呈現(xiàn)正相關(guān)的數(shù)據(jù)進(jìn)行簡單優(yōu)化,為數(shù)據(jù)使用者提供使用便利,也為數(shù)據(jù)管理提供管理方便,還為數(shù)據(jù)決策者提供決策依據(jù)?! ?shù)據(jù)變換是指通過一定的方式方法把數(shù)據(jù)變換成符合信息挖掘要求的數(shù)據(jù)。數(shù)據(jù)變換包括數(shù)據(jù)規(guī)范化和數(shù)據(jù)泛化。數(shù)據(jù)規(guī)范化中包含了零均值規(guī)范化、最大規(guī)范化、最小規(guī)范化。數(shù)據(jù)泛化指用高層次的數(shù)據(jù)替代低層次的
7、數(shù)據(jù)。這其中也包括了數(shù)據(jù)的連續(xù)性?,F(xiàn)在的處理方法很難連續(xù)處理數(shù)據(jù),所以就出現(xiàn)了數(shù)據(jù)的離散化。數(shù)據(jù)的離散化是指通過劃分區(qū)間,用標(biāo)號代替某些數(shù)據(jù),以此來達(dá)到數(shù)據(jù)的連續(xù)性。在實(shí)際計(jì)算過程中,要盡量減少數(shù)據(jù)的收集量,減少數(shù)據(jù)的收集量被稱作概念分層?! 。ǘQ策樹方法 決策樹作為一種快速分類的方法,能使數(shù)據(jù)以直觀的方式呈現(xiàn)出來。在數(shù)據(jù)挖掘過程中,十分必要對數(shù)據(jù)進(jìn)行系統(tǒng)的分析。數(shù)據(jù)經(jīng)過系統(tǒng)的分析后,就要進(jìn)行數(shù)據(jù)輸出,分析數(shù)據(jù)的輸出在數(shù)據(jù)挖掘中處于很重要的步驟,因?yàn)檩敵龅姆治鰯?shù)據(jù)的數(shù)據(jù)形式對信息使用者產(chǎn)生很大的
8、影響。經(jīng)濟(jì)決策的管理者正是依靠這些數(shù)據(jù)對經(jīng)濟(jì)活動作出規(guī)劃和決策?! ∵\(yùn)用決策樹的分類方法進(jìn)行分類,首先要先構(gòu)建起完善的決策樹結(jié)構(gòu)。第一,建立好分析輸出的基本模型,運(yùn)用訓(xùn)練集建立一棵決策樹,并且精簡決策樹;第二,已經(jīng)建立完畢的決策樹進(jìn)行數(shù)據(jù)分類,分類從決策樹的根部開始,逐漸到樹干、樹丫,一直到數(shù)據(jù)的輸入滿足設(shè)置好的條件才停止,這種過程是一個遞歸的過程,是一步一步進(jìn)行的。在實(shí)際決策樹應(yīng)用中,實(shí)現(xiàn)決策樹停止的有兩個條件:一個是一個節(jié)點(diǎn)上所有的數(shù)據(jù)全部屬于同一個