資源描述:
《數(shù)據(jù)挖掘技術(shù)在美國(guó)院校研究中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、數(shù)據(jù)挖掘技術(shù)在美國(guó)院校研究中的應(yīng)用數(shù)據(jù)挖掘(datamining)是一項(xiàng)新興技術(shù)。作為商業(yè)智能(businessintelligence)的重要組成部分,它已被廣泛應(yīng)用于企業(yè)及金融領(lǐng)域,成為產(chǎn)品分析、市場(chǎng)預(yù)測(cè)、欺詐防范等工作流程中舉足輕重的技術(shù)手段,并取得了卓著的成效。近年來(lái),隨著高校數(shù)據(jù)收集量的不斷增加以及教育決策對(duì)量化分析結(jié)果的愈加依賴(lài),數(shù)據(jù)挖掘在美國(guó)高校管理中的應(yīng)用呈顯著上升趨勢(shì)。本文將簡(jiǎn)要介紹數(shù)據(jù)挖掘技術(shù)及其在美國(guó)高校管理中的應(yīng)用現(xiàn)狀,并通過(guò)個(gè)案分析,詳細(xì)闡述數(shù)據(jù)挖掘建模步驟。一、數(shù)據(jù)挖掘技術(shù):定義與方法(一)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘是集數(shù)據(jù)庫(kù)結(jié)構(gòu)、統(tǒng)計(jì)學(xué)原理
2、、機(jī)器學(xué)習(xí)、高性能計(jì)算等為一體的復(fù)雜技術(shù)融合體,是通過(guò)抽樣、整合處理、建模、評(píng)估等一系列科學(xué)運(yùn)作,從數(shù)據(jù)中探尋隱藏的信息和知識(shí)的過(guò)程。這些知識(shí)和信息可能體現(xiàn)了挖掘?qū)ο蟮膫€(gè)體特征,也可能反映了研究群體的發(fā)展變化趨勢(shì),等等。例如,我們可利用數(shù)據(jù)挖掘技術(shù)將具有共同或者相近屬性的案例分群、分類(lèi),也可估算和預(yù)測(cè)未來(lái)某種事件發(fā)生的可能性,亦可探究某些事件發(fā)生的規(guī)律。(二)數(shù)據(jù)處理與整合數(shù)據(jù)處理與整合是數(shù)據(jù)挖掘的關(guān)鍵步驟之一。數(shù)據(jù)不準(zhǔn)確、不完整都會(huì)導(dǎo)致分析挖掘結(jié)果的誤差,從而影響獲取暗藏在數(shù)據(jù)中的有用知識(shí)和信息。目前,絕大多數(shù)用于挖掘的數(shù)據(jù)都來(lái)自于數(shù)據(jù)庫(kù)。但由于數(shù)據(jù)往往來(lái)自于不
3、同的組織或者數(shù)據(jù)庫(kù),變量的定義不盡相同,也沒(méi)有可以用來(lái)合并數(shù)據(jù)集的通用變量,因此,挖掘人員在建模之前必須對(duì)數(shù)據(jù)進(jìn)行整合,并檢查變量值的類(lèi)別、分布狀況,等等。在許多挖掘項(xiàng)目中,處理數(shù)據(jù)所花費(fèi)的時(shí)間比建模的時(shí)間花費(fèi)要多幾倍。在處理數(shù)據(jù)時(shí),常見(jiàn)的棘手問(wèn)題是對(duì)數(shù)據(jù)集缺失值的填補(bǔ)和對(duì)偏態(tài)分布變量值的轉(zhuǎn)換。處理缺失值有許多方法。一種是在分析數(shù)據(jù)時(shí)只包括具有完整數(shù)據(jù)的個(gè)體。但這種方法的弊端是有時(shí)缺失值本身反映了數(shù)據(jù)的某種特征,因此刪除具有缺失值的個(gè)體會(huì)影響研究結(jié)果;另外,如果數(shù)據(jù)集含有非常多的缺失值,那么刪除缺失值將使研究個(gè)體數(shù)量銳減,同樣會(huì)影響研究結(jié)果。另一種方法是填充缺失值
4、。有許多統(tǒng)計(jì)方法可用來(lái)完成這項(xiàng)工作,比如平均值、中值、回歸方程預(yù)測(cè)等等。數(shù)據(jù)挖掘軟件通常提供多種方法供研究人員根據(jù)數(shù)據(jù)的特點(diǎn)選擇使用。處理偏態(tài)分布或含有游離值的連續(xù)性變量同樣有多種可選擇的方法。當(dāng)然,建模者要根據(jù)使用的建模方法決定是否需要對(duì)這些變量進(jìn)行數(shù)據(jù)轉(zhuǎn)換。如果決定需要對(duì)某些變量進(jìn)行轉(zhuǎn)換,建模者必須根據(jù)變量的分布狀態(tài)選擇轉(zhuǎn)換方法。(三)數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘技術(shù)包括許多不同的方法,其中常用的有決策樹(shù)(DecisionTree)、神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)、回歸(Regression)、邏輯回歸(LogisticRegression)、關(guān)聯(lián)(Assoc
5、iationRules)、聚類(lèi)(Clustering)、集成(Ensemble)等。回歸和邏輯回歸方法和傳統(tǒng)統(tǒng)計(jì)方法完全相同。本文僅對(duì)第三部分個(gè)案分析中使用的決策樹(shù)、神經(jīng)網(wǎng)絡(luò)和集成方法予以簡(jiǎn)單闡述。決策樹(shù)是利用一系列的決策規(guī)則將龐大的數(shù)據(jù)集分割成較小的具有同等或者非常相近屬性的子數(shù)據(jù)集。圖1顯示了決策樹(shù)的生成過(guò)程。個(gè)案從根節(jié)點(diǎn)進(jìn)入決策樹(shù),然后由函數(shù)變量和測(cè)試方法決定個(gè)案所歸屬的下一個(gè)子節(jié)點(diǎn)或葉節(jié)點(diǎn)。類(lèi)似的程序重復(fù)循環(huán)直到所有個(gè)案歸屬于某個(gè)葉節(jié)點(diǎn)。從根節(jié)點(diǎn)到每一個(gè)葉節(jié)點(diǎn)的路徑形成一條“規(guī)則”。這些規(guī)則被用來(lái)對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行預(yù)測(cè)分類(lèi)。例如,圖1所顯示的決策樹(shù)含有五個(gè)路
6、徑,分別代表一條規(guī)則。神經(jīng)網(wǎng)絡(luò)通過(guò)模擬人的神經(jīng)活動(dòng)程序來(lái)處理一系列信息。它是由類(lèi)似于神經(jīng)元的許多元素精密連接形成的網(wǎng)絡(luò),通常包括三個(gè)層次:輸入層、隱藏層和輸出層(圖2)。輸入層是將原始數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)。隱藏層包含許多類(lèi)似于“神經(jīng)元”的節(jié)點(diǎn)。這些節(jié)點(diǎn)是通過(guò)對(duì)輸入變量之間及其與目標(biāo)變量之間關(guān)系進(jìn)行復(fù)雜運(yùn)算產(chǎn)生“權(quán)重”結(jié)果。輸出層所包含的變量可能是單一性的,也可能是多重性的。它們是通過(guò)對(duì)隱藏層上的神經(jīng)元和輸出值之間的“權(quán)重”進(jìn)行計(jì)算得到。集成模型以其他挖掘方法建立的模型為基礎(chǔ)構(gòu)建而成。如果預(yù)測(cè)變量是分類(lèi)型,集成模型是通過(guò)對(duì)預(yù)測(cè)變量的百分比進(jìn)行平均得到新的集成模型的預(yù)測(cè)
7、百分比;如果預(yù)測(cè)變量是連續(xù)型,集成模型則是通過(guò)對(duì)預(yù)測(cè)值進(jìn)行平均得到新的集成模型的預(yù)測(cè)值。常用的建立集成模型的方法有兩種:一種是從原始數(shù)據(jù)集中抽取不同的子數(shù)據(jù)集,然后利用同一種挖掘方法建立不同的模型,并將這些模型綜合建立集成模型;另一種方法是用同一個(gè)數(shù)據(jù)集,利用不同的挖掘方法建立模型,然后再將這些模型綜合建立集成模型。圖1決策樹(shù)生成示意圖圖2神經(jīng)網(wǎng)絡(luò)生成示意圖(四)模型的建立與評(píng)估建模時(shí),通常需要將數(shù)據(jù)集分割(datapartition)成運(yùn)行(training)、確認(rèn)(validation)和測(cè)試(test)三個(gè)子數(shù)據(jù)集。運(yùn)行數(shù)據(jù)集是用來(lái)建立最基本的數(shù)據(jù)模型;確認(rèn)
8、數(shù)據(jù)集是用