資源描述:
《基于改進(jìn)apriori算法的大學(xué)成績(jī)關(guān)聯(lián)規(guī)則》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于改進(jìn)Apriori算法的大學(xué)成績(jī)關(guān)聯(lián)規(guī)則 摘要 大學(xué)教學(xué)信息系統(tǒng)數(shù)據(jù)中隱藏著大量有潛在價(jià)值的信息。利用數(shù)據(jù)挖掘技術(shù)對(duì)大學(xué)教務(wù)系統(tǒng)的海量數(shù)據(jù)進(jìn)行分析,發(fā)掘出對(duì)教學(xué)有利的規(guī)律和因素,對(duì)大學(xué)的教學(xué)改革和教學(xué)研究有著重要的意義。本文提出一種改進(jìn)的Apriori關(guān)聯(lián)規(guī)則分析算法來提高大學(xué)成績(jī)分析的效率和規(guī)則的可信性;并通過數(shù)據(jù)挖掘工具IBMSPSSModeler建立了大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型;最后,以某大學(xué)信管專業(yè)2008-2012級(jí)全部學(xué)生的課程成績(jī)數(shù)據(jù)進(jìn)行實(shí)證研究?! 娟P(guān)鍵詞】數(shù)據(jù)挖掘大學(xué)成績(jī)關(guān)聯(lián)規(guī)則Apriori
2、算法 隨著高校信息化建設(shè)的推進(jìn),高校的教學(xué)信息系統(tǒng)數(shù)據(jù)存儲(chǔ)量日益增大。用戶通常只是在信息系統(tǒng)上進(jìn)行錄入、匯總、查詢等一些簡(jiǎn)單的業(yè)務(wù)處理,大多沒有意識(shí)到海量數(shù)據(jù)背后的價(jià)值,也沒有充分發(fā)掘海量教務(wù)數(shù)據(jù)中蘊(yùn)含的大量潛在的有用規(guī)律為教學(xué)決策提供依據(jù)。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)大學(xué)成績(jī)數(shù)據(jù)進(jìn)行挖掘,分析大學(xué)成績(jī)之間的關(guān)聯(lián)規(guī)則,對(duì)教學(xué)決策和教學(xué)安排提供有效的理論支持?! ?基于改進(jìn)Apriori算法的大學(xué)成績(jī)分析模型 1.1Apriori算法在大學(xué)成績(jī)分析中的局限性 Apriori算法是一種經(jīng)典的布爾型關(guān)聯(lián)規(guī)則算法。該算法通過
3、多次逐層搜索數(shù)據(jù)庫中數(shù)據(jù)集,利用頻繁項(xiàng)集的先驗(yàn)知識(shí)對(duì)候選集進(jìn)行剪枝,并對(duì)產(chǎn)生頻繁項(xiàng)集進(jìn)行多次迭代,直到數(shù)據(jù)集中沒有頻繁集的方法。Apriori算法比?^復(fù)雜且有一定局限性,主要體現(xiàn)在以下幾個(gè)方面: ?。?)降低支持度閾值通常將會(huì)導(dǎo)致更多的項(xiàng)集是頻繁的,這給算法的計(jì)算復(fù)雜度帶來很不利影響。因?yàn)楸仨毊a(chǎn)生更多候選項(xiàng)集并對(duì)其計(jì)數(shù),同時(shí)頻繁項(xiàng)集最大長(zhǎng)度增加,算法需要掃描次數(shù)也將增多?! 。?)Apriori算法計(jì)算項(xiàng)集的支持度需要反復(fù)掃描數(shù)據(jù)集,所以隨著事務(wù)數(shù)增加,它的運(yùn)行時(shí)間增加。 ?。?)隨著項(xiàng)數(shù)的增加,需要更多的空間來存儲(chǔ)
4、項(xiàng)的支持度計(jì)數(shù)。如果頻繁集的數(shù)目更多,產(chǎn)生候選集更多,增加計(jì)算量和I/O開銷。 ?。?)候選剪枝方法增加計(jì)算量?! 。?)在現(xiàn)實(shí)中數(shù)據(jù)挖掘中,置信度并不一定能體現(xiàn)規(guī)則的可信度,即置信度的高低不代表規(guī)則的可信賴的高低,因?yàn)樗雎粤艘?guī)則后件中項(xiàng)集的支持度?! ?.2改進(jìn)的Apriori算法 基于Apriori算法的局限性,結(jié)合大學(xué)成績(jī)分析的要求本文做了兩個(gè)改進(jìn): 1.2.1新的剪枝方法 采用一種新的方法改進(jìn)候選產(chǎn)生與剪枝,減少計(jì)算量和重復(fù)掃描數(shù)據(jù)庫的次數(shù)。在apriori_gen函數(shù)中候選項(xiàng)集的產(chǎn)生過程中合并一對(duì)頻繁
5、(k-1)-項(xiàng)集(僅當(dāng)它們的前k-2個(gè)項(xiàng)相同)。在候選項(xiàng)集的剪枝時(shí)運(yùn)用頻繁集的先驗(yàn)原理,確保它的子集都是頻繁集,否則立即剪枝?! ?.2.2以提升率代替置信度 基于上述置信度的局限性,本文中運(yùn)用用提升率來代替置信度以確保規(guī)則的可信度。提升率是規(guī)則的置信度和規(guī)則后件中項(xiàng)集的支持度之間的比率,計(jì)算公式如下: 當(dāng)Lift(X→Y)>1時(shí),表示X對(duì)Y有誘導(dǎo)作用,即X與Y正相關(guān),提升率越高正相關(guān)程度就越大; 當(dāng)Lift(X→Y)=1時(shí),表示X與Y相互獨(dú)立,沒有相關(guān)性; 當(dāng)Lift(X→Y)<1時(shí),表示X對(duì)Y有抑制作用,即
6、X與Y負(fù)相關(guān),提升率越高負(fù)相關(guān)程度就越大。 1.3基于改進(jìn)Apriori算法的大學(xué)成績(jī)分析模型的構(gòu)建 采用改進(jìn)后的Apriori算法,在Modeler中建立大學(xué)成績(jī)關(guān)聯(lián)規(guī)則分析模型。模型的建立流程如圖1所示?! 皵?shù)據(jù)”節(jié)點(diǎn):基于數(shù)據(jù)導(dǎo)出的格式,本文選用.xls?! 邦愋汀惫?jié)點(diǎn):讀取數(shù)據(jù)的類型,設(shè)置數(shù)據(jù)的輸入和輸出方向?! 疤畛洹惫?jié)點(diǎn):對(duì)于數(shù)據(jù)的缺失值,根據(jù)數(shù)據(jù)的格式,進(jìn)行數(shù)據(jù)填充,可以是0或NULL?! 斑^濾”節(jié)點(diǎn):過濾與分析對(duì)象不一致的字段?! 癆priori”節(jié)點(diǎn):是分析算法模型,可以直接設(shè)置最小支持
7、度和最小置信度?! ?實(shí)證研究 2.1數(shù)據(jù)的來源 本文大學(xué)生成績(jī)數(shù)據(jù)來源于某大學(xué)教務(wù)信息系統(tǒng)。通過SQL連接查詢,得到“學(xué)期”、“班級(jí)名稱”、“學(xué)號(hào)”、“課程名稱”、“課程性質(zhì)”、“課程平臺(tái)名稱”、“考試方式”、“總評(píng)成績(jī)”10個(gè)字段的2008-2012級(jí)信管專業(yè)所有學(xué)生的15684條記錄,導(dǎo)出到Excel。 2.2數(shù)據(jù)預(yù)處理 2.2.1數(shù)據(jù)清洗 首先,運(yùn)用Excel自動(dòng)篩選,將“課程性質(zhì)”為“素質(zhì)課”的記錄全部刪除;然后,對(duì)全部記錄進(jìn)行排序:主要關(guān)鍵字“學(xué)號(hào)”,第二關(guān)鍵字“課程名稱”,第三關(guān)鍵字“總評(píng)成績(jī)”
8、;再后,根據(jù)“學(xué)期”,“總評(píng)成績(jī)”保留首考成績(jī)?! ?.2.2數(shù)據(jù)離散化 初步清洗過的數(shù)據(jù)是考試課100制數(shù)值型、CET考試710分制數(shù)值型、考查課{“優(yōu)秀”,“良好”,“中等”,“及格”,“不及格”}離散型。運(yùn)用下述規(guī)則將數(shù)據(jù)進(jìn)行離散化: ?。?)課程性質(zhì):“必修課”→1、“選修課”→2; ?。?)考試方式:“考試”→1、“考