資源描述:
《基于apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析 摘要高校在長期的教學(xué)管理過程中積累了海量的學(xué)生成績信息,但是普遍的對于成績的分析處理工作還停留在簡單的查詢、分析和統(tǒng)計階段。本文利用關(guān)聯(lián)規(guī)則Apriori算法,以學(xué)生成績數(shù)據(jù)為研究對象,挖掘課程之間的相互關(guān)系,為科學(xué)的制定人才培養(yǎng)方案,提高高校人才培養(yǎng)質(zhì)量進(jìn)行了積極地探索與研究【關(guān)鍵詞】成績分析關(guān)聯(lián)規(guī)則Apriori算法1數(shù)據(jù)挖掘數(shù)據(jù)挖掘其實就是從大量、有噪聲、隨機(jī)性、不完全、模糊的應(yīng)用數(shù)據(jù)中,提取并隱藏在應(yīng)用數(shù)據(jù)中心、人們不知道但是有價值的信息和知識的過程,通過數(shù)據(jù)挖掘系統(tǒng)能夠自動分析原有數(shù)據(jù),并作出
2、歸納總結(jié),挖掘出數(shù)據(jù)原有的模式,為決策者提供參考價。數(shù)據(jù)挖掘包括數(shù)據(jù)倉庫、預(yù)處理、分類聚類、關(guān)聯(lián)分析等。關(guān)聯(lián)分析是數(shù)據(jù)挖掘最貼近我們生活的一部分了,登錄亞馬遜網(wǎng)站,當(dāng)我們挑選一本《Android4高級編程》時,網(wǎng)站會不失時機(jī)的列出你可能還會感興趣的書籍,如Android游戲開發(fā)、Cocos2d-x引擎等,讓我們的購物車變得更充實,而錢包又空了些數(shù)據(jù)挖掘是一門綜合了統(tǒng)計學(xué)、信息技術(shù)、人工智能等多項技術(shù)。其中數(shù)據(jù)挖掘聚類和決策樹則是機(jī)器學(xué)習(xí)理論知識。關(guān)聯(lián)性規(guī)則挖掘技術(shù)對數(shù)據(jù)挖掘技術(shù)具有非常重大的意義,它進(jìn)一步擴(kuò)展了數(shù)據(jù)挖掘的研究,到如今已經(jīng)成為了數(shù)據(jù)挖掘領(lǐng)域中的一個
3、分支。關(guān)聯(lián)性規(guī)則不僅體現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián),更為重要的是關(guān)聯(lián)系規(guī)則的表達(dá)簡潔,便于理解,近年來已經(jīng)成為數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域的熱點話題2關(guān)聯(lián)規(guī)則Apriori算法Apriori算法是關(guān)聯(lián)規(guī)則算法之一。Apriori算法的第一遍僅僅計算每個項目的具體指的數(shù)量,以確定大型1項集。隨后的遍歷,第k次遍歷,包括兩個階段。首先,使用在第(k-1)次遍歷中找到的大項集Lk-1和Apriori-gen函數(shù)產(chǎn)生候選項集。接著掃描數(shù)據(jù)庫,計算中候選的支持度,從而得到中的支持度不小于最小支持度的k階大項集。重復(fù)以上步驟,直到某一階的大項集為空時,算法停止Apriori算法指導(dǎo)我們,如果要
4、發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則,就必須先找到頻繁集。所謂頻繁集,即支持度大于最小支持度的項集。如何得到數(shù)據(jù)集合D中的所有頻繁集呢?用一種非常原始的辦法來分析,就是對于數(shù)據(jù)集D,遍歷每一條記錄T,可以得到T的所有子集,然后計算每一個子集的支持度,最后再將結(jié)果與最小支持度比較。我們暫且不管數(shù)據(jù)集D中有多少條記錄,就說每一條記錄T的子集個數(shù),{1,2,3}的子集有{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3},即如果記錄T中含有n項,那么它的子集個數(shù)是-1。計算量是非常大的,很明顯這種方法是不可取的因此,Aprior算法提出了一個逐層搜索的方法,如何逐層搜
5、索呢?包含兩個步驟:(1)自連接獲取候選集。第一輪的候選集就是數(shù)據(jù)集D中的項,而其他輪次的候選集則是由前一輪次頻繁集自連接得到(頻繁集由候選集剪枝得到)(2)對于候選集進(jìn)行剪枝。如何剪枝呢?候選集的每一條記錄T,如果它的支持度小于最小支持度,那么就會被剪掉;此外,如果一條記錄T,它的子集有不是頻繁集的,也會被剪掉算法的終止條件是,如果自連接得到的已經(jīng)不再是頻繁集,那么取最后一次得到的頻繁集作為結(jié)果3教務(wù)管理系統(tǒng)中的學(xué)生成績數(shù)據(jù)挖掘?qū)W生的考試成績不僅體現(xiàn)了學(xué)生階段性的學(xué)習(xí)效果,而且是檢驗學(xué)校教學(xué)效果的重要依據(jù)。為了提高學(xué)校教學(xué)質(zhì)量,所以必須對學(xué)生的考試成績進(jìn)行數(shù)據(jù)
6、挖掘,挖掘出學(xué)生考試成績背后的關(guān)鍵性因素,可以從學(xué)生的性別、專業(yè)、課程、入學(xué)成績、老師對學(xué)生的考核評價等因素為切入點,分析這些因素對學(xué)生成績產(chǎn)生的影響,并找出各個要素之間的潛在規(guī)律,從而分析出影響學(xué)生考試成績的主要因素,并預(yù)測學(xué)生哪一部分成績還需要進(jìn)一步加強(qiáng)。采用關(guān)聯(lián)系規(guī)則對學(xué)生成績進(jìn)行數(shù)據(jù)挖掘,通過數(shù)據(jù)倉庫查看各個專業(yè)學(xué)生課程成績單,并分析各個課程與其他課程之間的關(guān)聯(lián)和影響,從而制定專業(yè)的人才培養(yǎng)計劃。在制定計劃的時候,依次從公共課、專業(yè)課到拓展課等方面設(shè)置相關(guān)課程。不同的專業(yè)開設(shè)課程的時間不同,開課時間次序?qū)W(xué)生學(xué)習(xí)后續(xù)課程會產(chǎn)生一定的影響。但是過去很多高校
7、在課程安排上比較隨意,通常都是高校教務(wù)處的人根據(jù)過去的教學(xué)經(jīng)驗和主觀認(rèn)知,安排學(xué)生的課程時間。然而每一門課程都有它的特點,比如體育課學(xué)生可能需要大量的運動,消耗的體能比較多,運動過后學(xué)生無論精神上還是身體上都比較疲憊,這個時候上課的效果就不太好,所以在安排課程的時候,盡量將體育課安排到下午的時間段,這樣不會學(xué)校其他課程的教學(xué)效果。通過關(guān)聯(lián)性分析,找出每一門課程的影響因素,合理安排課程的先后順序,為人才方案制定者提供科學(xué)的決策依據(jù)我們從教務(wù)管理系統(tǒng)中選取1000名軟件技術(shù)專業(yè)學(xué)生的成績,根據(jù)學(xué)生成績進(jìn)行數(shù)據(jù)挖掘,部分成績數(shù)據(jù)如表1所示根據(jù)學(xué)生考試成績表,分析學(xué)生不
8、及格科目之間的關(guān)系,60