資源描述:
《應(yīng)用數(shù)據(jù)挖掘的apriori關(guān)聯(lián)規(guī)則技術(shù)分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、應(yīng)用數(shù)據(jù)挖掘的apriori關(guān)聯(lián)規(guī)則技術(shù)分析交通事故唐豐飛(1.北京交通大學(xué)軟件學(xué)院北京100044)E-mail:tangffei@163.com摘要:隨著我國(guó)道路交通事業(yè)的飛速發(fā)展,交通事故發(fā)生率呈上升趨勢(shì)。由于交通事故的發(fā)生不僅造成大量人員傷亡,給無(wú)數(shù)家庭帶來(lái)不幸,而且嚴(yán)重影響著經(jīng)濟(jì)發(fā)展和社會(huì)穩(wěn)定,已引起了各級(jí)政府的高度重視和關(guān)注。人們?cè)谡J(rèn)為交通事故的發(fā)生具有一定規(guī)律性,而造成事故的原因又具有復(fù)雜性和多樣性,本文根據(jù)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則理論,利用apriori關(guān)聯(lián)規(guī)則挖掘算法,從記錄交通事故的
2、數(shù)據(jù)庫(kù)屮發(fā)現(xiàn)潛在的、有價(jià)值、有聯(lián)系的規(guī)律,用以指導(dǎo)交通管理部門找山道路黑點(diǎn),并做出決策,杜絕事故隱患、減少事故發(fā)生,保障人們的生命和財(cái)產(chǎn)的安企。關(guān)鍵詞:交通事故;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;挖掘算法隨著我國(guó)道路交通祟業(yè)的飛速發(fā)展,交通事故猛增已成了交通管理所面臨的嚴(yán)重問(wèn)題。汽車交通作為人類文明的標(biāo)志,徹欣地改變了人類發(fā)展的歷史進(jìn)程,給人類以舒適和便捷等正而效應(yīng)的同時(shí)也給人類生活帶來(lái)一些負(fù)而效應(yīng),交通事故就是其中最嚴(yán)重、危害最大的負(fù)面效應(yīng)之一。近年來(lái)在我國(guó)機(jī)動(dòng)車數(shù)量快速增長(zhǎng)的情況下,交通事故及傷亡人數(shù)呈不斷上升趨
3、勢(shì)。因此結(jié)合數(shù)據(jù)挖掘技術(shù)研究我國(guó)道路交通事故,從記錄交通事故的數(shù)裾庫(kù)屮發(fā)現(xiàn)潛在的、有價(jià)值、有聯(lián)系的規(guī)律,分析其成因具有非常重要的意義第2章關(guān)聯(lián)規(guī)則的理論1關(guān)聯(lián)規(guī)則的基本概念:設(shè)I={il,i2,..,im}是項(xiàng)集,其中ik(k=l,2,…,m)可以是購(gòu)物籃中的物品,也可以是保險(xiǎn)公司的顧客。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是事務(wù)集,其中每個(gè)事務(wù)T是項(xiàng)集,使得TÍI。設(shè)A是一個(gè)項(xiàng)集,且AÍTo關(guān)聯(lián)規(guī)則是如下形式的邏輯蘊(yùn)涵:AÞB,AÌI,AÌI,且AnB
4、=F。關(guān)聯(lián)規(guī)則具有如下兩個(gè)重要的屬性:支持度:P(AUB),即A和B這兩個(gè)項(xiàng)集在事務(wù)集D屮同時(shí)出現(xiàn)的概率。置信度:P(BIA),即在出現(xiàn)項(xiàng)集A的事務(wù)集D中,項(xiàng)集B也同時(shí)出現(xiàn)的概率。同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強(qiáng)規(guī)則。給定一個(gè)事務(wù)集I),挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則,也就是產(chǎn)生強(qiáng)規(guī)則的問(wèn)題。2關(guān)聯(lián)規(guī)則的分類:1)基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則W以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示丫這些
5、變量之間的關(guān)系。數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則屮也可以包含種類變量。2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層關(guān)聯(lián)規(guī)則中,所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個(gè)不同的層次的。在多層關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性己經(jīng)進(jìn)行了充分的考慮。3)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。在單維關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)裾的一個(gè)維,如時(shí)間。在多維關(guān)聯(lián)規(guī)則屮
6、,要處理的數(shù)據(jù)將會(huì)涉及多個(gè)維,如時(shí)間,地點(diǎn),產(chǎn)品。3關(guān)聯(lián)規(guī)則的相關(guān)算法:關(guān)聯(lián)規(guī)則的算法的思想,首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。挖掘關(guān)聯(lián)規(guī)則的總體性能由第一步?jīng)Q定,第二步相對(duì)容易實(shí)現(xiàn)。下面看看兒個(gè)經(jīng)典的算法。1)Apriori核心算法分析為了生成所有頻集,使用了遞推的方法。其核心思想簡(jiǎn)要描述如卜(1)LI={large1-itemsets};(2)for(k=2;Lk-l&supl;F;k++)dob
7、egin(3)Ck=apriori-gen(Lk-l);//新的候選集(4)foralltransactionstÎDdobegin(5)Ct=subset(Ck,t);//事務(wù)t中包含的候選集(6)forallcandidatesc&Tcirc;Ctdo(7)c.count++;(8)end(9)Lk={c&lcirc;Ck
8、c.count&s叩3;minsup}(10)end(11)Answer=UkLk;首先產(chǎn)生頻繁1-項(xiàng)集LI,然后是頻繁2-項(xiàng)集L2,直到有某個(gè)r值使得Lr為空,這時(shí)
9、算法停止。這里在第k次循環(huán)中,過(guò)程先產(chǎn)生候選k-項(xiàng)集的集合Ck,Ck中的每一個(gè)項(xiàng)集是對(duì)兩個(gè)只有一個(gè)項(xiàng)不同的屬于Lk-1的頻集做一個(gè)(k-2)-連接來(lái)產(chǎn)生的。Ck屮的項(xiàng)集是用來(lái)產(chǎn)生頻集的候選集,最后的頻集Lk必須是Ck的一個(gè)子集。Ck中的每個(gè)元素需在交易數(shù)據(jù)庫(kù)屮進(jìn)行驗(yàn)證來(lái)決定其是否加入Lk,這里的驗(yàn)證過(guò)程是算法性能的一個(gè)瓶頸。這個(gè)方法要求多次掃描可能很大的交易數(shù)據(jù)庫(kù),即如果頻集最多包含10個(gè)項(xiàng),那么就需要掃描交易數(shù)據(jù)庫(kù)10遍,這需要很大的I/