資源描述:
《大數(shù)據(jù)下數(shù)據(jù)挖掘算法綜述.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、大數(shù)據(jù)下數(shù)據(jù)挖掘算法綜述【摘要】在互聯(lián)網(wǎng)發(fā)展的早期,雖然每天也會(huì)產(chǎn)生很多新的數(shù)據(jù),但是數(shù)據(jù)量相對(duì)而言還可以用人力分析的方法來(lái)處理,并且對(duì)于固定的某個(gè)站點(diǎn)和角度去切入的話,所需要處理的數(shù)據(jù)量就更少了。隨著互聯(lián)網(wǎng)的飛速發(fā)展,每天產(chǎn)生的全新數(shù)據(jù)越來(lái)越多,并且呈指數(shù)態(tài)勢(shì)上升,大量的數(shù)據(jù)中勢(shì)必蘊(yùn)含著大量有價(jià)值的信息,如果能抽取出這些信息,那么對(duì)于企業(yè)的發(fā)展和社會(huì)的發(fā)展都將大有裨益,在這個(gè)背景之下,很多數(shù)據(jù)挖掘處理方法應(yīng)運(yùn)而生。數(shù)據(jù)挖掘即使用計(jì)算機(jī)工具從海量的數(shù)據(jù)中挖掘出有價(jià)值的模式和規(guī)律,并用這些模式和規(guī)律去預(yù)測(cè)和指導(dǎo)未
2、來(lái)的行為。在當(dāng)今的互聯(lián)網(wǎng)背景之下,最為常用的數(shù)據(jù)挖掘算法有頻繁模式挖掘、聚類分析、決策樹(shù)和貝葉斯網(wǎng)絡(luò)等,本文將從若干方面入手,條理系統(tǒng)地介紹一下各類數(shù)據(jù)挖掘算法的原理、使用方法以及適用范圍,力求為數(shù)據(jù)挖掘算法的應(yīng)用提供一個(gè)良好的參考和指導(dǎo)?!娟P(guān)鍵詞】數(shù)據(jù)挖掘;頻繁模式挖掘;聚類分析1導(dǎo)論4學(xué)海無(wú)涯1.1背景問(wèn)題.當(dāng)今互聯(lián)網(wǎng)上90%以上的數(shù)據(jù)都是在兩年內(nèi)產(chǎn)生的,并且每天產(chǎn)生的數(shù)據(jù)量仍然在以巨大的速度上升,在這樣的背景之下,對(duì)于海量的數(shù)據(jù)僅僅有接收和存儲(chǔ)的能力是不夠的,還需要對(duì)這些數(shù)據(jù)進(jìn)行有效的處理,進(jìn)而獲取能指導(dǎo)
3、未來(lái)行為的規(guī)律和模式,并提高企業(yè)、社會(huì)、組織和機(jī)構(gòu)的效益以及效率。計(jì)算機(jī)處理數(shù)據(jù)的速度很快,但是從海量數(shù)據(jù)中挖掘規(guī)律并不是簡(jiǎn)單的操作,因此需要有行之有效的數(shù)據(jù)挖掘算法來(lái)完成在數(shù)據(jù)中“沙里淘金”的過(guò)程,因此各種數(shù)據(jù)挖掘算法也就應(yīng)運(yùn)而生了。1.2研究綜述.在數(shù)據(jù)挖掘領(lǐng)域中,涌現(xiàn)了一大批各式各樣的算法,其中應(yīng)用最為廣泛的是頻繁模式挖掘、聚類分析、決策樹(shù)和隨機(jī)森林、貝葉斯網(wǎng)絡(luò)這四類,其他算法很多是基于這四大類算法的改進(jìn)和擴(kuò)展。其中頻繁模式挖掘的作用是從大量的數(shù)據(jù)(事務(wù)集)中獲取某些項(xiàng)之間的相關(guān)模式,它可以用于指導(dǎo)項(xiàng)之間
4、的關(guān)聯(lián)分析。聚類分析的作用是對(duì)于大量的數(shù)據(jù)進(jìn)行聚類操作,通過(guò)查看哪些數(shù)據(jù)聚攏在一起來(lái)對(duì)數(shù)據(jù)進(jìn)行分類和相關(guān)分析。決策樹(shù)是通過(guò)以數(shù)據(jù)中各個(gè)屬性為分類依據(jù)將數(shù)據(jù)不算分類,最終構(gòu)成一個(gè)樹(shù)的形態(tài),用于對(duì)數(shù)據(jù)進(jìn)行分類判別處理;隨機(jī)森林是使用多棵決策樹(shù)同時(shí)進(jìn)行判別和分類,最終投票選出結(jié)果。貝葉斯網(wǎng)絡(luò)同樣是一種分類算法,在已知“執(zhí)因索果”的前提條件下,通過(guò)條件概率和貝葉斯概率公式,進(jìn)行“執(zhí)果索因”的操作,是貝葉斯公式的成功運(yùn)用。1.3本文介紹.本文從頻繁模式挖掘和聚類分析的角度出發(fā),分別對(duì)這兩個(gè)算法進(jìn)行介紹和分析。每一部分算法
5、都分為三個(gè)部分,分別是算法介紹、算法過(guò)程以及算法分析。算法介紹部分主要是關(guān)于算法的主要思想,算法過(guò)程部分介紹了算法具體模型和執(zhí)行過(guò)程,在算法分析部分,本文從算法的優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景分別給出了解釋和說(shuō)明。2頻繁模式挖掘2.1算法介紹.頻繁模式挖掘的目的是在大量的數(shù)據(jù)中獲取到頻繁出現(xiàn)的模式,這些模式以規(guī)則的形式出現(xiàn),即X→Y的形式,其中X和Y都是項(xiàng)集,即若干項(xiàng)組成的集合,這個(gè)規(guī)則表示的含義是“若項(xiàng)集X出現(xiàn),則項(xiàng)集Y也可能會(huì)出現(xiàn)”,那么如果要度量這個(gè)規(guī)則是否可用,需要從兩個(gè)方面入手,即這個(gè)規(guī)則足夠常見(jiàn)以及這個(gè)規(guī)則足夠可
6、信。對(duì)于“足夠常見(jiàn)”的度量,有一個(gè)度量指標(biāo)叫做支持度,對(duì)于集合S來(lái)說(shuō),它的支持度表示為sup(s)={ti|S奐ti,ti奐T}T,其中T是全體數(shù)據(jù),以事務(wù)集的形式給出(即若干原始項(xiàng)集構(gòu)成的列表),ti是事務(wù)集中的一個(gè)事務(wù)(即一個(gè)原始項(xiàng)集)。一個(gè)集合的支持度越高,那么它就出現(xiàn)得越頻繁。對(duì)于“足夠可信”的度量,有一個(gè)度量指標(biāo)叫置信度,對(duì)于規(guī)則X→Y而言,它的置信度表示為conf(X→Y)=sup(X∪Y)sup(X),即集合X∪4學(xué)海無(wú)涯Y的支持度與集合X的支持度的比值。對(duì)于一個(gè)合格有用的規(guī)則而言,它的支持度和置
7、信度要同時(shí)滿足一定的標(biāo)準(zhǔn)才可以被接受,因此對(duì)于頻繁模式挖掘需要另外設(shè)置兩個(gè)閾值,分別是最小支持度閾值min_sup和最小置信度閾值min_conf,只有指定的規(guī)則同時(shí)滿足這兩個(gè)閾值的情況下,才可以認(rèn)為該規(guī)則是可以被接受的。對(duì)于具體的問(wèn)題,最小支持度閾值和最小置信度閾值往往不同。2.2算法過(guò)程.對(duì)于頻繁模式挖掘而言,算法的步驟一共分為兩個(gè)大部分,即頻繁模式的計(jì)算和頻繁規(guī)則的計(jì)算,下邊分別介紹這兩個(gè)部分:2.2.1頻繁模式的計(jì)算.頻繁模式也叫頻繁項(xiàng)集,即從給定的數(shù)據(jù)集中找到那些頻繁出現(xiàn)的項(xiàng)集。頻繁模式的計(jì)算方法很多
8、,如Fk-1×F1、Fk-1×Fk-1和FPTree等,這里著重介紹Fk-1×F1方法,下邊是計(jì)算過(guò)程:(1)首先計(jì)算所有的1-頻繁項(xiàng)集,并放入1-頻繁項(xiàng)集的集合中;(2)對(duì)于當(dāng)前的輪次(初始值為1),求兩個(gè)集合Fk的笛卡爾積,然后求出結(jié)果中所有的頻繁項(xiàng)集,對(duì)于(k-頻繁項(xiàng)集,放入其所屬的集合中;(3)進(jìn)入下一輪次,重復(fù)執(zhí)行2)的操作;(4)如果某一輪中沒(méi)有新的頻繁項(xiàng)集產(chǎn)生,則算法終止