資源描述:
《基于機(jī)器學(xué)習(xí)算法的p2p流量分類研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、·湖南工業(yè)大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。作者簽名:日期:年月日湖南工業(yè)大學(xué)論文版權(quán)使用授權(quán)書本人了解湖南工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留學(xué)位論文,允許學(xué)位論文被查閱和借閱;學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以采用復(fù)印、縮印或其他手段保存學(xué)位論文;學(xué)??筛鶕?jù)國
2、家或湖南省有關(guān)部門規(guī)定送交學(xué)位論文。作者簽名:導(dǎo)師簽名:日期:年月日···-······摘要P2P應(yīng)用的快速增長,帶來網(wǎng)絡(luò)擁塞、大量消費(fèi)網(wǎng)絡(luò)帶寬等諸多問題,而傳統(tǒng)的基于端口與有效載荷的網(wǎng)絡(luò)流量分類方法存在著很多缺陷,研究按照5元組(源IP、源Port、目的IP、目的Prot及IP協(xié)議)的定義,將P2P報(bào)文分成雙向TCP或UDP流,抽取獨(dú)立于端口、協(xié)議和有效載荷的原始數(shù)據(jù)報(bào)文的信息作為P2P流的特征,形成特征向量,用特征向量表示流,流的分類類別為P2P的協(xié)議類型。用提出的基于ReliefF-CFS的方法選擇流的特征子集,該方法結(jié)合ReliefF和基
3、于相關(guān)性(CFS)兩種特征選擇方法,產(chǎn)生適合于分類P2P流的特征子集。首先利用ReliefF特征選擇方法把候選特征按與類別相關(guān)性的大小排序,通過設(shè)定的閾值選擇與類別相關(guān)性大的特征子集作為CFS選擇方法的初始集,然后利用CFS結(jié)合正向搜索得到最終的較優(yōu)特征子集。研究使用C4.5決策樹、支持向量機(jī)(SVM)、K近鄰(KNN)三種機(jī)器學(xué)習(xí)算法構(gòu)建P2P流量分類器,利用獲取的原始數(shù)據(jù)尋找分類器的最優(yōu)分類參數(shù),主要采用分類準(zhǔn)確率和分類時(shí)間標(biāo)準(zhǔn)進(jìn)行評(píng)估;并研究統(tǒng)計(jì)原始數(shù)據(jù)報(bào)文的部分信息分類P2P流,實(shí)驗(yàn)中分別統(tǒng)計(jì)流的雙向50、100、150、200個(gè)報(bào)文信息
4、,結(jié)果顯示不僅減少了特征統(tǒng)計(jì)計(jì)算的復(fù)雜度和分類的時(shí)間,而且有更高的分類準(zhǔn)確率。為了讓研究的成果能有實(shí)際的應(yīng)用價(jià)值,通過構(gòu)建相應(yīng)的硬件、軟件環(huán)境,對(duì)P2P流量的在線實(shí)時(shí)分類作了初步的研究。設(shè)計(jì)并實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)算法的P2P流量分類原型系統(tǒng),系統(tǒng)分類分類器構(gòu)建和分類兩個(gè)階段,每個(gè)階段有數(shù)據(jù)采集、數(shù)據(jù)解析、流的合成以及分類四個(gè)模塊。關(guān)鍵字P2P,流量分類,特征選擇,機(jī)器學(xué)習(xí)I···-······ABSTRACTMoreandmoreP2Papplicationsconsumenetworkbandwidthandgeneratenetworkcong
5、estion.ThetraditionalP2Ptrafficclassificationmethodsbasedonportandpayloadhavemanyobjections.Accordingtothefive-tupledefinition(sourceIPaddress,sourceportnumber,destinationIPaddress,destinationportnumberandIPprotocol),thepacketsareclassifiedintobidirectionalTCPorUDPflow.Theflo
6、wattributesirrelevanttoprotocolandportsareextractedtobecharacteristicvectorthatisusedtorepresentthetraffic.ThetrafficclassificationtypeistheprotocoltypeofP2P.ThetrafficcharacteristicsubsetisdecidedbyusingtheReliefF-CFS
method,whichcombineswithReliefFandCFStogeneratecharacteri
7、stic
subsetsforclassifyingtheP2Ptraffic.Thecandidatecharacteristicsarefirst
orderedbythedependencyusingtheReliefFmethod,ofwhichlargerthan
thresholdissetintotheoriginalsetforCFSmethod,thenthefinaloptimal
characteristicsetisdecidedbyusingCFSandforwardsearch.TheP2Ptrafficclassif
8、ierisconstructedusingC4.5decisiontree,SVM
andKNN.Andtheoptimalparame