資源描述:
《基于分布式計算的svm算法優(yōu)化》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、代號10701學(xué)號1103121549分類號TP391密級公開題(中、英文)目基于分布式計算的SVM算法優(yōu)化OptimizationofSVMAlgorithmBasedonDistributedComputing作者姓名郭欣欣指導(dǎo)教師姓名、職務(wù)王凱東副教授學(xué)科門類工學(xué)學(xué)科、專業(yè)計算機系統(tǒng)結(jié)構(gòu)提交論文日期二○一四年二月萬方數(shù)據(jù)西安電子科技大學(xué)學(xué)位論文獨創(chuàng)性(或創(chuàng)新性)聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所
2、羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實之處,本人承擔(dān)一切的法律責(zé)任。本人簽名:日期:西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)校可以公布論文的全部
3、或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。同時本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的文章一律署名單位為西安電子科技大學(xué)。本人簽名:導(dǎo)師簽名:日期:日期:萬方數(shù)據(jù)摘要摘要隨著互聯(lián)網(wǎng)技術(shù)及移動互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)呈指數(shù)型增長,而如何很好的利用這些數(shù)據(jù),成為大家關(guān)注的焦點,從而促進了數(shù)據(jù)挖掘的快速發(fā)展。而在數(shù)據(jù)挖掘的領(lǐng)域,支持向量機(SupportVectorMachine)是一種比較高效可信的數(shù)據(jù)分類算法,因其擁有較少的過度擬合、對于特征向量維數(shù)災(zāi)難影響不明顯等優(yōu)點而被廣泛應(yīng)用。但是傳統(tǒng)的
4、SVM本身并不適用于海量數(shù)據(jù)的處理,當(dāng)處理海量數(shù)據(jù)時,其算法的空間和時間復(fù)雜度都比較高,導(dǎo)致訓(xùn)練特別慢,提升了訓(xùn)練得到訓(xùn)練模型的代價。為解決這些問題,對傳統(tǒng)的SVM算法進行分布式并行化處理是一種有效的方法。本文對SVM算法的分布式并行化進行探討。經(jīng)過分析,CascadeSVM作為一種分布式SVM算法,在保證準(zhǔn)確率的情況下,能夠有效的減少訓(xùn)練時間。但是,本文發(fā)現(xiàn)CascadeSVM算法中存在改進的空間,每次迭代的訓(xùn)練層級固定,不能靈活的適應(yīng)分布式環(huán)境。于是在CascadeSVM的基礎(chǔ)上提出了一種新型分布式SVM算法???/p>
5、慮到Hadoop平臺是目前最流行的分布式并行計算平臺,我們將CascadeSVM和新型分布式SVM算法的思想與Hadoop平臺技術(shù)相結(jié)合,得到基于Hadoop平臺的算法實現(xiàn)。為了驗證分布式SVM算法能否達到優(yōu)化的目的,我們搭建了小型的分布式集群,使用標(biāo)準(zhǔn)的covtype.binary數(shù)據(jù)集作為實驗數(shù)據(jù)集,對傳統(tǒng)的單機SVM算法、CascadeSVM及新型分布式SVM算法,主要從訓(xùn)練時間及預(yù)測準(zhǔn)確率上進行比較。結(jié)果表明對于大規(guī)模數(shù)據(jù),在保證一定的預(yù)測準(zhǔn)確率的前提下,分布式SVM算法訓(xùn)練效率要明顯優(yōu)于單機SVM,而在分布
6、式算法中,新型分布式SVM算法要略優(yōu)于CascadeSVM。關(guān)鍵字:支持向量機CascadeSVM機器學(xué)習(xí)分布式計算Hadoop萬方數(shù)據(jù)萬方數(shù)據(jù)AbstractAbstractWiththerapiddevelopmentofInternettechnologyandMobileInternet,thedataonthenetworkgrewexponentially,andhowtomakegooduseofthesedatahasbecomethefocus,soastopromotetherapiddevelo
7、pmentofdatamining.Inthefieldofdatamining,SupportVectorMachineisanefficientandreliabledataclassificationalgorithm.Withsomeadvantages,suchas,happeningover-fittingrarely,havingnotobviousdimensiondisastereffect,etc,itiswidelyappliced.However,traditionalSVMcouldnotp
8、rocessmassivedatawell,forwhenprocessinghugeamountsofdata,spaceandtimecomplexityofthealgorithmisrelativelyhigh.Thismadethetrainingparticularlyslow,andthecostofgettingthetrain