第一章緒論第一節(jié)研究目的及意義隨著現(xiàn)代計算機科學的飛速發(fā)展以及互聯(lián)網(wǎng)的普及,世界已經(jīng)進入了一個高度信息化的時代,各式各樣數(shù)據(jù)量龐大的信息充斥在人們周圍。在信息量越來越大的數(shù)據(jù)面前,傳統(tǒng)基于數(shù)據(jù)庫存儲的解決">
基于hadoop云計算平臺的k

基于hadoop云計算平臺的k

ID:22281336

大小:52.00 KB

頁數(shù):5頁

時間:2018-10-28

基于hadoop云計算平臺的k_第1頁
基于hadoop云計算平臺的k_第2頁
基于hadoop云計算平臺的k_第3頁
基于hadoop云計算平臺的k_第4頁
基于hadoop云計算平臺的k_第5頁
資源描述:

《基于hadoop云計算平臺的k》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、基于Hadoop云計算平臺的K-->第一章緒論第一節(jié)研究目的及意義隨著現(xiàn)代計算機科學的飛速發(fā)展以及互聯(lián)網(wǎng)的普及,世界已經(jīng)進入了一個高度信息化的時代,各式各樣數(shù)據(jù)量龐大的信息充斥在人們周圍。在信息量越來越大的數(shù)據(jù)面前,傳統(tǒng)基于數(shù)據(jù)庫存儲的解決方案顯得越來越捉襟見肘[1]。如何利用現(xiàn)代計算機的高計算能力,在無人工監(jiān)督情況下自動地從大數(shù)據(jù)中提取出潛在的、對人們生產(chǎn)生活有價值的信息就成為了一個迫在眉睫的問題[2]。聚類分析是一種根據(jù)不同規(guī)則將輸入的原始數(shù)據(jù)集進行分類的方法[3]。想要從數(shù)據(jù)中提取信息,首要任務(wù)就是將其分類處理,因此聚類分析是數(shù)據(jù)挖掘過程的第一個步驟。隨著移動互聯(lián)網(wǎng)、物聯(lián)

2、網(wǎng)以及人工智能的發(fā)展,apReduce等[10-12]。作為世界范圍內(nèi)首次公布的關(guān)于分布式云計算系統(tǒng)架構(gòu)搭建方案的范本,Google提出的三駕馬車至今都有著非常大的影響力[13]。...............第二章相關(guān)技術(shù)研究與分析第一節(jié)Hadoop云計算平臺在各類大數(shù)據(jù)處理框架之中,Hadoop最富盛名,高效、可靠、可伸縮是它最顯著的特點,也因此被企業(yè)及開發(fā)者廣泛推崇與研究,它常被用來對大數(shù)據(jù)進行儲存、處理以及分析等操作。...............第二節(jié)系統(tǒng)架構(gòu)概述Hadoop最初由Apache基金會投入開發(fā),它的基本框架遵循了Google早前公布的三大核心組件,即轟動

3、一時的GFS、MapReduce以及BigTable。它的誕生使得用戶可以利用現(xiàn)代大規(guī)模的集群取代傳統(tǒng)的單機服務(wù)器進行高速存儲和運算操作,這也為開發(fā)分布式大數(shù)據(jù)處理程序奠定了堅實的基礎(chǔ)。Hadoop有許多特點,例如效率高、可靠性強、容錯能力好以及部署運維成本低等。下面對其特點詳細描述。...............第三章聚類分析系統(tǒng)的設(shè)計與實現(xiàn)............................19第一節(jié)系統(tǒng)簡介...........................................19第二節(jié)底層環(huán)境搭建............................

4、............21第四章K-Means并行算法的改進.............................32第一節(jié)傳統(tǒng)K-Means算法...................................32第二節(jié)K-Means算法改進方案................................34第四章K-Means并行算法的改進第一節(jié)、傳統(tǒng)K-Means算法作為最典型的聚類算法之一,K-Means算法已經(jīng)問世了半個世紀。作為典型的基于樣本距離計算類簇的算法,K-Means算法的效率相對較高,因此無論在理論研究還是實際生產(chǎn)中都被大規(guī)模的使用,具有很高

5、的地位及影響力。算法的改進研究也有許多,例如基于隨機采樣原理的RandomK-Means算法、增量處理原始數(shù)據(jù)集OnlineK-Means算法等。K-Means算法思路:首先需要用戶確定最終聚類結(jié)果的簇數(shù)目(即K值),然后在原始數(shù)據(jù)集中隨機選擇數(shù)量為K的初始類簇中心。之后就是反復(fù)迭代的過程,需要計算全量的數(shù)據(jù)對象到各個類簇中心的間距,并依據(jù)間距將它們合并到各自的類簇中。待所有數(shù)據(jù)點歸類后,計算每個類簇內(nèi)對象的平均間距,并用新的類簇中心替換掉原始中心。這個迭代過程一直持續(xù)直到目標函數(shù)收斂截止。而目標函數(shù)的收斂標志則是在一次分類結(jié)束后,重新計算新的類簇中心并沒有發(fā)生變化,則算法結(jié)束

6、。結(jié)論本文通過對分布式云計算平臺和聚類算法在國內(nèi)外的發(fā)展現(xiàn)狀進行深入研究分析,設(shè)計并實現(xiàn)了基于Hadoop平臺的聚類分析系統(tǒng),并使用該系統(tǒng)對K-Means算法進行了并行化改進。通過本課題的研究,得出如下結(jié)論:聚類分析系統(tǒng)方面:1.系統(tǒng)的分層設(shè)計使得各層之間對實現(xiàn)進行隔離,可以透明地修改各層內(nèi)部具體實現(xiàn),有效的提高了系統(tǒng)的可維護能力。在實際測試過程中,用戶可以通過系統(tǒng)快速地配置實驗環(huán)境,同時系統(tǒng)能夠提供穩(wěn)定的并行計算環(huán)境。2.基于模塊化設(shè)計的中間邏輯層,在修改系統(tǒng)功能時可以高效的復(fù)用原有代碼,有效的加快了系統(tǒng)開發(fā)、調(diào)試的速度?;赗EST的接口設(shè)計能夠穩(wěn)定地處理eans并行算法方

7、面:1.在本課題設(shè)計的聚類分析系統(tǒng)提供的云計算環(huán)境下,改進的并行隨機采樣較于傳統(tǒng)的初始化采樣方法在速率上有顯著提升。通過并行隨機采樣和預(yù)處理方法的改進,使得算法正確率有所提升。同時K-Means并行算法具有更好的收斂性。2.當數(shù)據(jù)量較大時,改進的K-Means并行算法與傳統(tǒng)K-Means算法相比,運行速度有很大提升。并且改進算法的加速比隨著機器節(jié)點增加能夠顯著的提高。綜上,本文設(shè)計的基于Hadoop分布式云計算平臺的聚類分析系統(tǒng)能夠提供高效、穩(wěn)定、可配置的聚類分析服務(wù)。改進的K-Means并

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。