基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)

基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)

ID:8149876

大小:199.50 KB

頁數(shù):6頁

時間:2018-03-07

基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)_第1頁
基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)_第2頁
基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)_第3頁
基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)_第4頁
基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)_第5頁
資源描述:

《基于hdfs的云存儲系統(tǒng)的研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、基于HDFS的云存儲系統(tǒng)的研究與實現(xiàn)宋杰[1],邢四為[1],王磊[1],陳林鋒[1](1.安徽大學計算機科學與技術學院,安徽合肥230601)摘要:針對海量數(shù)據(jù)的存儲問題,傳統(tǒng)方法一般是通過購置更多數(shù)量的服務器來提升計算和存儲能力,存在硬件成本高,存儲效率低等缺點。本文旨在通過構建基于Hadoop分布式文件系統(tǒng)的云存儲系統(tǒng),解決海量數(shù)據(jù)存儲難題。文章首先闡述了云存儲的相關理論,接著對HDFS的管理機制和MapReduce編程模型進行了分析,最后結合實際需求,設計并實現(xiàn)了一個基于Hadoop的云存儲系統(tǒng)。經(jīng)過測試,該系統(tǒng)有效的解決

2、了海量數(shù)據(jù)存儲管理問題,具有開發(fā)成本低、處理速度快、運行穩(wěn)定、易于擴展等特點。關鍵字:Hadoop;HDFS;MapReduce;云存儲;分布式系統(tǒng)中圖分類號:TP306文獻標志碼:A引言隨著計算機網(wǎng)絡技術的快速發(fā)展,信息量呈爆炸性增長,數(shù)據(jù)存儲逐漸成為制約企業(yè)發(fā)展的關鍵問題。企業(yè)現(xiàn)有系統(tǒng)的擴展能力差,難以滿足企業(yè)快速變化的業(yè)務需求[1]。傳統(tǒng)的NAS方案擴展能力有限,并且面向企業(yè)級的NAS設備價格往往非常昂貴,購買以及安裝獨立的NAS設備,將面臨著巨大的經(jīng)濟壓力和額外的維護成本。作為一種新興的商業(yè)計算模型,云計算具有動態(tài)部署的功

3、能,可以利用廉價的服務器構建企業(yè)級存儲平臺,具有更加彈性、更加安全以及更低的成本[2]。本文通過對開源云計算平臺Hadoop的研究,提出了基于Hadoop構建云存儲平臺,通過采用Linux集群技術、分布式文件系統(tǒng)和云計算框架,實現(xiàn)了海量數(shù)據(jù)存儲業(yè)務項目基金:2010安徽省自然科學基金研究項目(KJ2010B123)作者簡介:宋杰(1966-),男,副教授,研究方向為嵌入式系統(tǒng)、計算機原理與接口、生物信息學;邢四為(1988-),男,碩士生,主要研究方向為嵌入式系統(tǒng)應用。1.云存儲及其架構模式1.1云存儲相關理論云存儲概念是在云計算

4、概念上延伸和發(fā)展出來的一個新的概念。云存儲的本質是服務[3][4],云存儲通過計算機集群技術、網(wǎng)格技術和分布式文件系統(tǒng)等技術,將網(wǎng)絡中大量各種不同類型的存儲設備組織起來協(xié)同工作,提供統(tǒng)一的數(shù)據(jù)存儲服務和業(yè)務訪問功能的一種存儲模式[5]。云存儲模式比較傳統(tǒng)存儲模式具有如下特點:第一,在功能上,相比傳統(tǒng)存儲模式面向如高性能計算、事務處理應用,云存儲模式具有面向多種類型的網(wǎng)絡在線存儲服務的特點;第二,在性能上,云存儲模式具有高數(shù)據(jù)安全性、高可靠性、高效率,以及適合處理大規(guī)模用戶、網(wǎng)絡環(huán)境復雜多變等業(yè)務的特點;第三,在數(shù)據(jù)管理功能上,云存

5、儲模式需要滿足傳統(tǒng)文件訪問方式,同時能夠支持海量數(shù)據(jù)管理并提供公共服務支撐功能,以方便云存儲系統(tǒng)后臺數(shù)據(jù)的維護[6]?;谏鲜鎏攸c,云存儲模式整體架構自底向上依次是:數(shù)據(jù)存儲層、數(shù)據(jù)管理層、數(shù)據(jù)服務層以及云端應用層。數(shù)據(jù)存儲層包括底層的存儲介質部署、計算機集群搭建以及設備虛擬化過程;數(shù)據(jù)管理層實現(xiàn)用戶權限控制、數(shù)據(jù)安全等業(yè)務;數(shù)據(jù)服務層實現(xiàn)數(shù)據(jù)存儲、共享和備份業(yè)務邏輯;云端應用層實現(xiàn)用戶的定制業(yè)務[7]。1.1Hadoop框架的工作機制Hadoop為應用程序透明的提供了一組穩(wěn)定可靠的接口。Hadoop框架的主要組成部分是Hadoo

6、p分布式文件系統(tǒng)(HDFS)和MapReduce的實現(xiàn)[8]。HDFS采用Master/Slave架構,一個HDFS集群由一個NameNode節(jié)點和一組DataNode節(jié)點組成。NameNode是一個中心服務器,負責管理文件系統(tǒng)的名字空間(NameSpace)以及客戶端對文件的訪問。在集群系統(tǒng)中,一般在一個節(jié)點上運行一個DataNode,負責管理它所在節(jié)點上的數(shù)據(jù)存儲,并負責處理文件系統(tǒng)客戶端的讀寫請求,在NameNode的統(tǒng)一調度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復制。Hadoop還實現(xiàn)了Google的MapReduce分布式計算模型,

7、MapReduce把應用程序的總任務分割成許多子任務,每個子任務可以在任何集群節(jié)點(DataNode節(jié)點,通常也作為計算節(jié)點)上并行處理。HDFS創(chuàng)建了多份數(shù)據(jù)塊(datablocks)的副本(Replicas),以保證各個子任務節(jié)點計算的可靠性(Reliability)。由于采用了分布式文件系統(tǒng)和MapReduce模型,因此Hadoop框架具有高容錯性及對數(shù)據(jù)讀寫的高吞吐率,能自動處理失敗節(jié)點。1.2HDFS的管理機制HDFS(HadoopDistributedFileSystem)是一個運行在普通硬件之上的分布式文件系統(tǒng)。集群

8、包括NameNode、SecondaryNameNode和DataNode三個部分[9]。一般來說,集群中有一臺作為NameNode,負責整個系統(tǒng)元數(shù)據(jù)的存儲記錄和對整個系統(tǒng)的控制;一臺機器作為SecondaryNameNode,負責備份NameN

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。