資源描述:
《華工srp結(jié)題報(bào)告模板》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、華工srp結(jié)題報(bào)告模板 篇一:(格式)SRP結(jié)題報(bào)告書格式 ****大學(xué) “學(xué)生研究計(jì)劃”(SRP)項(xiàng)目結(jié)題報(bào)告書 項(xiàng)目編號(hào): 項(xiàng)目名稱: 起止時(shí)間: 學(xué)生姓名: 學(xué)院專業(yè): 聯(lián)系電話: 電子信箱: 指導(dǎo)教師: 華南理工大學(xué)廣州學(xué)院教務(wù)處制 年月日 篇二:SRP結(jié)題報(bào)告——唐偉志 SRP結(jié)題報(bào)告 基于分布式存儲(chǔ)的實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng) 1.緒論 研究背景 在信息技術(shù)不斷發(fā)展下,人們認(rèn)識(shí)到了數(shù)據(jù)本身的價(jià)值,“大數(shù)據(jù)”在商業(yè)應(yīng)用中取得了巨大的成功。在智能信息處理的研究中,我們主要通過(guò)算法對(duì)
2、數(shù)據(jù)進(jìn)行理解和感知,在研究過(guò)程中會(huì)采集和產(chǎn)生大量數(shù)據(jù),如聲音、視頻、算法結(jié)果等,以往這些數(shù)據(jù)大部分會(huì)被作為無(wú)用數(shù)據(jù)丟棄,只保留部分實(shí)驗(yàn)結(jié)果。本項(xiàng)目擬使用當(dāng)前非關(guān)系數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)等技術(shù),建立智能信息處理中實(shí)驗(yàn)產(chǎn)生數(shù)據(jù)的采集及存儲(chǔ)平臺(tái),將數(shù)據(jù)存儲(chǔ),以便后續(xù)更強(qiáng)大的算法和計(jì)算資源進(jìn)行分析處理。 學(xué)生參與研究主要內(nèi)容 開發(fā)基于分布式存儲(chǔ)的實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng),用于采集和存儲(chǔ)各類試驗(yàn)中產(chǎn)生的數(shù)據(jù),方便隨時(shí)獲取和查閱,同時(shí)為后續(xù)更大規(guī)模的算法統(tǒng)計(jì)和處理做準(zhǔn)備,詳細(xì)包括: ?。?)、智能信息處理相關(guān)研究中各個(gè)環(huán)節(jié)數(shù)據(jù)的高效
3、、方便的采集; ?。?)、采集到數(shù)據(jù)的智能化處理,如標(biāo)記、分類、壓縮等; ?。?)、搭建分布式存儲(chǔ)系統(tǒng),用于存儲(chǔ)相關(guān)數(shù)據(jù),并盡量能適應(yīng)未來(lái)大規(guī)模并行算法的一些需求特點(diǎn); ?。?)、開發(fā)Web應(yīng)用,能進(jìn)行方便的數(shù)據(jù)查閱和獲取?! ☆A(yù)期目標(biāo) 搭建基于分布式存儲(chǔ)的實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng)的小規(guī)模示范系統(tǒng)。 2.分布式文件系統(tǒng)概述 分布式文件系統(tǒng)簡(jiǎn)介 分布式文件系統(tǒng)(DistributedFileSystem)是一種允許文件通過(guò)網(wǎng)絡(luò)在多臺(tái)主機(jī)上分享的文件系統(tǒng),可讓多機(jī)器上的多用戶分享文件和存儲(chǔ)空間?! ≡谶@樣的文件系統(tǒng)中,客
4、戶端并非直接訪問(wèn)底層的數(shù)據(jù)存儲(chǔ)區(qū)塊,而是通過(guò)網(wǎng)絡(luò),以特定的通信協(xié)議和服務(wù)器溝通。借由通信協(xié)議的設(shè)計(jì),可以讓客戶端和服務(wù)器端都能根據(jù)訪問(wèn)控制列表或是授權(quán),來(lái)限制對(duì)于文件系統(tǒng)的訪問(wèn)?! ∠鄬?duì)地,在一個(gè)分享的磁盤文件系統(tǒng)中,所有節(jié)點(diǎn)對(duì)數(shù)據(jù)存儲(chǔ)區(qū)塊都有相同的訪問(wèn)權(quán),在這樣的系統(tǒng)中,訪問(wèn)權(quán)限就必須由客戶端程序來(lái)控制?! 》植际轿募到y(tǒng)可以包含的功能有:透通的數(shù)據(jù)復(fù)制與容錯(cuò)。也就是說(shuō),即使系統(tǒng)中有一小部份的節(jié)點(diǎn)脫機(jī),整體來(lái)說(shuō)系統(tǒng)仍然可以持續(xù)運(yùn)作而不會(huì)有數(shù)據(jù)損失?! 【C上所述,分布式文件系統(tǒng)所擁有的透通的數(shù)據(jù)復(fù)制以及可靠的容錯(cuò)性,十分適
5、合用于實(shí)驗(yàn)數(shù)據(jù)采集和管理系統(tǒng)?! 》植际轿募到y(tǒng)的選擇 當(dāng)前比較流行的分布式文件系統(tǒng)包括: Lustre:lustre是一個(gè)大規(guī)模的、安全可靠的,具備高可用性的集群文件系統(tǒng),它是由SUN公司開發(fā)和維護(hù)。該項(xiàng)目主要的目的就是開發(fā)下一代的集群文件系統(tǒng),可以支持超過(guò)10000個(gè)節(jié)點(diǎn),數(shù)以PB的數(shù)量存儲(chǔ)系統(tǒng)?! adoop:hadoop并不僅僅是一個(gè)用于存儲(chǔ)的分布式文件系統(tǒng),而是設(shè)計(jì)用來(lái)在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的框架?! FS:網(wǎng)絡(luò)文件系統(tǒng)是FreeBSD支持的文件系統(tǒng)中的一種,也被稱為NFS。NFS
6、允許一個(gè)系統(tǒng)在網(wǎng)絡(luò)上與它人共享目錄和文件。通過(guò)使用NFS,用戶和程序可以象訪問(wèn)本地文件一樣訪問(wèn)遠(yuǎn)端系統(tǒng)上的文件?! ≡趯?shí)際搭建中,主要考慮使用ApacheHadoop,Hadoop可以配合云計(jì)算處理OpenStack使用,開源,文檔資料比較豐富,現(xiàn)在已經(jīng)廣泛投入生產(chǎn)使用,也能夠滿足項(xiàng)目后續(xù)更大規(guī)模的算法統(tǒng)計(jì)和處理的要求?! adoop簡(jiǎn)述及安裝 關(guān)于ApacheHadoop ApacheHadoop是一款支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用并以Apache許可協(xié)議發(fā)布的開源軟件框架。它支持在商品硬件構(gòu)建的大型集群上運(yùn)行的應(yīng)用程序
7、。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和Google檔案系統(tǒng)的論文自行實(shí)作而成,由開源社區(qū)維護(hù)?! adoop框架透明地為應(yīng)用提供可靠性和數(shù)據(jù)移動(dòng)?,F(xiàn)在普遍認(rèn)為整個(gè)ApacheHadoop“平臺(tái)”包括Hadoop內(nèi)核、MapReduce、Hadoop分布式文件系統(tǒng)(HDFS)以及一些相關(guān)項(xiàng)目,有ApacheHive和ApacheHBase等等?! adoop基礎(chǔ)架構(gòu) Hadoop被定位為一個(gè)易于使用的平臺(tái),以HDFS、MapReduce為基礎(chǔ),能夠運(yùn)行上千臺(tái)PCServer組成的系統(tǒng)集群,并以一
8、種可靠、容錯(cuò)的方式分布式處理請(qǐng)求?! ∠聢D顯示Hadoop部署結(jié)構(gòu)示意圖 在Hadoop的系統(tǒng)中,會(huì)有一臺(tái)master,主要負(fù)責(zé)NameNode的工作以及JobTracker的工作。JobTracker的主要職責(zé)就是啟動(dòng)、跟蹤和調(diào)度各個(gè)Slave的任務(wù)執(zhí)行。還會(huì)有多臺(tái)slave,每一臺(tái)slave通常具