大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)

ID:43845229

大小:434.41 KB

頁(yè)數(shù):23頁(yè)

時(shí)間:2019-10-15

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)_第1頁(yè)
大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)_第2頁(yè)
大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)_第3頁(yè)
大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)_第4頁(yè)
大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)_第5頁(yè)
資源描述:

《大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)技術(shù)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、數(shù)據(jù)存儲(chǔ)技術(shù)數(shù)據(jù)采集與存儲(chǔ)技術(shù)研究現(xiàn)狀傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)?應(yīng)用場(chǎng)景局限–面向結(jié)構(gòu)化數(shù)據(jù),致力于數(shù)據(jù)處理,保證嚴(yán)格一致性?缺乏對(duì)海量數(shù)據(jù)的快速訪(fǎng)問(wèn)能力–根據(jù)列值來(lái)定位行,輸入輸出耗時(shí)–范式設(shè)計(jì)與web2.0特性相互矛盾,如標(biāo)簽是多對(duì)多關(guān)系,按傳統(tǒng)要求必須去掉冗余?缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理能力–如圖片、視頻、音頻?擴(kuò)展性差–向上擴(kuò)展scaleup,硬件升級(jí),提高速度–向外擴(kuò)展scaleout,重新劃分,分散存儲(chǔ)新興數(shù)據(jù)存儲(chǔ)系統(tǒng)集中式數(shù)據(jù)存儲(chǔ)系統(tǒng)?整個(gè)系統(tǒng)需要主控節(jié)點(diǎn)存儲(chǔ)從節(jié)點(diǎn)元信息?GoogleBigtable?YahooPNUTS非集中式數(shù)據(jù)存儲(chǔ)?各

2、節(jié)點(diǎn)無(wú)主從之分,通過(guò)相應(yīng)的通信機(jī)制相互感知,自我管理?AmazonDynomo?FacebookCassandraBigtable?集中式數(shù)據(jù)管理系統(tǒng)?Google設(shè)計(jì)的分布式數(shù)據(jù)存系統(tǒng),用來(lái)處理海量數(shù)據(jù)的非關(guān)系數(shù)據(jù)庫(kù)?稀疏的、分布式、持久化存儲(chǔ)的多維度排序Map?可處理PB級(jí)數(shù)據(jù),并存儲(chǔ)在上千臺(tái)機(jī)器上?應(yīng)用在Google多個(gè)產(chǎn)品上(row:string,column:string,time:int64)->stringBigTable的基礎(chǔ)構(gòu)件?BigTable使用GFS來(lái)存儲(chǔ)日志和數(shù)據(jù)文件?BigTable使用一個(gè)類(lèi)似于B+樹(shù)的三級(jí)結(jié)構(gòu)來(lái)

3、存儲(chǔ)tablet的放置信息BigTable優(yōu)化策略?Locallitygroups–用戶(hù)可將多個(gè)列族組織為一個(gè)Locallitygroups。對(duì)于每個(gè)tablet里的每個(gè)Locallitygroups生成一個(gè)單獨(dú)的SSTable?壓縮–用戶(hù)可以控制對(duì)于一個(gè)SSTable是否壓縮。選擇壓縮算法時(shí)更重視速率而不是空間BigTable的應(yīng)用?GoogleAnalytics–幫助站長(zhǎng)分析站點(diǎn)流量模式的服務(wù)。提供統(tǒng)計(jì)如每天內(nèi)不同訪(fǎng)問(wèn)者的數(shù)量,每個(gè)URL每天訪(fǎng)問(wèn)數(shù)等–分為原始點(diǎn)擊表和摘要表?Google地球–可以通過(guò)網(wǎng)頁(yè)或客戶(hù)端訪(fǎng)問(wèn)地球表面高分辯率衛(wèi)星圖

4、像?個(gè)性化搜索–是一個(gè)用來(lái)記錄用戶(hù)在Google很多產(chǎn)品的查詢(xún)和點(diǎn)擊記錄的可選服務(wù)–為提高可用性、降低延時(shí),個(gè)性化搜索數(shù)據(jù)備份在多個(gè)BigTable集群上HBase?BigTable的開(kāi)源實(shí)現(xiàn)?高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)?可在廉價(jià)PCSERVER上搭建大規(guī)模的結(jié)構(gòu)化存儲(chǔ)集群?利用HadoopMapReduce處理HBase中的海量數(shù)據(jù)HBase系統(tǒng)架構(gòu)?Hbase基本概念?RowKey:是Bytearray,是表中每條記錄的“主鍵”,方便快速查找,Rowkey的設(shè)計(jì)非常重要。ColumnFamily:列族,擁有一個(gè)名稱(chēng)(

5、string),包含一個(gè)或者多個(gè)相關(guān)列Column:屬于某一個(gè)columnfamily,familyName:columnName,每條記錄可動(dòng)態(tài)添加VersionNumber:類(lèi)型為L(zhǎng)ong,默認(rèn)值是系統(tǒng)時(shí)間戳,可由用戶(hù)自定義Value(Cell):BytearrayHBase物理存儲(chǔ)?1、Table中所有行都按照rowkey的字典序排列;2、Table在行的方向上分割為多個(gè)Region;3、Region按大小分割的,每個(gè)表開(kāi)始只有一個(gè)region,隨著數(shù)據(jù)增多,region不斷增大,當(dāng)增大到一個(gè)閥值的時(shí)候,region就會(huì)等分會(huì)兩個(gè)新的r

6、egion,之后會(huì)有越來(lái)越多的region;4、Region是Hbase中分布式存儲(chǔ)和負(fù)載均衡的最小單元,不同Region分布到不同RegionServer上。?Region雖然是分布式存儲(chǔ)的最小單元,但并不是存儲(chǔ)的最小單元。Region由一個(gè)或者多個(gè)Store組成,每個(gè)store保存一個(gè)columnsfamily;每個(gè)Strore又由一個(gè)memStore和0至多個(gè)StoreFile組成,StoreFile包含HFile;memStore存儲(chǔ)在內(nèi)存中,StoreFile存儲(chǔ)在HDFS上Redis?是開(kāi)源的、高性能的鍵-值存儲(chǔ)(key-valu

7、estore)?鍵值可以包括字符串(strings)、哈希(hashes)、列表(lists)、集合(sets)和有序集合(storedsets)?可以對(duì)數(shù)據(jù)進(jìn)行原子操作?為提高性能,Redis采用了內(nèi)存中(in-memory)數(shù)據(jù)集方式

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。