亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享

亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享

ID:36349682

大?。?.04 MB

頁數(shù):33頁

時間:2019-05-09

亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享_第1頁
亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享_第2頁
亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享_第3頁
亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享_第4頁
亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享_第5頁
資源描述:

《亞馬遜AWS基于AWS云平臺上實時數(shù)據(jù)分析最佳實踐分享》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于AWS云平臺上的實時數(shù)據(jù)分析最佳實踐分享莊富任產(chǎn)品拓展,?AWS中國BusinessDevelopmentManagerAWS?基于云的完整大數(shù)據(jù)服務(wù)實時數(shù)據(jù)流

2、大規(guī)模存儲

3、大集群并行計算采集處理海DynamoDB?EMREC2量數(shù)Kinesis?據(jù)S3Redshi5Data?PipelineGlacierAWS上的一些大數(shù)據(jù)客戶大數(shù)據(jù)挑戰(zhàn)收集存儲分析洞察長期4TB歸檔每天Glacier?S3數(shù)據(jù)挖掘數(shù)據(jù)Hadoop實時數(shù)據(jù)采集倉庫KinesisRedshi5實時數(shù)據(jù)流處理使用案例?對于廣告平臺?用戶在互聯(lián)網(wǎng)上的行為能實時的影響其廣告推送內(nèi)容,在用戶下

4、一次刷新頁面時,就提供給用戶新的廣告?對于電商?用戶的每一次收藏、點擊、購買行為,都能被快速的歸入他的個人模型中,立刻修正商品推薦?對于社交網(wǎng)絡(luò)?用戶社交圖譜的變更和發(fā)言等行為,也能快速被反映在他的好友推薦、熱門話題提醒上。大數(shù)據(jù)收集和存儲收集存儲分析洞察典型的實時動態(tài)數(shù)據(jù)流處理架構(gòu)和工作流程例如使用Apache?開源工具架構(gòu)1)數(shù)據(jù)采集2)數(shù)據(jù)接入3)流式計算負(fù)責(zé)從各節(jié)點上實時采由于采集數(shù)據(jù)的速度和對采集到的數(shù)據(jù)進(jìn)行集數(shù)據(jù)數(shù)據(jù)處理的速度不一定實時分析例如選用flume同步,因此添加一個消例如選用apache(cloudera)來實現(xiàn)息中間件來作為緩沖的s

5、torm(twitter)例如選用apache的kafka(LinkedIn)Client/Sensor?Aggregator?ConDnuousStorage?AnalyDcs?+?Processing??ReporDng????數(shù)據(jù)采集?AmazonEC2服務(wù)器上搭建收集器(Kafka,Fluentd,Scribe和Flume等)區(qū)域從多個來源匯集數(shù)據(jù)EC2可用區(qū)A數(shù)據(jù)采集?客戶端無法發(fā)送數(shù)據(jù)到端點(數(shù)據(jù)收集器可靠性?)??無法立即消化大量併發(fā)事件(數(shù)據(jù)收集器吞吐量?)?區(qū)域從多個來源匯集數(shù)據(jù)EC2可用區(qū)A數(shù)據(jù)采集區(qū)域高度EC2從多個來源匯集數(shù)據(jù)伸縮可

6、用區(qū)A可靠EC2可用區(qū)B載入數(shù)據(jù)S3存儲在本地磁盤容量?持久性??區(qū)域Simple?Storage?Service?(S3)高度可擴(kuò)展無限制容量的對象存儲每個對象存儲達(dá)1?byte?至?5TB?容量99.999999999%?持久性EC2從多個來源可用區(qū)A匯集數(shù)據(jù)S3?EC2并行數(shù)據(jù)加載到S3存儲可用區(qū)BAmazon?Kinesis?實時數(shù)據(jù)流處理?實時數(shù)據(jù)采集,?攝入,?傳輸?處理實時動態(tài)數(shù)據(jù)流?并行寫入寫出?支持?jǐn)?shù)據(jù)輸出到不同存儲目的地S3?DynamoDBAmazon??Kinesis?Hadoop?EMR?數(shù)據(jù)倉庫Redshi>?Amazon?Ki

7、nesis?實時數(shù)據(jù)流處理App.1??Data?Sources?[Aggregate?&?DeAvailabilityAvailabilityAvailability‐Duplicate]?ZoneZoneZone?DataS3?Sources?App.2?[MetricShard?1??Data?ExtracDon]?Shard?2??Sources?Shard?N?DynamoDB?App.3?AWS?Endpoint?[SlidingData?Window?Sources??Analysis]?RedshiftApp.4??Data?Sources

8、?[Machine?Learning]?EMR數(shù)據(jù)流Shard?分片 ?分片是Amazon?Kinesis?數(shù)據(jù)流的基本吞吐量單位?一個分片提供?1MB/秒數(shù)據(jù)輸入(write)容量=?1,?000?TPS??2MB/秒數(shù)據(jù)輸出(read)容量=??5?TPS?實時數(shù)據(jù)流攝入?簡單的調(diào)用PUT?命令動態(tài)攝入數(shù)據(jù)Hay?Day《卡通農(nóng)場》?每個分片(Shard)?可攝入每秒1MB數(shù)據(jù)(高達(dá)1000?TPS)??不停機(jī)狀態(tài)下動態(tài)擴(kuò)展Shard?數(shù)量Shard?1?Shard?1?AmazonShard?1?實時玩家Kinesis動作Shard?N?將數(shù)據(jù)輸入A

9、mazon?Kinesis?數(shù)據(jù)流ProducerKinesis"PutRecord?API?用于添加數(shù)據(jù)到Amazon?Kinesis?Producer數(shù)據(jù)流Shard1Producer"指定數(shù)據(jù)流的名稱和分區(qū)鍵(ParOOon?Key)?Shard2Producer"分區(qū)鍵用于分配數(shù)據(jù)記錄到不同的數(shù)據(jù)流分片Shard3ProducerShard4ProducerProducerProducerShardnProducer實時數(shù)據(jù)流處理Kinesis應(yīng)用程序Kinesis應(yīng)用程序簡化實時數(shù)據(jù)流的并行處理?分布式處理多Shards?實時數(shù)據(jù)流?容錯Amaz

10、on?實時動態(tài)擴(kuò)展Workers?In-gameKinesisac

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。