基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯

基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯

ID:260769

大小:1.31 MB

頁數(shù):38頁

時間:2017-07-15

基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯_第1頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯_第2頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯_第3頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯_第4頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯_第5頁
資源描述:

《基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)答辯人:導(dǎo)師:2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作系統(tǒng)的實現(xiàn)關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型研究的背景、現(xiàn)狀和目標2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標背景互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長,數(shù)量的增加帶來的是搜索服務(wù)品質(zhì)的下降,并且查詢的結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶的查詢效率非常低?;ヂ?lián)網(wǎng)已經(jīng)成為基礎(chǔ)教育領(lǐng)域的廣大教育工作者、學(xué)生和家長們獲取基礎(chǔ)教育資源和信息的重要工具,那么在網(wǎng)

2、絡(luò)的發(fā)展客觀上就需要有能夠滿足這一特定領(lǐng)域、特定人群或者說是特定需求的網(wǎng)站。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標現(xiàn)狀信息過量。網(wǎng)上資源內(nèi)容廣泛,通用搜索引擎返回的大量信息過多過雜,專業(yè)性不強.使用戶淹沒在海量信息里,篩選信息需要耗費大量的精力。信息準確度低。由于通用搜索引擎強調(diào)通用性,檢索范圍廣,對資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。信息服務(wù)缺乏針對性,缺少用戶交互。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對于不同的用戶,同一個關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿

3、足用戶的個性化需求。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標目標提高教育領(lǐng)域搜索內(nèi)容的準確率和搜索引擎的計算效率。熟悉Hadoop分布式集群的整體框架,包括其存儲模式和計算模型。基于Hadoop,定制Map/Reduce和強大的容錯機制,定義和實現(xiàn)數(shù)據(jù)接口。耦合原始數(shù)據(jù)預(yù)處理和Hadoop,解決名稱節(jié)點的單點故障等問題。基于Hadoop分布式平臺,結(jié)合教育資源垂直搜索領(lǐng)域,設(shè)計出搜索效率、準確率較高的垂直搜索引擎。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作系統(tǒng)的實

4、現(xiàn)關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型研究的背景、現(xiàn)狀和目標2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)Hadoop的分布式文件系統(tǒng)被設(shè)計為將海量文件遍布存儲在一個大集群的多臺計算機上。HDFS的設(shè)計是受到了GFS的啟發(fā)。HDFS將每一個文件以分塊序列的形式進行存儲,一個文件的所有分塊除去最后一個分塊外都是等大小的。為了實現(xiàn)容錯將文件分塊進行自動復(fù)制。文件分

5、塊的塊大小和復(fù)制比例都是可以按照單個文件進行配置的。HDFS中的所有文件都是“只寫一次”并且嚴格限定在任何時候只有一個寫文件操作者。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)和HadoopMap/Reduce類似,HDFS也是主/從架構(gòu)。一個安裝好的HDFS包括一個單獨的名稱節(jié)點,一個主服務(wù)器用于文件系統(tǒng)命名空間管理和客戶端的文件訪問管理。除此之外,還有很多個數(shù)據(jù)節(jié)點,在集群中的每個節(jié)點都有一個數(shù)據(jù)節(jié)點用于存儲該節(jié)點運行時的數(shù)據(jù)。名稱節(jié)點通過RPC接口支持文件系統(tǒng)命名空間中文件和目錄的打開

6、、關(guān)閉和重命名等操作。它也決定了數(shù)據(jù)塊和數(shù)據(jù)節(jié)點的映射關(guān)系。數(shù)據(jù)節(jié)點負責(zé)提供文件系統(tǒng)客戶端的讀寫請求,除此之外也提供來自名稱節(jié)點的數(shù)據(jù)塊創(chuàng)建、刪除和復(fù)制指令?;贖adoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程分割文件(fork)。首先,將眾多文件

7、分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動機器集群中的眾多程序拷貝。指派Map/Reduce任務(wù)主程序指派空閑的工作站程序執(zhí)行Map任務(wù)或是Reduce任務(wù)。讀取(read)被指派執(zhí)行Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對,經(jīng)過Map函數(shù)處理,得到中間鍵值時,存入內(nèi)存緩沖區(qū)。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程本地寫(1ocalwrite)內(nèi)存中的數(shù)據(jù)組被劃分函數(shù)周期性的劃分到R個

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。