資源描述:
《基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)答辯》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)答辯人:導(dǎo)師:2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作系統(tǒng)的實現(xiàn)關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型研究的背景、現(xiàn)狀和目標2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標背景互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長,數(shù)量的增加帶來的是搜索服務(wù)品質(zhì)的下降,并且查詢的結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶的查詢效率非常低?;ヂ?lián)網(wǎng)已經(jīng)成為基礎(chǔ)教育領(lǐng)域的廣大教育工作者、學(xué)生和家長們獲取基礎(chǔ)教育資源和信息的重要工具,那么在網(wǎng)
2、絡(luò)的發(fā)展客觀上就需要有能夠滿足這一特定領(lǐng)域、特定人群或者說是特定需求的網(wǎng)站。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標現(xiàn)狀信息過量。網(wǎng)上資源內(nèi)容廣泛,通用搜索引擎返回的大量信息過多過雜,專業(yè)性不強.使用戶淹沒在海量信息里,篩選信息需要耗費大量的精力。信息準確度低。由于通用搜索引擎強調(diào)通用性,檢索范圍廣,對資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。信息服務(wù)缺乏針對性,缺少用戶交互。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對于不同的用戶,同一個關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿
3、足用戶的個性化需求。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標目標提高教育領(lǐng)域搜索內(nèi)容的準確率和搜索引擎的計算效率。熟悉Hadoop分布式集群的整體框架,包括其存儲模式和計算模型。基于Hadoop,定制Map/Reduce和強大的容錯機制,定義和實現(xiàn)數(shù)據(jù)接口。耦合原始數(shù)據(jù)預(yù)處理和Hadoop,解決名稱節(jié)點的單點故障等問題。基于Hadoop分布式平臺,結(jié)合教育資源垂直搜索領(lǐng)域,設(shè)計出搜索效率、準確率較高的垂直搜索引擎。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作系統(tǒng)的實
4、現(xiàn)關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型研究的背景、現(xiàn)狀和目標2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)Hadoop的分布式文件系統(tǒng)被設(shè)計為將海量文件遍布存儲在一個大集群的多臺計算機上。HDFS的設(shè)計是受到了GFS的啟發(fā)。HDFS將每一個文件以分塊序列的形式進行存儲,一個文件的所有分塊除去最后一個分塊外都是等大小的。為了實現(xiàn)容錯將文件分塊進行自動復(fù)制。文件分
5、塊的塊大小和復(fù)制比例都是可以按照單個文件進行配置的。HDFS中的所有文件都是“只寫一次”并且嚴格限定在任何時候只有一個寫文件操作者。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)和HadoopMap/Reduce類似,HDFS也是主/從架構(gòu)。一個安裝好的HDFS包括一個單獨的名稱節(jié)點,一個主服務(wù)器用于文件系統(tǒng)命名空間管理和客戶端的文件訪問管理。除此之外,還有很多個數(shù)據(jù)節(jié)點,在集群中的每個節(jié)點都有一個數(shù)據(jù)節(jié)點用于存儲該節(jié)點運行時的數(shù)據(jù)。名稱節(jié)點通過RPC接口支持文件系統(tǒng)命名空間中文件和目錄的打開
6、、關(guān)閉和重命名等操作。它也決定了數(shù)據(jù)塊和數(shù)據(jù)節(jié)點的映射關(guān)系。數(shù)據(jù)節(jié)點負責(zé)提供文件系統(tǒng)客戶端的讀寫請求,除此之外也提供來自名稱節(jié)點的數(shù)據(jù)塊創(chuàng)建、刪除和復(fù)制指令?;贖adoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程分割文件(fork)。首先,將眾多文件
7、分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動機器集群中的眾多程序拷貝。指派Map/Reduce任務(wù)主程序指派空閑的工作站程序執(zhí)行Map任務(wù)或是Reduce任務(wù)。讀取(read)被指派執(zhí)行Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對,經(jīng)過Map函數(shù)處理,得到中間鍵值時,存入內(nèi)存緩沖區(qū)。2021/6/19基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程本地寫(1ocalwrite)內(nèi)存中的數(shù)據(jù)組被劃分函數(shù)周期性的劃分到R個