基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)

基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)

ID:32730301

大?。?.00 MB

頁數(shù):64頁

時間:2019-02-15

基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)_第1頁
基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)_第2頁
基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)_第3頁
基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)_第4頁
基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)_第5頁
資源描述:

《基于mapreduce分布式搜索引擎的研究與實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、太原理工大學(xué)碩士研究生學(xué)位論文基于MapReduce的分布式搜索引擎的研究與實(shí)現(xiàn)摘要搜索引擎是人們在當(dāng)今信息飛速增長的時代所不可缺少的一個工具,越來越多的學(xué)者傾向于認(rèn)為搜索引擎是一個集信息檢索、互聯(lián)網(wǎng)服務(wù)、用戶行為分析以及高性能與分布式計算等多個重要研究方向為一體的綜合性平臺。如何從互聯(lián)網(wǎng)這個擁有海量資料的信息庫中獲取數(shù)據(jù),進(jìn)行高速有效地處理并為用戶返回精準(zhǔn)的信息被認(rèn)為是搜索引擎技術(shù)發(fā)展的核心。為了保護(hù)商業(yè)機(jī)密,現(xiàn)有各大商業(yè)搜索服務(wù)提供商對其核心技術(shù)嚴(yán)格保密,加大了研究搜索引擎的難度。本文在對搜索引擎的流程和原理以及MapReduce編程模型進(jìn)行詳細(xì)分析的基礎(chǔ)上,結(jié)合Lucene全文索引等

2、開源工具包,構(gòu)建了一個分布式搜索引擎系統(tǒng),利用此系統(tǒng)不僅可以展開對搜索技術(shù)的研究,而且在一定程度上改進(jìn)了現(xiàn)有搜索引擎的性能。本文的研究工作包括以下幾個方面:第一,分析了通用搜索引擎的原理和信息處理流程,描述了分布式計算系統(tǒng)的體系結(jié)構(gòu),對Hadoop平臺的MapReduce分布式編程模式以及Hadoop分布式文件系統(tǒng)進(jìn)行了詳細(xì)分析,并以此為基礎(chǔ)提出了分布式搜索引擎的架構(gòu)。第二,分析了網(wǎng)絡(luò)爬蟲系統(tǒng)的原理及其分布式實(shí)現(xiàn)方法,對全文索引結(jié)構(gòu)的建立、中文分詞算法、多格式文檔解析以及頁面評分算法等關(guān)鍵技術(shù)進(jìn)行了研究,提出了利用網(wǎng)絡(luò)爬蟲進(jìn)行分布式多線程爬取、多格式文檔解析以及對頁面評分算法進(jìn)行分布式改造

3、的方法,確定了分布式搜索引擎系統(tǒng)的模塊劃分及各自功能,并對分布式搜索引擎的結(jié)構(gòu)進(jìn)行了詳細(xì)設(shè)計。第三,使用J烈,A編程語言,完成了分模塊的具體分布式實(shí)現(xiàn),并通過太原理工大學(xué)碩士研究生學(xué)位論文實(shí)驗室集群對系統(tǒng)的性能進(jìn)行了測試,驗證了系統(tǒng)設(shè)計的可行性。最后,總結(jié)了本文的研究工作,并對未來可能實(shí)施的研究內(nèi)容進(jìn)行了討論。關(guān)鍵詞:搜索引擎,分布式計算框架,分布式文件系統(tǒng),倒排索引,頁面評分算法II太原理工大學(xué)碩士研究生學(xué)位論文THERESEARCHANDIMPLEMENl、ATIONOFDISTIUBUTl0NSEARCHENGINEBASEDONⅣ隊PREDUCEABSTRACTThesearche

4、ngineisanecessarytoolfortoday’Sinformationeraofrapidgrowth.Moreandmorescholarstendtobelievethatthesearchengineisanintergratedplatformthatcombinesinformationretrieval,internetservices,userbehavioranalysisandhighperformanceanddistributedcopmputing.Thecoreofsearchenginetechnologyishowtoobtaindatafrom

5、theinternetthathasahugedatarepository,processdataeffectivelyandreturnaccurateinformationfortheuser.Inordertoprotecttradesecrets,theseexistingcommercialsearchenginesprovidestrictconfidentialitytoitscoretechnologyandincreasethedifficultyforstudyingsearchengine.Onthebasisofadetailedanalysisontheproce

6、ssesandprinciplesofthesearchenginesaswellastheMapReduceprogrammingframework,webuildadistributedsearchenginesystemcombiningtheLucenefull-textindexingwithotheropensourcetoolspackage。Takingadvantageofthissystem,wecannotonlyexpandtheseachtechnologybutalsoimprovethestabilityoftheexistingsearchengines.T

7、hemainresearchworksincludethefollowingaspects:Firstly,weintroducetheprincipleofgeneralsearchenginesandinformationprocessing,anddescribethearchitectureofdistributedcomputingsystems.Further,throughadetailedanalysis

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。