分布式搜索引擎設(shè)計與實現(xiàn)

分布式搜索引擎設(shè)計與實現(xiàn)

ID:5381744

大小:3.25 MB

頁數(shù):94頁

時間:2017-12-08

分布式搜索引擎設(shè)計與實現(xiàn)_第1頁
分布式搜索引擎設(shè)計與實現(xiàn)_第2頁
分布式搜索引擎設(shè)計與實現(xiàn)_第3頁
分布式搜索引擎設(shè)計與實現(xiàn)_第4頁
分布式搜索引擎設(shè)計與實現(xiàn)_第5頁
資源描述:

《分布式搜索引擎設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、中國科學(xué)技術(shù)大學(xué)碩士學(xué)位論文分布式搜索引擎設(shè)計與實現(xiàn)姓名:李偉申請學(xué)位級別:碩士專業(yè):模式識別與智能系統(tǒng)指導(dǎo)教師:朱明20060501摘要在網(wǎng)頁如此繁多的今天,人們在互聯(lián)網(wǎng)上查找各種信息,往往都需要借助互聯(lián)網(wǎng)搜索引擎的幫助。本文就是要設(shè)計一個針對互聯(lián)網(wǎng)搜索的大規(guī)模分布式搜索引擎?;ヂ?lián)網(wǎng)搜索引擎系統(tǒng)一般由四個主要部分組成:爬蟲子系統(tǒng),存儲子系統(tǒng),索引子系統(tǒng),門戶子系統(tǒng)。首先爬蟲子系統(tǒng)通過網(wǎng)頁鏈接爬行互聯(lián)網(wǎng),將網(wǎng)頁或者其他Web對象抓取下來,保存到存儲子系統(tǒng);索引子系統(tǒng)從存儲子系統(tǒng)獲取未索引的網(wǎng)頁,計算索引數(shù)據(jù),

2、建立索引。門戶提供一個用戶交互界面,用戶搜索互聯(lián)網(wǎng)時,在門戶上輸入查詢關(guān)鍵字,門戶建立查詢語句發(fā)送到索引子系統(tǒng),查詢關(guān)鍵字對應(yīng)的網(wǎng)頁,然后返回給用戶。本文實現(xiàn)了互聯(lián)網(wǎng)搜索引擎中的核心功能,完成了一個基本的面向大規(guī)模互聯(lián)網(wǎng)的分布式搜索引擎平臺。在分布式爬蟲子系統(tǒng)中,多個爬蟲應(yīng)該避免重復(fù)爬行,本文按照URL的Hash值為每個爬蟲分配一個URL空間,互不重疊,并通過調(diào)整爬蟲爬行的URL空間來進行負載均衡。另外,本文實現(xiàn)的爬蟲系統(tǒng)可以同時支持IPv4和IPv6網(wǎng)絡(luò)。存儲子系統(tǒng)由若干個存儲組構(gòu)成,每個存儲組存儲互不重疊

3、的一個URL空間的Web對象,由主服務(wù)器發(fā)布這一存儲策略。通過擴展存儲組可以不斷提高整個系統(tǒng)的存儲容量。每個存儲組又由若干個存儲單元組成,它們存儲完全相同的數(shù)據(jù),即所有的數(shù)據(jù)都是多備份的,保證數(shù)據(jù)安全,并可以提高數(shù)據(jù)訪問的并發(fā)能力。外部客戶端訪問存儲子系統(tǒng)根據(jù)主服務(wù)器發(fā)布的存儲策略直接訪問,數(shù)據(jù)訪問過程中,無需主服務(wù)器參與,主服務(wù)器不再成為頻繁數(shù)據(jù)訪問操作下的瓶頸。索引子系統(tǒng)分為兩個部分,索引計算和索引服務(wù)。索引計算子系統(tǒng)從存儲子系統(tǒng)下載待索引數(shù)據(jù)建立索引,并發(fā)送給索引服務(wù)子系統(tǒng)。為提高索引計算的可靠性,索引

4、計算服務(wù)器與存儲子系統(tǒng)的存儲組采用多對多的關(guān)系,即多個索引計算服務(wù)器同時計算多個存儲組上的待索引數(shù)據(jù)。存儲組提供FTP服務(wù),一次只允許一個索引計算服務(wù)器下載待數(shù)據(jù)包,下載完畢,將該數(shù)據(jù)包移動到待刪除目錄,從而避免了多個索引計算服務(wù)器同時下載計算相同的索引。索引服務(wù)子系統(tǒng)中各個索引服務(wù)器上都存儲所有的索引數(shù)據(jù),保證索引數(shù)據(jù)安全性。本文的各個子系統(tǒng)都采用基于策略的分布式架構(gòu),策略描述了系統(tǒng)內(nèi)部服務(wù)分布情況,以及訪問這些服務(wù)應(yīng)該遵守的接口,由主服務(wù)器制定和發(fā)布系統(tǒng)服務(wù)訪問策略。系統(tǒng)內(nèi)部各個服務(wù)器都按照策略規(guī)定提供服

5、務(wù),成為一個獨立的自治系統(tǒng),相互之間直接協(xié)調(diào)工作。外部客戶端訪問系統(tǒng)提供的服務(wù)也是按照策略直接訪問,不需要主服務(wù)器參與。這種服務(wù)訪問方式極大地提高了系統(tǒng)擴展性,使主服務(wù)器不再成為系統(tǒng)瓶頸。同時也提高了系統(tǒng)性能和可靠性(主服務(wù)器宕機時,整個系統(tǒng)仍然可以在一定程度上繼續(xù)提供服務(wù))。目前搜索引擎廠商的Web存儲系統(tǒng)解決方案都沒有公開,只有Google提到它的Web存儲建立在Google文件系統(tǒng)之上,也沒有公開詳細的Web存儲設(shè)計。本文詳細描述了所實現(xiàn)的搜索引擎中Web存儲系統(tǒng)的解決方案。為了提高性能,簡化數(shù)據(jù)訪問模

6、型,本文設(shè)計的Web存儲系統(tǒng)不再建立在分布式文件系統(tǒng)之上,而是采用基于策略的分布式架構(gòu),由每個存儲組自行存儲、組織和維護Web對象,主服務(wù)器不維護Web對象元數(shù)據(jù),也不參與具體的數(shù)據(jù)訪問。外部客戶端需要訪問存儲服務(wù),只需要按照訪問策略直接訪問相應(yīng)的存儲組。搜索引擎中的所有服務(wù)器都是采用廉價的PC機,各種軟硬件故障在所難免。為了在不可靠的軟硬件系統(tǒng)上建立一個穩(wěn)定可靠的搜索引擎,系統(tǒng)中的每個服務(wù)器都與其他一些服務(wù)器維持心跳,持續(xù)檢測各種異常情況,及時處理錯誤。重要數(shù)據(jù)都有多個備份,并能通過簡單的數(shù)據(jù)復(fù)制進行快速災(zāi)

7、難恢復(fù)??傮w上,本文實現(xiàn)的搜索引擎具有很好的可擴展性、高性能和可靠性,解決了分布式互聯(lián)網(wǎng)搜索引擎中爬蟲系統(tǒng)、存儲系統(tǒng)和索引系統(tǒng)中的若干問題。關(guān)鍵字:搜索引擎網(wǎng)絡(luò)爬蟲Web存儲索引分布式2AbstractToday,peoplefindallkindsofinformationontheIntemetusuallyrelyonthehelpoftheInternetsearchenginesWearedesigningalarge—scaledistributedthetnternetsearchengineh

8、ere.Generally,]nternetsearchengineconsistsoffourmaincomponents:crawlingsubsystem,storagesubsystem,indexingsubsystem,portalsubsystemFirstly,crawlingsubsystemcrawlWebPagesthroughthepageslinks.a(chǎn)ndstoresth

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。