分布式搜索引擎設(shè)計與實現(xiàn)

ID：5381744

大小：3.25 MB

頁數(shù)：94頁

時間：2017-12-08

資源描述：

《分布式搜索引擎設(shè)計與實現(xiàn)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、中國科學(xué)技術(shù)大學(xué)碩士學(xué)位論文分布式搜索引擎設(shè)計與實現(xiàn)姓名：李偉申請學(xué)位級別：碩士專業(yè)：模式識別與智能系統(tǒng)指導(dǎo)教師：朱明20060501摘要在網(wǎng)頁如此繁多的今天，人們在互聯(lián)網(wǎng)上查找各種信息，往往都需要借助互聯(lián)網(wǎng)搜索引擎的幫助。本文就是要設(shè)計一個針對互聯(lián)網(wǎng)搜索的大規(guī)模分布式搜索引擎?；ヂ?lián)網(wǎng)搜索引擎系統(tǒng)一般由四個主要部分組成：爬蟲子系統(tǒng)，存儲子系統(tǒng)，索引子系統(tǒng)，門戶子系統(tǒng)。首先爬蟲子系統(tǒng)通過網(wǎng)頁鏈接爬行互聯(lián)網(wǎng)，將網(wǎng)頁或者其他Web對象抓取下來，保存到存儲子系統(tǒng)；索引子系統(tǒng)從存儲子系統(tǒng)獲取未索引的網(wǎng)頁，計算索引數(shù)據(jù)，

2、建立索引。門戶提供一個用戶交互界面，用戶搜索互聯(lián)網(wǎng)時，在門戶上輸入查詢關(guān)鍵字，門戶建立查詢語句發(fā)送到索引子系統(tǒng)，查詢關(guān)鍵字對應(yīng)的網(wǎng)頁，然后返回給用戶。本文實現(xiàn)了互聯(lián)網(wǎng)搜索引擎中的核心功能，完成了一個基本的面向大規(guī)模互聯(lián)網(wǎng)的分布式搜索引擎平臺。在分布式爬蟲子系統(tǒng)中，多個爬蟲應(yīng)該避免重復(fù)爬行，本文按照URL的Hash值為每個爬蟲分配一個URL空間，互不重疊，并通過調(diào)整爬蟲爬行的URL空間來進行負載均衡。另外，本文實現(xiàn)的爬蟲系統(tǒng)可以同時支持IPv4和IPv6網(wǎng)絡(luò)。存儲子系統(tǒng)由若干個存儲組構(gòu)成，每個存儲組存儲互不重疊

3、的一個URL空間的Web對象，由主服務(wù)器發(fā)布這一存儲策略。通過擴展存儲組可以不斷提高整個系統(tǒng)的存儲容量。每個存儲組又由若干個存儲單元組成，它們存儲完全相同的數(shù)據(jù)，即所有的數(shù)據(jù)都是多備份的，保證數(shù)據(jù)安全，并可以提高數(shù)據(jù)訪問的并發(fā)能力。外部客戶端訪問存儲子系統(tǒng)根據(jù)主服務(wù)器發(fā)布的存儲策略直接訪問，數(shù)據(jù)訪問過程中，無需主服務(wù)器參與，主服務(wù)器不再成為頻繁數(shù)據(jù)訪問操作下的瓶頸。索引子系統(tǒng)分為兩個部分，索引計算和索引服務(wù)。索引計算子系統(tǒng)從存儲子系統(tǒng)下載待索引數(shù)據(jù)建立索引，并發(fā)送給索引服務(wù)子系統(tǒng)。為提高索引計算的可靠性，索引

4、計算服務(wù)器與存儲子系統(tǒng)的存儲組采用多對多的關(guān)系，即多個索引計算服務(wù)器同時計算多個存儲組上的待索引數(shù)據(jù)。存儲組提供FTP服務(wù)，一次只允許一個索引計算服務(wù)器下載待數(shù)據(jù)包，下載完畢，將該數(shù)據(jù)包移動到待刪除目錄，從而避免了多個索引計算服務(wù)器同時下載計算相同的索引。索引服務(wù)子系統(tǒng)中各個索引服務(wù)器上都存儲所有的索引數(shù)據(jù)，保證索引數(shù)據(jù)安全性。本文的各個子系統(tǒng)都采用基于策略的分布式架構(gòu)，策略描述了系統(tǒng)內(nèi)部服務(wù)分布情況，以及訪問這些服務(wù)應(yīng)該遵守的接口，由主服務(wù)器制定和發(fā)布系統(tǒng)服務(wù)訪問策略。系統(tǒng)內(nèi)部各個服務(wù)器都按照策略規(guī)定提供服

5、務(wù)，成為一個獨立的自治系統(tǒng)，相互之間直接協(xié)調(diào)工作。外部客戶端訪問系統(tǒng)提供的服務(wù)也是按照策略直接訪問，不需要主服務(wù)器參與。這種服務(wù)訪問方式極大地提高了系統(tǒng)擴展性，使主服務(wù)器不再成為系統(tǒng)瓶頸。同時也提高了系統(tǒng)性能和可靠性(主服務(wù)器宕機時，整個系統(tǒng)仍然可以在一定程度上繼續(xù)提供服務(wù))。目前搜索引擎廠商的Web存儲系統(tǒng)解決方案都沒有公開，只有Google提到它的Web存儲建立在Google文件系統(tǒng)之上，也沒有公開詳細的Web存儲設(shè)計。本文詳細描述了所實現(xiàn)的搜索引擎中Web存儲系統(tǒng)的解決方案。為了提高性能，簡化數(shù)據(jù)訪問模

6、型，本文設(shè)計的Web存儲系統(tǒng)不再建立在分布式文件系統(tǒng)之上，而是采用基于策略的分布式架構(gòu)，由每個存儲組自行存儲、組織和維護Web對象，主服務(wù)器不維護Web對象元數(shù)據(jù)，也不參與具體的數(shù)據(jù)訪問。外部客戶端需要訪問存儲服務(wù)，只需要按照訪問策略直接訪問相應(yīng)的存儲組。搜索引擎中的所有服務(wù)器都是采用廉價的PC機，各種軟硬件故障在所難免。為了在不可靠的軟硬件系統(tǒng)上建立一個穩(wěn)定可靠的搜索引擎，系統(tǒng)中的每個服務(wù)器都與其他一些服務(wù)器維持心跳，持續(xù)檢測各種異常情況，及時處理錯誤。重要數(shù)據(jù)都有多個備份，并能通過簡單的數(shù)據(jù)復(fù)制進行快速災(zāi)

7、難恢復(fù)?？傮w上，本文實現(xiàn)的搜索引擎具有很好的可擴展性、高性能和可靠性，解決了分布式互聯(lián)網(wǎng)搜索引擎中爬蟲系統(tǒng)、存儲系統(tǒng)和索引系統(tǒng)中的若干問題。關(guān)鍵字：搜索引擎網(wǎng)絡(luò)爬蟲Web存儲索引分布式2AbstractToday,peoplefindallkindsofinformationontheIntemetusuallyrelyonthehelpoftheInternetsearchenginesWearedesigningalarge—scaledistributedthetnternetsearchengineh

8、ere．Generally，]nternetsearchengineconsistsoffourmaincomponents：crawlingsubsystem，storagesubsystem，indexingsubsystem，portalsubsystemFirstly,crawlingsubsystemcrawlWebPagesthroughthepageslinks．a(chǎn)ndstoresth

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 94



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

分布式搜索引擎設(shè)計與實現(xiàn)

分布式搜索引擎設(shè)計與實現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽