基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究

基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究

ID:32973397

大小:1.82 MB

頁數(shù):79頁

時間:2019-02-18

基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究_第1頁
基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究_第2頁
基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究_第3頁
基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究_第4頁
基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究_第5頁
資源描述:

《基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號學(xué)號M200972461學(xué)校代碼10487密級碩士學(xué)位論文基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究學(xué)位申請人:李成洲學(xué)科專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:盧正鼎教授答辯日期:2012年1月12日AThesisSubmittedinFullFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringResearchonSSD-basedHybridStorageAr-chitectureforLarge-scaleSearchEnginesCandidat

2、e:ChengzhouLiMajor:ComputerApplicationTechnologySupervisor:Prof.ZhengdingLuHuazhongUniversityofScienceandTechnologyWuhan,Hubei430074,P.R.ChinaDecember,2011獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個人和集

3、體,均已在文中以明確方式標(biāo)明。本人完全意識到,本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在_____年解密后適用本授權(quán)書。本論文屬于不保密□。(請?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日

4、期:年月日日期:年月日華中科技大學(xué)碩士學(xué)位論文摘要大型搜索引擎索引了數(shù)以億計(jì)的海量文檔,每秒鐘需要處理數(shù)百萬個查詢請求。目前,許多大型搜索引擎使用磁盤(HDD)存儲海量的索引數(shù)據(jù),磁盤的低速I/O成為其主要性能瓶頸。與傳統(tǒng)的機(jī)械式磁盤不同,新型存儲設(shè)備固態(tài)硬盤(SSD)有許多優(yōu)點(diǎn),尤其是其較高的隨機(jī)數(shù)據(jù)存取能力,然而,它也有潛在的問題,如單位容量存儲成本高、讀寫速度不對稱和塊擦除次數(shù)有限等,因此,當(dāng)前大型搜索引擎還不能用SSD完全取代磁盤。搜索引擎是典型的I/O密集型應(yīng)用,它在I/O模式上表現(xiàn)出明顯的特征,如讀為主、

5、局部性、跳躍讀和隨機(jī)讀?;赟SD的搜索引擎混合式存儲結(jié)構(gòu)是檢索性能、硬件成本和系統(tǒng)可靠性的折中,它綜合考慮了SSD的讀寫特性和搜索引擎應(yīng)用的I/O特征,將熱點(diǎn)數(shù)據(jù)緩存在內(nèi)存和SSD中,盡可能減少訪問磁盤的次數(shù),提高系統(tǒng)的I/O性能?;赟SD的搜索引擎混合式存儲的數(shù)據(jù)管理策略采用基于日志的思想組織SSD中的數(shù)據(jù),其目的是提高搜索引擎的檢索性能,同時降低SSD中的塊擦除操作,它主要包括三個方面:一是數(shù)據(jù)選擇策略,它是根據(jù)緩存數(shù)據(jù)的不同特征,合理的選擇數(shù)據(jù)存儲在內(nèi)存或SSD中;二是數(shù)據(jù)放置策略,它采用一種改進(jìn)的基于日志

6、的數(shù)據(jù)管理策略來組織和管理SSD中的數(shù)據(jù),以確保其高效的讀寫;三是數(shù)據(jù)替換策略,它對SSD中緩存的結(jié)果和倒排表采取不同的覆寫策略,以盡量避免開銷昂貴的隨機(jī)寫操作,減少塊擦除操作。實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了上述數(shù)據(jù)管理策略的有效性,其中,緩存命中率提高了13.31%,檢索性能提高了41.05%,SSD中Flash平均訪問時間降低了43.83%,SSD中塊擦除次數(shù)減少了71.52%。關(guān)鍵詞:全文檢索,搜索引擎,固態(tài)硬盤,混合式存儲結(jié)構(gòu),緩存I華中科技大學(xué)碩士學(xué)位論文AbstractLargesearchenginesneedt

7、oprocesshundredsofqueriespersecondoncollectionsofhundredsofmillionsofdocuments.Nowadays,large-scalesearchenginesuseharddiskdrives(HDD)tostorethemassindexdata,thelowI/OperformanceofHDDbecomesthemajorbottleneckinmodernlarge-scalesearchengines.Fortunately,compared

8、withHDD,theemergingsolidstatedisk(SSD)technologyprovidesmanydesiredtechnicalmerits,andmostimportantly,ultrahighperformanceforrandomdataaccess.However,threepo-tentialissuesma

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。