資源描述:
《基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號學(xué)號M200972461學(xué)校代碼10487密級碩士學(xué)位論文基于固態(tài)硬盤的搜索引擎混合式存儲結(jié)構(gòu)研究學(xué)位申請人:李成洲學(xué)科專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:盧正鼎教授答辯日期:2012年1月12日AThesisSubmittedinFullFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringResearchonSSD-basedHybridStorageAr-chitectureforLarge-scaleSearchEnginesCandidat
2、e:ChengzhouLiMajor:ComputerApplicationTechnologySupervisor:Prof.ZhengdingLuHuazhongUniversityofScienceandTechnologyWuhan,Hubei430074,P.R.ChinaDecember,2011獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個人和集
3、體,均已在文中以明確方式標(biāo)明。本人完全意識到,本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密□,在_____年解密后適用本授權(quán)書。本論文屬于不保密□。(請?jiān)谝陨戏娇騼?nèi)打“√”)學(xué)位論文作者簽名:指導(dǎo)教師簽名:日
4、期:年月日日期:年月日華中科技大學(xué)碩士學(xué)位論文摘要大型搜索引擎索引了數(shù)以億計(jì)的海量文檔,每秒鐘需要處理數(shù)百萬個查詢請求。目前,許多大型搜索引擎使用磁盤(HDD)存儲海量的索引數(shù)據(jù),磁盤的低速I/O成為其主要性能瓶頸。與傳統(tǒng)的機(jī)械式磁盤不同,新型存儲設(shè)備固態(tài)硬盤(SSD)有許多優(yōu)點(diǎn),尤其是其較高的隨機(jī)數(shù)據(jù)存取能力,然而,它也有潛在的問題,如單位容量存儲成本高、讀寫速度不對稱和塊擦除次數(shù)有限等,因此,當(dāng)前大型搜索引擎還不能用SSD完全取代磁盤。搜索引擎是典型的I/O密集型應(yīng)用,它在I/O模式上表現(xiàn)出明顯的特征,如讀為主、
5、局部性、跳躍讀和隨機(jī)讀?;赟SD的搜索引擎混合式存儲結(jié)構(gòu)是檢索性能、硬件成本和系統(tǒng)可靠性的折中,它綜合考慮了SSD的讀寫特性和搜索引擎應(yīng)用的I/O特征,將熱點(diǎn)數(shù)據(jù)緩存在內(nèi)存和SSD中,盡可能減少訪問磁盤的次數(shù),提高系統(tǒng)的I/O性能?;赟SD的搜索引擎混合式存儲的數(shù)據(jù)管理策略采用基于日志的思想組織SSD中的數(shù)據(jù),其目的是提高搜索引擎的檢索性能,同時降低SSD中的塊擦除操作,它主要包括三個方面:一是數(shù)據(jù)選擇策略,它是根據(jù)緩存數(shù)據(jù)的不同特征,合理的選擇數(shù)據(jù)存儲在內(nèi)存或SSD中;二是數(shù)據(jù)放置策略,它采用一種改進(jìn)的基于日志
6、的數(shù)據(jù)管理策略來組織和管理SSD中的數(shù)據(jù),以確保其高效的讀寫;三是數(shù)據(jù)替換策略,它對SSD中緩存的結(jié)果和倒排表采取不同的覆寫策略,以盡量避免開銷昂貴的隨機(jī)寫操作,減少塊擦除操作。實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了上述數(shù)據(jù)管理策略的有效性,其中,緩存命中率提高了13.31%,檢索性能提高了41.05%,SSD中Flash平均訪問時間降低了43.83%,SSD中塊擦除次數(shù)減少了71.52%。關(guān)鍵詞:全文檢索,搜索引擎,固態(tài)硬盤,混合式存儲結(jié)構(gòu),緩存I華中科技大學(xué)碩士學(xué)位論文AbstractLargesearchenginesneedt
7、oprocesshundredsofqueriespersecondoncollectionsofhundredsofmillionsofdocuments.Nowadays,large-scalesearchenginesuseharddiskdrives(HDD)tostorethemassindexdata,thelowI/OperformanceofHDDbecomesthemajorbottleneckinmodernlarge-scalesearchengines.Fortunately,compared
8、withHDD,theemergingsolidstatedisk(SSD)technologyprovidesmanydesiredtechnicalmerits,andmostimportantly,ultrahighperformanceforrandomdataaccess.However,threepo-tentialissuesma