資源描述:
《基于中文分詞的搜索引擎設(shè)計(jì)實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、北京工業(yè)大學(xué)碩士學(xué)位論文基于中文分詞的搜索引擎設(shè)計(jì)實(shí)現(xiàn)姓名:王常星申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):軟件工程指導(dǎo)教師:何涇沙;張?zhí)焐?0081201摘要本項(xiàng)目是公司的電子商務(wù)網(wǎng)站項(xiàng)目下的一個(gè)關(guān)鍵子項(xiàng)目,項(xiàng)目的設(shè)計(jì)要求包括根據(jù)已有的分詞算法,實(shí)現(xiàn)自有的中文分詞系統(tǒng),設(shè)計(jì)實(shí)現(xiàn)一個(gè)規(guī)模適中的搜索引擎系統(tǒng),具備較強(qiáng)的擴(kuò)展性和穩(wěn)定性,控制搜索引擎的規(guī)模。雖然搜索引擎技術(shù)目前已經(jīng)有較為成熟的解決方案,但是由于項(xiàng)目特別限定了搜索引擎,包括中文分詞處理技術(shù),都需要采用完全自有的設(shè)計(jì)方案,因此本文所針對(duì)的搜索引擎架構(gòu)設(shè)計(jì),以及中文分詞算法的實(shí)現(xiàn),都沒有采用已經(jīng)成型的開源設(shè)計(jì)方案。搜索引擎設(shè)計(jì)采用了層
2、次化的設(shè)計(jì)結(jié)構(gòu),將搜索引擎劃分為五個(gè)層次,分別是接口層,核心層,存儲(chǔ)層,監(jiān)控系統(tǒng)和中文分詞系統(tǒng)。接口層負(fù)責(zé)處理外部程序與搜索引擎的通信過程。核心層包括四個(gè)子系統(tǒng):中心控制系統(tǒng),競(jìng)價(jià)系統(tǒng),搜索節(jié)點(diǎn)和分詞系統(tǒng),中心控制系統(tǒng)是搜索引擎的核心調(diào)度系統(tǒng),競(jìng)價(jià)系統(tǒng)是搜索引擎可以實(shí)現(xiàn)經(jīng)濟(jì)效益。存儲(chǔ)層是搜索引擎索引數(shù)據(jù)的存儲(chǔ)系統(tǒng)所在位置,其中包括了索引目錄服務(wù)和數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn)可隨需求進(jìn)行擴(kuò)展,增撤節(jié)點(diǎn)只要在目錄服務(wù)中作出相應(yīng)更新就可以實(shí)現(xiàn)存儲(chǔ)節(jié)點(diǎn)的擴(kuò)展。搜索引擎集群在運(yùn)行時(shí),需要一個(gè)監(jiān)控系統(tǒng)來實(shí)時(shí)監(jiān)控系統(tǒng)各服務(wù)以及網(wǎng)絡(luò)的運(yùn)行狀態(tài),便于及時(shí)發(fā)現(xiàn)解決問題,保障系統(tǒng)的在線正常運(yùn)行。中文
3、分詞子系統(tǒng)在查詢和更新中被調(diào)用,進(jìn)行信息的分詞處理。搜索引擎?zhèn)€子系統(tǒng)間的通信,采用了成熟的HTTP協(xié)議,該協(xié)議性能穩(wěn)定成熟,通過專門設(shè)計(jì)的HTTPServer達(dá)到非常高的傳輸性能。搜索引擎的索引數(shù)據(jù)隨著時(shí)間的積累會(huì)越來越多,系統(tǒng)設(shè)計(jì)采取了分布式存儲(chǔ)方式來滿足搜索性能和存儲(chǔ)容量的兩方面要求,分布式的存儲(chǔ)結(jié)構(gòu)通過一個(gè)目錄服務(wù)達(dá)到各節(jié)點(diǎn)數(shù)據(jù)同步的目的。分詞系統(tǒng)實(shí)現(xiàn)了最大正向匹配切分結(jié)合tr.。Gram排歧的分詞方法。關(guān)鍵詞搜索引擎;分布式存儲(chǔ);HTTP協(xié)議;中文分詞北京工業(yè)大學(xué)T程碩士學(xué)位論文AbstractTheprojectisonofthekeysub-projectof
4、thecompany'se-commercewebsite,projectdesignrequirements,includingtheimplementationofitsownChinesewordsegmentation,systemdesignedtoachieveamoderatesizeofthesearchenginesystem.Thestrongexpansionandstabilitymustbeconsidered.Althoughthesearchenginetechnologyisalreadymaturesolution,buttheproje
5、cthasbeenlimitedtospecialsearchengines,includingtheChinesewordprocessingtechnology,needtofullyowndesign,SOthisarticleforthesearchenginearchitecture,aswellasChinesewordsegmentationalgorithm,aredesignedfromthebeginning.Searchenginedesignusesahierarchicalstructure.Thesearchengineisdividedint
6、ofivelevels,namelytheinterfacelayer’thecorelayer,thestoragelayer,themonitorsystemandChinesewordsegmentationsystem.Interfacelayerisresponsiblefordealingwithexternalsearchenginesandproceduresofthecommunicationprocess.Thecorelayerconsistsoffoursub—systems:centralcontrolsystem,thebiddingsyste
7、m,searchperformingnodeandwordsegmentation,thecentercontrolsystemisthecoreofthesearchenginescontrolsystem,theauctionsystemisabletoachievecost—effectivesearchengine.Storagelayerisincludingtheindexdirectoryservicesanddatastoragenodes,nodescallbestoredwiththeneedsofexpa