資源描述:
《基于中文分詞的搜索引擎設(shè)計實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、北京工業(yè)大學碩士學位論文基于中文分詞的搜索引擎設(shè)計實現(xiàn)姓名:王常星申請學位級別:碩士專業(yè):軟件工程指導(dǎo)教師:何涇沙;張?zhí)焐?0081201摘要本項目是公司的電子商務(wù)網(wǎng)站項目下的一個關(guān)鍵子項目,項目的設(shè)計要求包括根據(jù)已有的分詞算法,實現(xiàn)自有的中文分詞系統(tǒng),設(shè)計實現(xiàn)一個規(guī)模適中的搜索引擎系統(tǒng),具備較強的擴展性和穩(wěn)定性,控制搜索引擎的規(guī)模。雖然搜索引擎技術(shù)目前已經(jīng)有較為成熟的解決方案,但是由于項目特別限定了搜索引擎,包括中文分詞處理技術(shù),都需要采用完全自有的設(shè)計方案,因此本文所針對的搜索引擎架構(gòu)設(shè)計,以及中文分詞算法的實現(xiàn),都沒有采用已經(jīng)成型的開源設(shè)計方案。搜索引擎設(shè)計采用了層
2、次化的設(shè)計結(jié)構(gòu),將搜索引擎劃分為五個層次,分別是接口層,核心層,存儲層,監(jiān)控系統(tǒng)和中文分詞系統(tǒng)。接口層負責處理外部程序與搜索引擎的通信過程。核心層包括四個子系統(tǒng):中心控制系統(tǒng),競價系統(tǒng),搜索節(jié)點和分詞系統(tǒng),中心控制系統(tǒng)是搜索引擎的核心調(diào)度系統(tǒng),競價系統(tǒng)是搜索引擎可以實現(xiàn)經(jīng)濟效益。存儲層是搜索引擎索引數(shù)據(jù)的存儲系統(tǒng)所在位置,其中包括了索引目錄服務(wù)和數(shù)據(jù)存儲節(jié)點,存儲節(jié)點可隨需求進行擴展,增撤節(jié)點只要在目錄服務(wù)中作出相應(yīng)更新就可以實現(xiàn)存儲節(jié)點的擴展。搜索引擎集群在運行時,需要一個監(jiān)控系統(tǒng)來實時監(jiān)控系統(tǒng)各服務(wù)以及網(wǎng)絡(luò)的運行狀態(tài),便于及時發(fā)現(xiàn)解決問題,保障系統(tǒng)的在線正常運行。中文
3、分詞子系統(tǒng)在查詢和更新中被調(diào)用,進行信息的分詞處理。搜索引擎?zhèn)€子系統(tǒng)間的通信,采用了成熟的HTTP協(xié)議,該協(xié)議性能穩(wěn)定成熟,通過專門設(shè)計的HTTPServer達到非常高的傳輸性能。搜索引擎的索引數(shù)據(jù)隨著時間的積累會越來越多,系統(tǒng)設(shè)計采取了分布式存儲方式來滿足搜索性能和存儲容量的兩方面要求,分布式的存儲結(jié)構(gòu)通過一個目錄服務(wù)達到各節(jié)點數(shù)據(jù)同步的目的。分詞系統(tǒng)實現(xiàn)了最大正向匹配切分結(jié)合tr.。Gram排歧的分詞方法。關(guān)鍵詞搜索引擎;分布式存儲;HTTP協(xié)議;中文分詞北京工業(yè)大學T程碩士學位論文AbstractTheprojectisonofthekeysub-projectof
4、thecompany'se-commercewebsite,projectdesignrequirements,includingtheimplementationofitsownChinesewordsegmentation,systemdesignedtoachieveamoderatesizeofthesearchenginesystem.Thestrongexpansionandstabilitymustbeconsidered.Althoughthesearchenginetechnologyisalreadymaturesolution,buttheproje
5、cthasbeenlimitedtospecialsearchengines,includingtheChinesewordprocessingtechnology,needtofullyowndesign,SOthisarticleforthesearchenginearchitecture,aswellasChinesewordsegmentationalgorithm,aredesignedfromthebeginning.Searchenginedesignusesahierarchicalstructure.Thesearchengineisdividedint
6、ofivelevels,namelytheinterfacelayer’thecorelayer,thestoragelayer,themonitorsystemandChinesewordsegmentationsystem.Interfacelayerisresponsiblefordealingwithexternalsearchenginesandproceduresofthecommunicationprocess.Thecorelayerconsistsoffoursub—systems:centralcontrolsystem,thebiddingsyste
7、m,searchperformingnodeandwordsegmentation,thecentercontrolsystemisthecoreofthesearchenginescontrolsystem,theauctionsystemisabletoachievecost—effectivesearchengine.Storagelayerisincludingtheindexdirectoryservicesanddatastoragenodes,nodescallbestoredwiththeneedsofexpa