基于中文分詞的搜索引擎設(shè)計實現(xiàn)

基于中文分詞的搜索引擎設(shè)計實現(xiàn)

ID:33101351

大?。?.38 MB

頁數(shù):66頁

時間:2019-02-20

基于中文分詞的搜索引擎設(shè)計實現(xiàn)_第1頁
基于中文分詞的搜索引擎設(shè)計實現(xiàn)_第2頁
基于中文分詞的搜索引擎設(shè)計實現(xiàn)_第3頁
基于中文分詞的搜索引擎設(shè)計實現(xiàn)_第4頁
基于中文分詞的搜索引擎設(shè)計實現(xiàn)_第5頁
資源描述:

《基于中文分詞的搜索引擎設(shè)計實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫

1、北京工業(yè)大學碩士學位論文基于中文分詞的搜索引擎設(shè)計實現(xiàn)姓名:王常星申請學位級別:碩士專業(yè):軟件工程指導(dǎo)教師:何涇沙;張?zhí)焐?0081201摘要本項目是公司的電子商務(wù)網(wǎng)站項目下的一個關(guān)鍵子項目,項目的設(shè)計要求包括根據(jù)已有的分詞算法,實現(xiàn)自有的中文分詞系統(tǒng),設(shè)計實現(xiàn)一個規(guī)模適中的搜索引擎系統(tǒng),具備較強的擴展性和穩(wěn)定性,控制搜索引擎的規(guī)模。雖然搜索引擎技術(shù)目前已經(jīng)有較為成熟的解決方案,但是由于項目特別限定了搜索引擎,包括中文分詞處理技術(shù),都需要采用完全自有的設(shè)計方案,因此本文所針對的搜索引擎架構(gòu)設(shè)計,以及中文分詞算法的實現(xiàn),都沒有采用已經(jīng)成型的開源設(shè)計方案。搜索引擎設(shè)計采用了層

2、次化的設(shè)計結(jié)構(gòu),將搜索引擎劃分為五個層次,分別是接口層,核心層,存儲層,監(jiān)控系統(tǒng)和中文分詞系統(tǒng)。接口層負責處理外部程序與搜索引擎的通信過程。核心層包括四個子系統(tǒng):中心控制系統(tǒng),競價系統(tǒng),搜索節(jié)點和分詞系統(tǒng),中心控制系統(tǒng)是搜索引擎的核心調(diào)度系統(tǒng),競價系統(tǒng)是搜索引擎可以實現(xiàn)經(jīng)濟效益。存儲層是搜索引擎索引數(shù)據(jù)的存儲系統(tǒng)所在位置,其中包括了索引目錄服務(wù)和數(shù)據(jù)存儲節(jié)點,存儲節(jié)點可隨需求進行擴展,增撤節(jié)點只要在目錄服務(wù)中作出相應(yīng)更新就可以實現(xiàn)存儲節(jié)點的擴展。搜索引擎集群在運行時,需要一個監(jiān)控系統(tǒng)來實時監(jiān)控系統(tǒng)各服務(wù)以及網(wǎng)絡(luò)的運行狀態(tài),便于及時發(fā)現(xiàn)解決問題,保障系統(tǒng)的在線正常運行。中文

3、分詞子系統(tǒng)在查詢和更新中被調(diào)用,進行信息的分詞處理。搜索引擎?zhèn)€子系統(tǒng)間的通信,采用了成熟的HTTP協(xié)議,該協(xié)議性能穩(wěn)定成熟,通過專門設(shè)計的HTTPServer達到非常高的傳輸性能。搜索引擎的索引數(shù)據(jù)隨著時間的積累會越來越多,系統(tǒng)設(shè)計采取了分布式存儲方式來滿足搜索性能和存儲容量的兩方面要求,分布式的存儲結(jié)構(gòu)通過一個目錄服務(wù)達到各節(jié)點數(shù)據(jù)同步的目的。分詞系統(tǒng)實現(xiàn)了最大正向匹配切分結(jié)合tr.。Gram排歧的分詞方法。關(guān)鍵詞搜索引擎;分布式存儲;HTTP協(xié)議;中文分詞北京工業(yè)大學T程碩士學位論文AbstractTheprojectisonofthekeysub-projectof

4、thecompany'se-commercewebsite,projectdesignrequirements,includingtheimplementationofitsownChinesewordsegmentation,systemdesignedtoachieveamoderatesizeofthesearchenginesystem.Thestrongexpansionandstabilitymustbeconsidered.Althoughthesearchenginetechnologyisalreadymaturesolution,buttheproje

5、cthasbeenlimitedtospecialsearchengines,includingtheChinesewordprocessingtechnology,needtofullyowndesign,SOthisarticleforthesearchenginearchitecture,aswellasChinesewordsegmentationalgorithm,aredesignedfromthebeginning.Searchenginedesignusesahierarchicalstructure.Thesearchengineisdividedint

6、ofivelevels,namelytheinterfacelayer’thecorelayer,thestoragelayer,themonitorsystemandChinesewordsegmentationsystem.Interfacelayerisresponsiblefordealingwithexternalsearchenginesandproceduresofthecommunicationprocess.Thecorelayerconsistsoffoursub—systems:centralcontrolsystem,thebiddingsyste

7、m,searchperformingnodeandwordsegmentation,thecentercontrolsystemisthecoreofthesearchenginescontrolsystem,theauctionsystemisabletoachievecost—effectivesearchengine.Storagelayerisincludingtheindexdirectoryservicesanddatastoragenodes,nodescallbestoredwiththeneedsofexpa

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。