基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)

基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)

ID:34103358

大小:349.28 KB

頁數(shù):5頁

時(shí)間:2019-03-03

基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)_第1頁
基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)_第2頁
基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)_第3頁
基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)_第4頁
基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)_第5頁
資源描述:

《基于lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、2008年10月四川大學(xué)學(xué)報(bào)(自然科學(xué)版)Oct.2008第45卷第5期JournalofSichuanUniversity(NaturalScienceEdition)Vol.45No.5文章編號:049026756(2008)0521095205基于Lucene的中文分詞方法設(shè)計(jì)與實(shí)現(xiàn)112李穎,李志蜀,鄧歡(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610064;2.瀘州醫(yī)學(xué)院生物工程系,瀘州646000)摘要:本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)中文分詞模塊,其主要研究目的在于尋找更為有效的中文詞匯處理方法,提高全文檢索系統(tǒng)的中文處理能力

2、.整個(gè)模塊基于當(dāng)前最流行的搜索引擎架構(gòu)Lucene,實(shí)現(xiàn)了帶有歧義消除功能的正向最大匹配算法.在系統(tǒng)評測方面,比較了該方法與現(xiàn)有方法的區(qū)別,對于如何構(gòu)建一個(gè)高效的中文檢索系統(tǒng),提出了一種實(shí)現(xiàn).關(guān)鍵詞:中文分詞;搜索引擎;Lucene;正向最大匹配算法中圖分類號:TP391.12文獻(xiàn)標(biāo)識碼:ADesignandimplementationofChinesewordssegementationbasedonLucene112LIYing,LIZhi2Shu,DENGHuan(1.DepartmentofComputer

3、ScienceandTechnology,SichuanUniversity,Chengdu610064,China;2.DepartmentofBiomedicalEngineering,LuzhouMedicalCollege,Luzhou646000,China)Abstract:ThispaperdesignandimplementaChinesewordssegmentationmodule,whichmainlyfordealingwithChinesewordstoimprovetheabilityo

4、ffulltextsearchsystem.ThewholemodulebasedonthemostpopulararchitectureLucene,andimplementtheMaximumMatchingAlgorithmwiththeabilityofeliminatedifferentmeanings.Theauthorsalsocompareourmethodwithmethodsinexistence,andbringforwardaim2plementationabouthowtoconstruc

5、tahighefficiencyChinesesearchingsystem.Keywords:Chinesewordsegmentation,searchengine,Lucene,forwardsmaximummatchalgorithm同,中文的詞匯構(gòu)成方法多種多樣,組成詞匯的字1引言數(shù)各不相同,句子中所有的字連起來才能描述一個(gè)信息世界的發(fā)展和擴(kuò)容用一日千里來形容已意思,而英文是以詞為單位的,詞和詞之間是靠空經(jīng)毫不為過了,每月增加的新的信息資訊可以以百格隔開.因此對于中文字符串,需要經(jīng)過特殊的中萬記.在這浩如

6、煙海的信息海洋中,如何及時(shí),準(zhǔn)確文分詞處理才能進(jìn)行有效的檢索.目前比較常用和地獲取自己需要的資訊,是在當(dāng)今社會(huì)掌握先機(jī),實(shí)用的主要有正向最大匹配法MM(Maximum把握機(jī)遇的必備條件.中國也在世界發(fā)展的過程中MatchingAlgorithm),反向最大匹配法RMM(Re2逐漸積累,將科技資源轉(zhuǎn)化為科技資本,漢語,方塊verseDirectionMaximumMatchingAlgorithm),二字也將自己匯入了這股信息的大潮中.但是由于中次掃描法等等.同時(shí)中文語句的切分還必須考慮歧文的特殊情況,中文分詞成了中

7、文信息檢索中橫亙義的情況.我們著重在于設(shè)計(jì)改進(jìn)的正向最大匹配在信息工作者面前的一道屏障.和英文的單詞不算法的中文分詞方法,同時(shí)該方法具有較好的歧義收稿日期:2007207204基金項(xiàng)目:四川省重點(diǎn)科技項(xiàng)目(05GG021200322)作者簡介:李穎(1981-),男,四川內(nèi)江人,碩士研究生,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)與信息系統(tǒng).E2mail:liying.working@gmail.com1096四川大學(xué)學(xué)報(bào)(自然科學(xué)版)第45卷消除功能.在平臺方面,使用ApacheFoundation下不會(huì)過分.只有逾越這個(gè)障礙,中文處

8、理系統(tǒng)才稱的全文檢索工具Lucene作為檢索平臺,通過重新得上初步打上了“智能”的印記,構(gòu)建于詞平面之上編寫Lucene的分詞模塊來實(shí)現(xiàn)更為高效準(zhǔn)確的分的各種后續(xù)語言分析手段才有展示身手的舞臺.進(jìn)詞程序.一步的工作就是進(jìn)行語句的語義分析,這也是中文自然語言處理的一個(gè)難點(diǎn),其中有一部分的工作就2Lucene全文檢索引擎是消除語義中的歧義,這是提高中文分詞系統(tǒng)準(zhǔn)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。