中文分詞算法 之 基于詞典的逆向最大匹配算法

中文分詞算法 之 基于詞典的逆向最大匹配算法

ID:37556047

大小:861.79 KB

頁數(shù):16頁

時間:2019-05-25

中文分詞算法 之 基于詞典的逆向最大匹配算法_第1頁
中文分詞算法 之 基于詞典的逆向最大匹配算法_第2頁
中文分詞算法 之 基于詞典的逆向最大匹配算法_第3頁
中文分詞算法 之 基于詞典的逆向最大匹配算法_第4頁
中文分詞算法 之 基于詞典的逆向最大匹配算法_第5頁
資源描述:

《中文分詞算法 之 基于詞典的逆向最大匹配算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、中文分詞算法之基于詞典的逆向最大匹配算法楊尚川在之前的博文中介紹了基于詞典的正向最大匹配算法,用了不到50行代碼就實現(xiàn)了,然后分析了詞典查找算法的時空復雜性,最后使用前綴樹來實現(xiàn)詞典查找算法,并做了3次優(yōu)化。下面我們看看基于詞典的逆向最大匹配算法的實現(xiàn),實驗表明,對于漢語來說,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代碼所示:publicstaticListsegReverse(Stringtext){Stackresult=newStack<>();while(tex

2、t.length()>0){intlen=MAX_LENGTH;if(text.length()

3、Word.substring(1);}result.push(tryWord);//從待分詞文本中去除已經(jīng)分詞的文本text=text.substring(0,text.length()-tryWord.length());}intlen=result.size();Listlist=newArrayList<>(len);for(inti=0;i

4、體差異如下圖所示:1中文分詞算法之基于詞典的逆向最大匹配算法楊尚川-下面看看正向和逆向的分詞效果,使用如下代碼:publicstaticvoidmain(String[]args){Listsentences=newArrayList<>();2中文分詞算法之基于詞典的逆向最大匹配算法楊尚川sentences.add("楊尚川是APDPlat應用級產(chǎn)品開發(fā)平臺的作者");sentences.add("研究生命的起源");sentences.add("長春市長春節(jié)致辭");sentences.ad

5、d("他從馬上下來");sentences.add("乒乓球拍賣完了");sentences.add("咬死獵人的狗");sentences.add("大學生活象白紙");sentences.add("他有各種才能");sentences.add("有意見分歧");for(Stringsentence:sentences){System.out.println("正向最大匹配:"+seg(sentence));System.out.println("逆向最大匹配:"+segReverse(sentence));

6、}}運行結(jié)果如下:開始初始化詞典完成初始化詞典,詞數(shù)目:427452最大分詞長度:16正向最大匹配:[楊尚川,是,APDPlat,應用,級,產(chǎn)品開發(fā),平臺,的,作者]逆向最大匹配:[楊尚川,是,APDPlat,應用,級,產(chǎn)品開發(fā),平臺,的,作者]正向最大匹配:[研究生,命,的,起源]逆向最大匹配:[研究,生命,的,起源]正向最大匹配:[長春市,長春,節(jié),致辭]逆向最大匹配:[長春,市長,春節(jié),致辭]正向最大匹配:[他,從,馬上,下來]逆向最大匹配:[他,從,馬上,下來]正向最大匹配:[乒乓球拍,賣完,了]逆向最

7、大匹配:[乒乓球拍,賣完,了]正向最大匹配:[咬,死,獵人,的,狗]逆向最大匹配:[咬,死,獵人,的,狗]正向最大匹配:[大學生,活象,白紙]逆向最大匹配:[大學生,活象,白紙]正向最大匹配:[他,有,各種,才能]逆向最大匹配:[他,有,各種,才能]正向最大匹配:[有意,見,分歧]逆向最大匹配:[有,意見分歧]3中文分詞算法之基于詞典的逆向最大匹配算法楊尚川下面看看實際的分詞性能如何,對輸入文件進行分詞,然后將分詞結(jié)果保存到輸出文件,輸入文本文件從這里下載,解壓后大小為69M,詞典文件從這里下載,解壓后大小為4

8、.5M,項目源代碼托管在GITHUB:/***將一個文件分詞后保存到另一個文件*@author楊尚川*/publicclassSegFile{publicstaticvoidmain(String[]args)throwsException{Stringinput="input.txt";Stringoutput="output.txt";if(args.length==2){inpu

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。