中文分詞詞性標(biāo)注系統(tǒng)

中文分詞詞性標(biāo)注系統(tǒng)

ID:5983649

大小:397.50 KB

頁數(shù):29頁

時間:2017-11-13

中文分詞詞性標(biāo)注系統(tǒng)_第1頁
中文分詞詞性標(biāo)注系統(tǒng)_第2頁
中文分詞詞性標(biāo)注系統(tǒng)_第3頁
中文分詞詞性標(biāo)注系統(tǒng)_第4頁
中文分詞詞性標(biāo)注系統(tǒng)_第5頁
資源描述:

《中文分詞詞性標(biāo)注系統(tǒng)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、中文自動分詞系統(tǒng)IRSEG設(shè)計與實現(xiàn)高立琦王卓然2004.9.20大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測中文分詞的意義和用途漢語的特點最小書寫單位為字最小表意單位為詞詞與詞之間沒有書寫邊界分詞系統(tǒng)的用途各種中文信息處理系統(tǒng)的基礎(chǔ)模塊自然語言處理信息檢索…大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“

2、N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測IRSEG系統(tǒng)框架設(shè)計文本斷句資源:詞典資源,未登錄詞知識庫等漢字原子切分構(gòu)建分詞有向圖重疊詞識別未登錄詞識別歧義字段處理搜索最優(yōu)結(jié)果保留N個最優(yōu)結(jié)果輸出大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測數(shù)學(xué)模型與原理分析信道噪聲模型設(shè)S=c1c2…cn為輸入漢字序列,W=w1w2…wm為切分詞序列。分詞系統(tǒng)的任務(wù)是,找到一種切分結(jié)果W*,滿足:根據(jù)貝葉斯公式:假設(shè):一個詞wi的出現(xiàn)概率以它前面

3、的詞的出現(xiàn)沒有關(guān)系(Unigram模型)則:為了實現(xiàn)上的方便,我們對上述公式取負(fù)對數(shù),得到:數(shù)學(xué)模型與原理分析(續(xù))構(gòu)建分詞有向圖通過最短路徑搜索,即得最優(yōu)(概率最大)結(jié)果:結(jié)合/成/分子結(jié)合成分子大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測“N最短路徑”算法設(shè)計N最短路徑的思想中科院張華平博士提出”N最短路徑“粗分模型IRSEG系統(tǒng)的背景哈工大信息檢索研究室CUP自然語言理解平臺IRSEG中”N最短路徑”模塊的特點追求最短路徑的準(zhǔn)確率和召回率在CUP平臺中利

4、用高層語言信息的反饋糾正分詞結(jié)果算法設(shè)計利用分詞有向圖的特點(有向無環(huán)圖)明顯減小了時間復(fù)雜度和空間復(fù)雜度“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞

5、0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.760∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre

6、00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre21.51∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.

7、10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2230.52∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2223.4330.0330.52valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valueP

8、re10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。