中文分詞詞性標注系統(tǒng).ppt

中文分詞詞性標注系統(tǒng).ppt

ID:52379145

大小:397.50 KB

頁數(shù):29頁

時間:2020-04-05

中文分詞詞性標注系統(tǒng).ppt_第1頁
中文分詞詞性標注系統(tǒng).ppt_第2頁
中文分詞詞性標注系統(tǒng).ppt_第3頁
中文分詞詞性標注系統(tǒng).ppt_第4頁
中文分詞詞性標注系統(tǒng).ppt_第5頁
資源描述:

《中文分詞詞性標注系統(tǒng).ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫

1、中文自動分詞系統(tǒng)IRSEG設計與實現(xiàn)高立琦王卓然2004.9.20大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測中文分詞的意義和用途漢語的特點最小書寫單位為字最小表意單位為詞詞與詞之間沒有書寫邊界分詞系統(tǒng)的用途各種中文信息處理系統(tǒng)的基礎模塊自然語言處理信息檢索…大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計

2、基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測IRSEG系統(tǒng)框架設計文本斷句資源:詞典資源,未登錄詞知識庫等漢字原子切分構建分詞有向圖重疊詞識別未登錄詞識別歧義字段處理搜索最優(yōu)結果保留N個最優(yōu)結果輸出大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測數(shù)學模型與原理分析信道噪聲模型設S=c1c2…cn為輸入漢字序列,W=w1w2…wm為切分詞序列。分詞系統(tǒng)的任務是,找到一種切分結果W*,滿足:根據(jù)貝葉斯公式:假設:一個詞wi的出現(xiàn)概率以它前面的詞的出現(xiàn)沒有關系(Unigram模型)則:

3、為了實現(xiàn)上的方便,我們對上述公式取負對數(shù),得到:數(shù)學模型與原理分析(續(xù))構建分詞有向圖通過最短路徑搜索,即得最優(yōu)(概率最大)結果:結合/成/分子結合成分子大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測“N最短路徑”算法設計N最短路徑的思想中科院張華平博士提出”N最短路徑“粗分模型IRSEG系統(tǒng)的背景哈工大信息檢索研究室CUP自然語言理解平臺IRSEG中”N最短路徑”模塊的特點追求最短路徑的準確率和召回率在CUP平臺中利用高層語言信息的反饋糾正分詞結果算法設計利用分詞有向圖的特點(有向

4、無環(huán)圖)明顯減小了時間復雜度和空間復雜度“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000va

5、luePre10.10∞0∞0∞0valuepre7.760∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuep

6、re21.51∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.

7、2230.52∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2223.4330.0330.52valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。