資源描述:
《中文分詞詞性標注系統(tǒng).ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、中文自動分詞系統(tǒng)IRSEG設計與實現(xiàn)高立琦王卓然2004.9.20大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測中文分詞的意義和用途漢語的特點最小書寫單位為字最小表意單位為詞詞與詞之間沒有書寫邊界分詞系統(tǒng)的用途各種中文信息處理系統(tǒng)的基礎模塊自然語言處理信息檢索…大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計
2、基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測IRSEG系統(tǒng)框架設計文本斷句資源:詞典資源,未登錄詞知識庫等漢字原子切分構建分詞有向圖重疊詞識別未登錄詞識別歧義字段處理搜索最優(yōu)結果保留N個最優(yōu)結果輸出大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測數(shù)學模型與原理分析信道噪聲模型設S=c1c2…cn為輸入漢字序列,W=w1w2…wm為切分詞序列。分詞系統(tǒng)的任務是,找到一種切分結果W*,滿足:根據(jù)貝葉斯公式:假設:一個詞wi的出現(xiàn)概率以它前面的詞的出現(xiàn)沒有關系(Unigram模型)則:
3、為了實現(xiàn)上的方便,我們對上述公式取負對數(shù),得到:數(shù)學模型與原理分析(續(xù))構建分詞有向圖通過最短路徑搜索,即得最優(yōu)(概率最大)結果:結合/成/分子結合成分子大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設計數(shù)學模型與原理分析“N最短路徑”的算法設計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測“N最短路徑”算法設計N最短路徑的思想中科院張華平博士提出”N最短路徑“粗分模型IRSEG系統(tǒng)的背景哈工大信息檢索研究室CUP自然語言理解平臺IRSEG中”N最短路徑”模塊的特點追求最短路徑的準確率和召回率在CUP平臺中利用高層語言信息的反饋糾正分詞結果算法設計利用分詞有向圖的特點(有向
4、無環(huán)圖)明顯減小了時間復雜度和空間復雜度“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000va
5、luePre10.10∞0∞0∞0valuepre7.760∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuep
6、re21.51∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.
7、2230.52∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2223.4330.0330.52valuepre∞0∞0∞0∞0“N最短路徑”算法設計(續(xù))結合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4