資源描述:
《中文分詞詞性標(biāo)注系統(tǒng)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、中文自動分詞系統(tǒng)IRSEG設(shè)計與實現(xiàn)高立琦王卓然2004.9.20大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測中文分詞的意義和用途漢語的特點最小書寫單位為字最小表意單位為詞詞與詞之間沒有書寫邊界分詞系統(tǒng)的用途各種中文信息處理系統(tǒng)的基礎(chǔ)模塊自然語言處理信息檢索…大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“
2、N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測IRSEG系統(tǒng)框架設(shè)計文本斷句資源:詞典資源,未登錄詞知識庫等漢字原子切分構(gòu)建分詞有向圖重疊詞識別未登錄詞識別歧義字段處理搜索最優(yōu)結(jié)果保留N個最優(yōu)結(jié)果輸出大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測數(shù)學(xué)模型與原理分析信道噪聲模型設(shè)S=c1c2…cn為輸入漢字序列,W=w1w2…wm為切分詞序列。分詞系統(tǒng)的任務(wù)是,找到一種切分結(jié)果W*,滿足:根據(jù)貝葉斯公式:假設(shè):一個詞wi的出現(xiàn)概率以它前面
3、的詞的出現(xiàn)沒有關(guān)系(Unigram模型)則:為了實現(xiàn)上的方便,我們對上述公式取負(fù)對數(shù),得到:數(shù)學(xué)模型與原理分析(續(xù))構(gòu)建分詞有向圖通過最短路徑搜索,即得最優(yōu)(概率最大)結(jié)果:結(jié)合/成/分子結(jié)合成分子大綱中文分詞的意義和用途IRSEG系統(tǒng)框架設(shè)計數(shù)學(xué)模型與原理分析“N最短路徑”的算法設(shè)計基于局部Bigram模型的未登錄詞識別模塊系統(tǒng)評測“N最短路徑”算法設(shè)計N最短路徑的思想中科院張華平博士提出”N最短路徑“粗分模型IRSEG系統(tǒng)的背景哈工大信息檢索研究室CUP自然語言理解平臺IRSEG中”N最短路徑”模塊的特點追求最短路徑的準(zhǔn)確率和召回率在CUP平臺中利
4、用高層語言信息的反饋糾正分詞結(jié)果算法設(shè)計利用分詞有向圖的特點(有向無環(huán)圖)明顯減小了時間復(fù)雜度和空間復(fù)雜度“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞
5、0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.760∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre
6、00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre21.51∞0∞0∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre∞0∞0∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.
7、10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2230.52∞0∞0valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valuePre10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4221.5127.62∞0valuepre18.2223.4330.0330.52valuepre∞0∞0∞0∞0“N最短路徑”算法設(shè)計(續(xù))結(jié)合成分子valuepre00000000valueP
8、re10.10∞0∞0∞0valuepre7.76020.01∞0∞0valuepre14.4