資源描述:
《基于隱馬爾科夫模型的命名實(shí)體識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、基于馬爾科夫模型的命名實(shí)體識(shí)別NE識(shí)別的數(shù)學(xué)描述利用HMM解決序列標(biāo)注問(wèn)題,即給定一個(gè)觀察值的序列,要尋找一個(gè)最優(yōu)的標(biāo)記序列,使得條件概率最大。根據(jù)貝葉斯公式可得:在NE識(shí)別問(wèn)題中,X是給定的句子,觀察值為詞性或詞,則上式中P(X)對(duì)所有的類別都是一樣的,因此可以忽略不考慮。則上面的公式可以轉(zhuǎn)化為下面的形式:即HMM實(shí)質(zhì)式求解一個(gè)聯(lián)合概率。上式中的標(biāo)記序列Y可以看做是一個(gè)馬爾科夫鏈,則對(duì)上式利用乘法公式有:基于HMM的NE識(shí)別的問(wèn)題就是如何在給定的模型下,從一定觀察值序列的所有可能的狀態(tài)下,選取最有的標(biāo)記序列。常用的方法是viterbi算法,它屬于動(dòng)態(tài)規(guī)劃算法,動(dòng)
2、態(tài)規(guī)劃的思想是把問(wèn)題分解,先解決最基本的子問(wèn)題,再逐步外推尋找更大的子問(wèn)題的最優(yōu)解,在有限步后達(dá)到整個(gè)問(wèn)題的最優(yōu)解,即得到最有的NE標(biāo)記序列隱馬爾科夫模型觀察到的事件是狀態(tài)的隨機(jī)函數(shù),該模型是一個(gè)雙重的隨機(jī)過(guò)程,其中模型的狀態(tài)轉(zhuǎn)換過(guò)程是不可觀察的。可觀察的事件的隨機(jī)過(guò)程是隱藏的狀態(tài)轉(zhuǎn)換過(guò)程的隨機(jī)函數(shù)。形式化的描述為一個(gè)五元組。1.S表示模型中的狀態(tài),N是模型的狀態(tài)數(shù)。所有獨(dú)立的狀態(tài)定義為,且用來(lái)表示t時(shí)刻的狀態(tài)。2.O表示每個(gè)狀態(tài)的觀察值,M表示每個(gè)狀態(tài)上對(duì)應(yīng)的可能的觀察值的數(shù)目。觀察值對(duì)應(yīng)于模型系統(tǒng)的實(shí)際輸出,觀察值記為:3.狀態(tài)轉(zhuǎn)移概率矩陣,其中,1<=i,j
3、<=N,表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率,滿足:>=0,;且。4.輸出觀察值概率分布矩陣,其中表示在狀態(tài)下,t時(shí)刻出現(xiàn)的概率,即,1<=j<=N,1<=k<=M.5.初始狀態(tài)分布向量,其中,即在t=1時(shí)刻處于狀態(tài)的概率,滿足:。HMM模型需解決的三個(gè)問(wèn)題:(1)評(píng)估問(wèn)題。給定一個(gè)觀察序列,以及模型,如何有效的計(jì)算,也就是這個(gè)觀測(cè)序列有多大可能是由該模型產(chǎn)生的;(2)解碼問(wèn)題。給定觀測(cè)序列以及模型,如何選擇一個(gè)狀態(tài)序列,使得觀測(cè)序列O式最具可能的,即求解;(3)學(xué)習(xí)問(wèn)題。如何能夠通過(guò)調(diào)整參數(shù)以最大化ICTCLAS分詞的詞性列表1.名詞(1個(gè)一類,7個(gè)二類,5個(gè)三類)名
4、詞分為以下子類:n名詞nr人名nr1漢語(yǔ)姓氏nr2漢語(yǔ)名字nrj日語(yǔ)人名nrf音譯人名ns地名nsf音譯地名nt機(jī)構(gòu)團(tuán)體名nz其它專名nl名詞性慣用語(yǔ)ng名詞性語(yǔ)素1.時(shí)間詞(1個(gè)一類,1個(gè)二類)t時(shí)間詞tg時(shí)間詞性語(yǔ)素2.處所詞(1個(gè)一類)s處所詞3.方位詞(1個(gè)一類)f方位詞4.動(dòng)詞(1個(gè)一類,9個(gè)二類)v動(dòng)詞vd副動(dòng)詞vn名動(dòng)詞vshi動(dòng)詞“是”vyou動(dòng)詞“有”vf趨向動(dòng)詞vx形式動(dòng)詞vi不及物動(dòng)詞(內(nèi)動(dòng)詞)vl動(dòng)詞性慣用語(yǔ)vg動(dòng)詞性語(yǔ)素5.形容詞(1個(gè)一類,4個(gè)二類)a形容詞ad副形詞an名形詞ag形容詞性語(yǔ)素al形容詞性慣用語(yǔ)6.區(qū)別詞(1個(gè)一類,2個(gè)
5、二類)b區(qū)別詞bl區(qū)別詞性慣用語(yǔ)7.狀態(tài)詞(1個(gè)一類)z狀態(tài)詞8.代詞(1個(gè)一類,4個(gè)二類,6個(gè)三類)r代詞rr人稱代詞rz指示代詞rzt時(shí)間指示代詞rzs處所指示代詞rzv謂詞性指示代詞ry疑問(wèn)代詞ryt時(shí)間疑問(wèn)代詞rys處所疑問(wèn)代詞ryv謂詞性疑問(wèn)代詞rg代詞性語(yǔ)素1.數(shù)詞(1個(gè)一類,1個(gè)二類)m數(shù)詞mq數(shù)量詞2.量詞(1個(gè)一類,2個(gè)二類)q量詞qv動(dòng)量詞qt時(shí)量詞3.副詞(1個(gè)一類)d副詞4.介詞(1個(gè)一類,2個(gè)二類)p介詞pba介詞“把”pbei介詞“被”5.連詞(1個(gè)一類,1個(gè)二類)c連詞cc并列連詞6.助詞(1個(gè)一類,15個(gè)二類)u助詞uzhe著ule
6、了嘍uguo過(guò)ude1的底u(yù)de2地ude3得usuo所udeng等等等云云uyy一樣一般似的般udh的話uls來(lái)講來(lái)說(shuō)而言說(shuō)來(lái)uzhi之ulian連(“連小學(xué)生都會(huì)”)7.嘆詞(1個(gè)一類)e嘆詞1.語(yǔ)氣詞(1個(gè)一類)y語(yǔ)氣詞(deleteyg)2.擬聲詞(1個(gè)一類)o擬聲詞3.前綴(1個(gè)一類)h前綴4.后綴(1個(gè)一類)k后綴5.字符串(1個(gè)一類,2個(gè)二類)x字符串xx非語(yǔ)素字xu網(wǎng)址URL6.標(biāo)點(diǎn)符號(hào)(1個(gè)一類,16個(gè)二類)w標(biāo)點(diǎn)符號(hào)wkz左括號(hào),全角:(〔[{《【〖〈半角:([{wyz左引號(hào),全角:“‘『wy
7、y右引號(hào),全角:”’』wj句號(hào),全角:。ww問(wèn)號(hào),全角:?半角:?wt嘆號(hào),全角:!半角:!wd逗號(hào),全角:,半角:,wf分號(hào),全角:;半角:;wn頓號(hào),全角:、wm冒號(hào),全角::半角::ws省略號(hào),全角:………wp破折號(hào),全角:——--——-半角:-------wb百分號(hào)千分號(hào),全角:%‰半角:%wh單位符號(hào),全角:¥$£°℃半角:$