資源描述:
《基于隱馬爾科夫模型的命名實體識別》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基于馬爾科夫模型的命名實體識別NE識別的數(shù)學(xué)描述利用HMM解決序列標(biāo)注問題,即給定一個觀察值的序列,要尋找一個最優(yōu)的標(biāo)記序列,使得條件概率最大。根據(jù)貝葉斯公式可得:在NE識別問題中,X是給定的句子,觀察值為詞性或詞,則上式中P(X)對所有的類別都是一樣的,因此可以忽略不考慮。則上面的公式可以轉(zhuǎn)化為下面的形式:即HMM實質(zhì)式求解一個聯(lián)合概率。上式中的標(biāo)記序列Y可以看做是一個馬爾科夫鏈,則對上式利用乘法公式有:基于HMM的NE識別的問題就是如何在給定的模型下,從一定觀察值序列的所有可能的狀態(tài)下,選取最有的標(biāo)記序列。常用的方法是viterbi算法,它屬于動態(tài)規(guī)劃算法,動
2、態(tài)規(guī)劃的思想是把問題分解,先解決最基本的子問題,再逐步外推尋找更大的子問題的最優(yōu)解,在有限步后達(dá)到整個問題的最優(yōu)解,即得到最有的NE標(biāo)記序列隱馬爾科夫模型觀察到的事件是狀態(tài)的隨機(jī)函數(shù),該模型是一個雙重的隨機(jī)過程,其中模型的狀態(tài)轉(zhuǎn)換過程是不可觀察的。可觀察的事件的隨機(jī)過程是隱藏的狀態(tài)轉(zhuǎn)換過程的隨機(jī)函數(shù)。形式化的描述為一個五元組。1.S表示模型中的狀態(tài),N是模型的狀態(tài)數(shù)。所有獨立的狀態(tài)定義為,且用來表示t時刻的狀態(tài)。2.O表示每個狀態(tài)的觀察值,M表示每個狀態(tài)上對應(yīng)的可能的觀察值的數(shù)目。觀察值對應(yīng)于模型系統(tǒng)的實際輸出,觀察值記為:3.狀態(tài)轉(zhuǎn)移概率矩陣,其中,1<=i,j
3、<=N,表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率,滿足:>=0,;且。4.輸出觀察值概率分布矩陣,其中表示在狀態(tài)下,t時刻出現(xiàn)的概率,即,1<=j<=N,1<=k<=M.5.初始狀態(tài)分布向量,其中,即在t=1時刻處于狀態(tài)的概率,滿足:。HMM模型需解決的三個問題:(1)評估問題。給定一個觀察序列,以及模型,如何有效的計算,也就是這個觀測序列有多大可能是由該模型產(chǎn)生的;(2)解碼問題。給定觀測序列以及模型,如何選擇一個狀態(tài)序列,使得觀測序列O式最具可能的,即求解;(3)學(xué)習(xí)問題。如何能夠通過調(diào)整參數(shù)以最大化ICTCLAS分詞的詞性列表1.名詞(1個一類,7個二類,5個三類)名
4、詞分為以下子類:n名詞nr人名nr1漢語姓氏nr2漢語名字nrj日語人名nrf音譯人名ns地名nsf音譯地名nt機(jī)構(gòu)團(tuán)體名nz其它專名nl名詞性慣用語ng名詞性語素1.時間詞(1個一類,1個二類)t時間詞tg時間詞性語素2.處所詞(1個一類)s處所詞3.方位詞(1個一類)f方位詞4.動詞(1個一類,9個二類)v動詞vd副動詞vn名動詞vshi動詞“是”vyou動詞“有”vf趨向動詞vx形式動詞vi不及物動詞(內(nèi)動詞)vl動詞性慣用語vg動詞性語素5.形容詞(1個一類,4個二類)a形容詞ad副形詞an名形詞ag形容詞性語素al形容詞性慣用語6.區(qū)別詞(1個一類,2個
5、二類)b區(qū)別詞bl區(qū)別詞性慣用語7.狀態(tài)詞(1個一類)z狀態(tài)詞8.代詞(1個一類,4個二類,6個三類)r代詞rr人稱代詞rz指示代詞rzt時間指示代詞rzs處所指示代詞rzv謂詞性指示代詞ry疑問代詞ryt時間疑問代詞rys處所疑問代詞ryv謂詞性疑問代詞rg代詞性語素1.數(shù)詞(1個一類,1個二類)m數(shù)詞mq數(shù)量詞2.量詞(1個一類,2個二類)q量詞qv動量詞qt時量詞3.副詞(1個一類)d副詞4.介詞(1個一類,2個二類)p介詞pba介詞“把”pbei介詞“被”5.連詞(1個一類,1個二類)c連詞cc并列連詞6.助詞(1個一類,15個二類)u助詞uzhe著ule
6、了嘍uguo過ude1的底u(yù)de2地ude3得usuo所udeng等等等云云uyy一樣一般似的般udh的話uls來講來說而言說來uzhi之ulian連(“連小學(xué)生都會”)7.嘆詞(1個一類)e嘆詞1.語氣詞(1個一類)y語氣詞(deleteyg)2.擬聲詞(1個一類)o擬聲詞3.前綴(1個一類)h前綴4.后綴(1個一類)k后綴5.字符串(1個一類,2個二類)x字符串xx非語素字xu網(wǎng)址URL6.標(biāo)點符號(1個一類,16個二類)w標(biāo)點符號wkz左括號,全角:(〔[{《【〖〈半角:([{wyz左引號,全角:“‘『wy
7、y右引號,全角:”’』wj句號,全角:。ww問號,全角:?半角:?wt嘆號,全角:!半角:!wd逗號,全角:,半角:,wf分號,全角:;半角:;wn頓號,全角:、wm冒號,全角::半角::ws省略號,全角:………wp破折號,全角:——--——-半角:-------wb百分號千分號,全角:%‰半角:%wh單位符號,全角:¥$£°℃半角:$