2014.6.14-最大熵Maximum entropy

2014.6.14-最大熵Maximum entropy

ID:40554801

大?。?11.00 KB

頁數(shù):6頁

時間:2019-08-04

2014.6.14-最大熵Maximum entropy_第1頁
2014.6.14-最大熵Maximum entropy_第2頁
2014.6.14-最大熵Maximum entropy_第3頁
2014.6.14-最大熵Maximum entropy_第4頁
2014.6.14-最大熵Maximum entropy_第5頁
資源描述:

《2014.6.14-最大熵Maximum entropy》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫

1、Maximumentropymodeling(一)0.寫在前面的話初次接觸最大熵的時候,有點覺得無厘頭,因為熵是代表信息的混亂程度,那么最大熵不就是最大化信息的混亂程度?這樣的模型能用嗎?后來看了基本概念,最大熵是有前提的,就是要在保持我們的模型在符合已知信息的情況下,對未知信息保持最大熵。這個定義就簡單明了的說明了最大熵的意義和條件。但具體如何應(yīng)用呢?很多事情我們都是有個概念,但是對于具體怎么實現(xiàn)呢?在數(shù)學上的表現(xiàn)形式是什么呢?接下來根據(jù)自己的理解和部分參考文獻介紹最一下大熵這個問題,爭取做到既簡單又

2、明了。主要參考《amaximumentropyapproachtonaturallanguageprocessing》。1.Introduction要對一個隨機過程或者事件進行建模,要完成兩個任務(wù):1.決定有哪些捕捉到了這個隨機過程或事件的統(tǒng)計量;將這些得到的統(tǒng)計量或者說facts用模型關(guān)聯(lián)起來。2.Amaximumentropyoverview這里首先從一個實際的例子出發(fā)來引入maximumentropy的概念。假定我們現(xiàn)在面臨的任務(wù)是:把英語單詞in翻譯成法語。我們的模型用p(f)來表示把這個單詞翻

3、譯成法語單詞f的概率。為了能夠更加準確的把in這個單詞正確的翻譯出來,我們收集了許多以前的翻譯樣本,這些我們收集的以前的翻譯樣本就構(gòu)成了我們的訓(xùn)練集。現(xiàn)在我們應(yīng)當做什么呢?自然是要先從收集的訓(xùn)練集中提取盡可能多和準確的有用的信息,然后把這個信息用來幫助我們構(gòu)建我們的模型,其實就是用這個信息來合理的約束我們的模型,最后就用構(gòu)建的模型來實現(xiàn)我們起初的任務(wù)?,F(xiàn)在就要從訓(xùn)練集中提取信息了。通過觀察,我們發(fā)現(xiàn)在訓(xùn)練集中in這個單詞經(jīng)常會被翻譯為以下5個單詞中一個:{dans,en,à,aucoursde,pend

4、ant}.利用這個信息,我們可以對我們的模型施加第一個約束,(一個泛泛的模型太多了,通過訓(xùn)練集中的信息逐步的施加約束,逐步的縮小模型的可行范圍,到最后就可以確定求解出具體的模型了)。這個約束可以寫成:上面這個式子代表了我們從訓(xùn)練集中提取的第一個信息。接下來,繼續(xù)提取信息,施加約束,因為滿足上述式子的模型也有很多啊,可以讓第一項等于1,其他項都為0,即每次都把in翻譯成dans。但這樣顯然不太合理。那假如說現(xiàn)在沒有其他信息了,沒有信息來進一步說明哪個詞占得比例大一些,哪個詞占得比例小一些,那怎樣選擇模型在

5、這5個單詞上的概率才算合理呢?這時,我們都可以想到,最保險的做法就是讓in被翻譯成這5個單詞的概率相等,也就是上面的這個模型就是對這5個詞均勻分配,誰也不偏重,因為沒有信息告訴我們要偏重誰啊,所以這個做法最保險,因為沒有違背我們已知的信息(會被翻譯成這5個詞),也沒有施加別的我們未知的假設(shè)。接下來,看能不能繼續(xù)從訓(xùn)練集里挖掘信息呢?假如說我們現(xiàn)在有了一個新信息:在訓(xùn)練集中有30%的時候,in會被翻譯成dans或者en。把這個信息寫成概率形式施加到模型上,就得到:我們的模型越來越具體了,但是還是有很多分布

6、都可以滿足上面的兩個式子。假如說現(xiàn)在沒有其他信息了,只知道我們的模型必須滿足上面兩個約束,那如何選取各個概率值呢?答案跟第一次選擇分布的時候一樣,最保險的做法就是讓這5個單詞在滿足條件的情況下均勻分配,也就得到:上面的是比較簡單的情況。假如說我們現(xiàn)在又觀察到一個fact,就是有一半的時候,in會被翻譯成dans和à。把這個信息再加入到上述的模型中,就得到:理論上,有了上面這個之后,我們大可以像之前一樣,選擇滿足條件的情況下最均勻的分配各個單詞的概率就行了。但是這時候就沒有那么直觀了。不能一下子寫出來,但

7、是我們可以通過一定方法步驟求出來這個概率分布呀。那就遇到問題了,(1).我們要求的是最均勻分配的那個分布,那如何衡量這個均勻性“uniform”呢?(2).假如問題1解決了后,我們就沿著這個標準做就行了,那如何來具體找到那個mostuniform的model呢?大家想必也猜出來了,此時最大熵原理就應(yīng)運而生了。3.最大熵建模(MaximumEntropyModeling)有了上面比較直觀的例子后,接下來以比較正式的方式介紹最大熵建模。對于建模來說,我們的任務(wù)可以認為是要考慮一個輸出為y∈?的隨機過程,然后

8、構(gòu)建一個可以準確表示這個過程的模型。具體到上面翻譯的那個例子中,這個過程就是要產(chǎn)生一個in的對應(yīng)翻譯輸出y∈{dans,en,??,aucoursde,pendant}.而產(chǎn)生y的這個過程可能會利用到別的context信息(例如上邊我們發(fā)現(xiàn)的in后面跟著什么詞有可能會被翻譯成什么等)假定為x∈?.可以看出這樣一個模型其實就是在估計給定contextx時,所估計的隨機過程會輸出y的條件概率p(y

9、x)∈?.(其中?,?,?就是所有的對應(yīng)元素y

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。