資源描述:
《上帝的旨意和垃圾郵件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、上帝的旨意和垃圾郵件你一定無(wú)法想像《神的善行》的作者,他試圖證明的上帝的旨意結(jié)束后政府使人類幸福的準(zhǔn)則與我們討論的概率有關(guān)。你可能說(shuō)試圖解決機(jī)會(huì)理論問(wèn)題中的試驗(yàn)是概率的問(wèn)題。但上面兩項(xiàng)研究都是由ThomasBayes寫的,他曾經(jīng)是部長(zhǎng)和神學(xué)家。你如果沒(méi)有猜到上面兩項(xiàng)研究的作者是同一個(gè)人,也不要感覺(jué)不好,因?yàn)槟愕腻e(cuò)誤猜測(cè)可以幫助你應(yīng)用貝葉斯統(tǒng)計(jì),比如過(guò)濾垃圾郵件,關(guān)于此后面將學(xué)到更多。AnEssayTowardsSolving(關(guān)于機(jī)會(huì)的試驗(yàn))…寫完這個(gè)試驗(yàn)以后,Bayes就把他放在了一邊,我們只知道這
2、篇文章在Bayes死后才由他的朋友RichardPrice發(fā)表。依據(jù)Price的觀點(diǎn),這項(xiàng)研究證明了上帝的存在,是通過(guò)世界的結(jié)構(gòu)一定是受智慧和智者的力量影響的,進(jìn)而證明神明的存在。Bayes本人對(duì)這項(xiàng)研究是很謙虛的,他寫道:“數(shù)學(xué)不是試圖使人們理智思考,只是為了有趣(Price發(fā)表這篇文章時(shí),把這些話去掉了)。盡管Price很熱情的宣揚(yáng)貝葉斯定理,它還是受到了大多數(shù)統(tǒng)計(jì)學(xué)家的反對(duì),他們的理由是定理中所用到的先驗(yàn)概率其實(shí)就是主觀概率。另一些人的觀點(diǎn),認(rèn)為先驗(yàn)概率需要不斷的更新,不可能顯示所有更新后的先驗(yàn)
3、概率的結(jié)果(能很好的顯示當(dāng)前的結(jié)果)。然而一直有少數(shù)的統(tǒng)計(jì)學(xué)家,和眾多的非統(tǒng)計(jì)學(xué)家支持貝葉斯定理。貝葉斯定理在統(tǒng)計(jì)學(xué)的邊緣保持了150年以上。貝葉斯定理經(jīng)歷了被統(tǒng)計(jì)學(xué)屆放逐的漫長(zhǎng)歷程終于開始了回歸到統(tǒng)計(jì)學(xué)。那是在1940年,AnEssayTowards…再次發(fā)表,Edwards,Deming做了評(píng)論。(具有諷刺意味的是,像貝葉斯定理一樣,Deming的很多觀點(diǎn)也被忽視,直到晚些時(shí)候才被廣泛接受,在第18章中將對(duì)此做解釋。)現(xiàn)代計(jì)算機(jī)的發(fā)展把貝葉斯統(tǒng)計(jì)帶入到了主流研究領(lǐng)域。如今,貝葉斯統(tǒng)計(jì)正在使得計(jì)算機(jī)
4、變得越來(lái)越智能化??梢杂秘惾~斯技術(shù)進(jìn)行數(shù)據(jù)挖掘、圖像識(shí)別等。你所喜歡的互聯(lián)網(wǎng)搜索引擎有可能就使用了貝葉斯技術(shù),也就是使得你的搜索最大可能的接近你所要尋找的。但是你常遇到的垃圾郵件也是使用了貝葉斯技術(shù)?;氐降谝欢沃刑岬降腂ayes的兩項(xiàng)研究。研究文中單詞出現(xiàn)的頻率。一篇關(guān)于統(tǒng)計(jì)的文章出現(xiàn)機(jī)會(huì)(chance)、問(wèn)題(problem)和解決(solving)等詞匯。18世紀(jì)關(guān)于神學(xué)和宗教的文章出現(xiàn)的是第一個(gè)字母為大寫的Divine和Providence。有一些詞匯在這兩類文章中都很少出現(xiàn)如sedimenta
5、ry,igneous,和metamorphic。有一些詞匯可以出現(xiàn)在所有類型的書籍中,如a,an和the。因?yàn)槭褂昧烁怕?,這些句子中的關(guān)鍵詞可能是,也可能不是。當(dāng)然可能和不可能是模糊的概念,我們不能完全保證我們對(duì)一本書的分類是完全正確的。有一本書是關(guān)于一部影導(dǎo)演JohnWaters(頭發(fā)用著定型發(fā)膠)可能談到他與他幾部電影的明星Divine一起旅游,去見(jiàn)Providence(在Rhode島上)。我們不會(huì)誤解這是一部關(guān)于十八世紀(jì)神學(xué)方面的書籍,因?yàn)闀械钠渌~匯如film和movie不可能在十八世紀(jì)出現(xiàn)
6、。把書籍進(jìn)行分類是復(fù)雜的,在這里很難解釋。但我們可以找到簡(jiǎn)單的問(wèn)題加以解決,如新來(lái)的郵件是垃圾郵件還是合法的郵件?如果我們關(guān)注所有的發(fā)到一個(gè)地址上的郵件,我們通過(guò)程序來(lái)尋找垃圾郵件和合法郵件常用詞匯的頻率,以獲得貝葉斯定理的先驗(yàn)概率。當(dāng)研究者實(shí)現(xiàn)了上述研究,就實(shí)現(xiàn)了貝葉斯垃圾郵件功能。過(guò)濾功能需要計(jì)算:“在知道某個(gè)詞出現(xiàn)后,郵件是垃圾郵件的概率“,如果已知垃圾郵件中出現(xiàn)這個(gè)詞匯的概率P(A/B)和一個(gè)郵件是垃圾郵件的概率P(B),可以使用貝葉斯定理(公式4.9)推出上述概率。貝葉斯過(guò)濾功能可以很快地識(shí)
7、別垃圾郵件并且避免把合法郵件當(dāng)作垃圾郵件。大部分的貝葉斯過(guò)濾功能忽視兩種郵件共同出現(xiàn)的詞匯。過(guò)濾功能也可以通過(guò)垃圾郵件中高概率的詞匯集以及低概率的詞匯獲得。垃圾郵件制造者(喜歡發(fā)送垃圾郵件的人)為了成功發(fā)送垃圾郵件,也在研究這樣新的過(guò)濾技術(shù)。當(dāng)知道以往的垃圾郵件中Viagra出現(xiàn)的概率高時(shí),垃圾郵件制造者會(huì)以把詞匯故意拼寫錯(cuò)誤的方式愚弄過(guò)濾功能,如把Viagra寫成Vi@gr@或V1agra。但他們不會(huì)得逞的,因?yàn)殄e(cuò)誤拼寫的詞匯比原來(lái)的詞匯更容易被發(fā)現(xiàn)是垃圾郵件。當(dāng)然過(guò)濾功能也一直不斷的被訓(xùn)練。也就是
8、概率的更新以及使用者的反饋(如被標(biāo)記是合法郵件的卻是垃圾郵件)。如果最初Vi@gr@被當(dāng)作垃圾郵件,但是過(guò)濾功能很快就會(huì)知道這樣的郵件是垃圾郵件。(不要擔(dān)心會(huì)把合法郵件當(dāng)作垃圾郵件,大部分的過(guò)濾功能的建立是與概率有一定的偏差從而使得把合法郵件當(dāng)作垃圾郵件的可能性減小。)有一些其他的垃圾郵件制造者學(xué)了一點(diǎn)過(guò)濾功能的知識(shí),決定把”good“一詞加到郵件中。因?yàn)檫@個(gè)詞在垃圾郵件中出現(xiàn)的概率非常低。因而他們認(rèn)為,這樣就會(huì)改變過(guò)濾功能的評(píng)價(jià)結(jié)果,把垃圾郵件當(dāng)作了合