資源描述:
《信息熵在日益復(fù)雜世界中重要應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、信息熵在日益復(fù)雜的世界中的重要應(yīng)用高劍波1,21PMB智能有限責(zé)任公司,森尼韋爾,CA94087,美國3WrightStateuniversity,Dayton,Ohio,USAjbgao.pmb@gmail.com摘要:什么是信息?在這個信息爆炸的時代,信息熵扮演什么角色?為了回答和理解這些問題,本文討論了信息熵的起源,信息熵與熱力學(xué)熵的區(qū)別,信息熵在復(fù)雜性理論(包括混沌理論和分形理論)中扮演的角色;并推測信息熵可能會起重要作用的新領(lǐng)域。關(guān)鍵詞:信息,信息熵,復(fù)雜性,混沌,分形1.引言我們正處于一個信息時代嗎?若認(rèn)識到信息的本質(zhì)在于增加知識和減少不確
2、定性,那么答案顯然是肯定的,以下各點也無疑支持了這個答案:(1)存儲設(shè)備的演化:從144KB的軟盤,100MB和250MB的Zip驅(qū)動器,到幾十個GB的存儲棒;(2)Google,Amazon,以及Facebook等新興社交網(wǎng)絡(luò)公司的巨大成功;(3)互聯(lián)網(wǎng)上越來越多的免費的音頻、文本和圖像信息;(4)互聯(lián)網(wǎng)上呈指數(shù)增長的基因組學(xué)、蛋白質(zhì)組學(xué)、地球物理學(xué)、天體物理學(xué)、和其它科學(xué)的數(shù)據(jù)正在給科學(xué)和技術(shù)的眾多領(lǐng)域帶來革命性的變化;(5)Googlebooks項目把過去人類出版的書籍的4%都數(shù)字化了[1-3],GDELT(GlobalDatabaseofEve
3、nts,Language,andTone)項目則把全世界所有英語和非英語的新聞媒體的數(shù)據(jù)收入其中[4]。信息熵的概念有助于理解所有這些事件的發(fā)生,尤其是應(yīng)用遙感技術(shù)(特別是人造衛(wèi)星)獲得的地球物理數(shù)據(jù)使如今的天氣預(yù)報越來越準(zhǔn)確。信息熵如此重要且又普遍存在,這使好奇之士不得不問,信息熵與Boltzmann(波爾茲曼)和Gibbs(吉布斯)的熱力學(xué)熵之間有什么關(guān)系?有人認(rèn)為,由于熱力學(xué)熵最初被發(fā)明出來是用于描述氣體粒子運動的,所以要討論信息熵和熱力學(xué)熵之間的關(guān)系最好限定在非生命的和唯物論的科學(xué)范圍內(nèi)(如文獻[5])。然而,這個策略是不可行的,因為科學(xué)和技術(shù)
4、都在向更小或更大的尺度發(fā)展,而且世界內(nèi)部的關(guān)聯(lián)也愈加緊密。為了更好地解決新興的科學(xué)、技術(shù)和環(huán)境問題,就需要討論信息熵的起源,找出信息熵和熱力學(xué)熵的關(guān)鍵區(qū)別,理解信息熵在復(fù)雜性理論(包括混沌理論和分形理論)中扮演的角色,推測信息熵可能會起重要作用的新領(lǐng)域。這些都將是本文的主要話題。為方便非專業(yè)人士理解本文,我們將聚焦于概念的討論;為使本文對經(jīng)驗豐富的研究者同樣有用,我們也不回避數(shù)學(xué)上的討論。2.信息熵的起源信息熵最早是由克勞德·香農(nóng)(ClaudeShannon)提出來作為通信(即各種信息傳輸)的一個理論模式[6]。在通信中有兩個技術(shù)問題:1)如何量化和表
5、達源信息?2)系統(tǒng)容量是多少,即在給定時間內(nèi)系統(tǒng)能傳輸或處理多少信息?在通信中,首當(dāng)其沖的是把訊息看成是隨機的,也就是說,訊息在接收前對接收者來說是未知的。實際上,如果聽眾總是確切地知道講話者接下來會說什么,那么他們之間的交流就毫無意義。因此,自然引出了下面的通信系統(tǒng):i)收集通過某信道發(fā)送的所有訊息,并將它們記作一個隨機事件集;ii)記第條訊息可能出現(xiàn)的概率為,滿足在概率論中,被稱作是一個完備的事件系統(tǒng)[7]。若擲一顆骰子,則它們對應(yīng)于;若拋一枚硬幣,則它們對應(yīng)于(正面,反面)。若骰子和硬幣均勻,則得到等概率的分布,分別為和;若骰子和硬幣不均勻,那么
6、概率將取不同的值。在通信中,拋硬幣相當(dāng)于一個二元問題:是或否,黑或白,紅或藍,等等。當(dāng)我們從通信系統(tǒng)中接收一條訊息,得到的平均信息量由信息熵給出,其定義為:(1)依據(jù)慣例,若,則.公式(1)有很多很好的性質(zhì),尤其是取對數(shù),它為信息的定量化提供了一個方便的單位:當(dāng)對數(shù)的底為2時,這個單位就叫做比特(bit);對于一個等概率的二元問題,如是或否、對或錯,它們的概率均為0.5,則不論什么情形,信息量都剛好為1比特。比特也是任何計算機中數(shù)據(jù)存儲和處理的基本單位。如果有一個為1,其它所有均為0,那么,此時我們面對的是一個確定性系統(tǒng),也就是說,在讀取由該通信系統(tǒng)發(fā)
7、送的訊息時將得不到任何知識。另一個極端是所有事件發(fā)生的概率均為,此時信息熵達到最大值。例如,組成一個DNA序列的四種核苷酸A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥嘌呤)近似于均勻分布,那么,每個堿基平均約包含2比特的信息量[8]。應(yīng)用冗余的思想,幾十年的努力工作獲得了很多優(yōu)秀的糾錯碼來有效地表達通過信道傳輸?shù)挠嵪?。因此,第一個問題“如何量化和表達源信息”已經(jīng)完全解決了。(MIT的著名數(shù)學(xué)家PeterShor通過一個巧妙的方法把冗余的思想推廣到量子計算,并設(shè)計了一個量子糾錯系統(tǒng)[9]。)第二個問題:信道容量是多少?其答案也已經(jīng)由Shannon在
8、其經(jīng)典文章“AMathematicalTheoryofCommunication”中給出。通過