資源描述:
《基于隱馬爾可夫模型的入侵檢測(cè)方法.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于隱馬爾可夫模型的入侵檢測(cè)方法趙婧,魏彬,羅鵬 摘要:針對(duì)當(dāng)前網(wǎng)絡(luò)安全事件頻發(fā)以及異常檢測(cè)方法大多集中在對(duì)系統(tǒng)調(diào)用數(shù)據(jù)的建模研究上等問題,提出一種基于隱馬爾可夫模型的入侵檢測(cè)方法。該算法基于系統(tǒng)調(diào)用和函數(shù)返回地址鏈的聯(lián)合信息來建立主機(jī)進(jìn)程的隱馬爾可夫模型。此外,針對(duì)常用訓(xùn)練方法存在的不足,設(shè)計(jì)了一種快速算法用以訓(xùn)練模型的各個(gè)參數(shù)。實(shí)驗(yàn)結(jié)果表明:基于系統(tǒng)調(diào)用和函數(shù)返回地址鏈的聯(lián)合信息的引入能夠有效區(qū)分進(jìn)程的正常行為和異常行為,大幅度降低訓(xùn)練時(shí)間,取得了良好的運(yùn)算效果?! £P(guān)鍵詞:入侵檢測(cè);隱馬爾可夫模型;系統(tǒng)調(diào)用序列 入侵檢測(cè)作為一種網(wǎng)絡(luò)安全防衛(wèi)技術(shù),可以有
2、效地發(fā)現(xiàn)來自外部或內(nèi)部的非法入侵,因此針對(duì)入侵檢測(cè)算法的研究具有重要的理論和很強(qiáng)的實(shí)際應(yīng)用價(jià)值?! 』趧?dòng)態(tài)調(diào)用序列對(duì)系統(tǒng)的入侵行為進(jìn)行發(fā)掘是入侵檢測(cè)領(lǐng)域主要的檢測(cè)方法之一。自Forrest在1996年首次提出使用系統(tǒng)調(diào)用進(jìn)行異常檢測(cè)的思路和方法以來,有很多基于此的改進(jìn)算法被提出。 文獻(xiàn)提出一種基于頻率特征向量的系統(tǒng)調(diào)用入侵檢測(cè)方法,將正常系統(tǒng)調(diào)用序列抽取出的子序列的頻率特征轉(zhuǎn)換為頻率特征向量。文獻(xiàn)提出基于枚舉序列、隱馬爾科夫2種方法建立系統(tǒng)行為的層次化模型。然而,這類方法在誤報(bào)率以及漏報(bào)率方面仍與實(shí)際需求有著一定的差距。 此外,由于隱馬爾可夫模型(hidd
3、enmarkovmodel,HMM)是一種描述離散時(shí)間內(nèi)觀察數(shù)據(jù)非常強(qiáng)大的統(tǒng)計(jì)工具,因此在基于主機(jī)的入侵檢測(cè)研究中,HMM方法是目前重要的研究方向之一?! ∶绹履鞲绱髮W(xué)的Warrender等首次于1999年在IEEESymposiumonSecurityandPrivacy會(huì)議上提出將HMM應(yīng)用于基于系統(tǒng)調(diào)用的入侵檢測(cè)中。2002年,Qiao等提出使用HMM對(duì)系統(tǒng)調(diào)用序列進(jìn)行建模,利用TIDE方法劃分狀態(tài)序列的短序列,建立正常數(shù)據(jù)的狀態(tài)短序列庫來進(jìn)行檢測(cè)。2003年,Cho等提出用HMM對(duì)關(guān)鍵的系統(tǒng)調(diào)用序列進(jìn)行建模。文獻(xiàn)設(shè)計(jì)了一種雙層HMM模型進(jìn)行入侵檢測(cè),
4、而其中所用到的訓(xùn)練方法存在局部最優(yōu)以及時(shí)間效率較低等問題限制了其在實(shí)際中的應(yīng)用。文獻(xiàn)依據(jù)在網(wǎng)絡(luò)數(shù)據(jù)包中發(fā)現(xiàn)的頻繁情節(jié),設(shè)計(jì)了基于HMM的誤用檢測(cè)模型。文獻(xiàn)設(shè)計(jì)了一種基于節(jié)點(diǎn)生長馬氏距離K均值和HMM的網(wǎng)絡(luò)入侵檢測(cè)方法。近些年,針對(duì)此方面的研究熱度依然不減。然而,從目前的研究情況看,雖然基于隱馬爾可夫模型的入侵檢測(cè)技術(shù)能取得較好的檢測(cè)效果,但是也存在著如下幾個(gè)問題: 1)基于HMM的入侵檢測(cè)技術(shù)主要集中在對(duì)主機(jī)的命令序列或者系統(tǒng)調(diào)用序列進(jìn)行建模,單一的數(shù)據(jù)源提供的信息較少,因此檢測(cè)效果仍然不夠理想。 2)在線學(xué)習(xí)問題,隱馬爾可夫模型的建立需要消耗大量的時(shí)間和空
5、間對(duì)參數(shù)進(jìn)行調(diào)整學(xué)習(xí),這導(dǎo)致了HMM難以得到有效的利用。綜上所述,為克服現(xiàn)有模型算法所存在的問題,提出一種新的基于系統(tǒng)調(diào)用和進(jìn)程堆棧信息的HMM入侵檢測(cè)方法,該方法的主要思想是將系統(tǒng)調(diào)用和函數(shù)返回地址信息作為檢測(cè)數(shù)據(jù)源,并利用HMM來構(gòu)建主機(jī)特權(quán)進(jìn)程的正常行為模型。其次,針對(duì)經(jīng)典模型訓(xùn)練法存在局部最優(yōu)且算法的復(fù)雜度較高等問題,設(shè)計(jì)一個(gè)更為簡(jiǎn)單的訓(xùn)練算法來計(jì)算HMM的參數(shù),進(jìn)而提升算法效率。最后,設(shè)計(jì)了附加觀察值和附加狀態(tài)等參數(shù),用以消除非完備的數(shù)據(jù)以及零概率對(duì)模型的影響?! ?、隱馬爾可夫模型 馬爾可夫模型中的每個(gè)狀態(tài)都與一個(gè)具體的觀察事件相互對(duì)應(yīng),但實(shí)際問題
6、可能會(huì)比Markov鏈模型所描述的情況更復(fù)雜,人們所能觀察到的事件一般情況下并不是與狀態(tài)完全一致對(duì)應(yīng)的,而是通過概率相聯(lián)系,這樣的模型稱為HMM?! MM是由馬爾可夫過程擴(kuò)充改變而形成的一種隨機(jī)模型算法,它的基本理論是由數(shù)學(xué)家Baum在20世紀(jì)60年代后期建立起來的。該方法最早在20世紀(jì)70年代應(yīng)用于語音處理領(lǐng)域,而在20世紀(jì)80年代逐漸廣泛應(yīng)用于文本處理等各個(gè)領(lǐng)域中。 20世紀(jì)90年代初以來,HMM及其各種推廣形式開始被用于圖像信號(hào)處理以及視頻信號(hào)處理等領(lǐng)域?! MM的狀態(tài)不能夠直接觀察到,而是可以通過觀測(cè)向量序列得到,每個(gè)觀測(cè)向量都是由概率密度分布表現(xiàn)
7、為不同的狀態(tài),因此其是具有一定狀態(tài)數(shù)的隱馬爾科夫鏈和顯示隨機(jī)函數(shù)集。而其在應(yīng)用過程中需要解決3個(gè)基本問題:對(duì)于給定的一個(gè)觀察序列O={O1,O2,…,OT}和一個(gè)HMM參數(shù)λ=(π,A,B),有: 1)評(píng)估問題, 2)解碼問題, 3)訓(xùn)練問題。 2、基于HMM入侵檢測(cè)方法 2.1模型的參數(shù)定義 系統(tǒng)調(diào)用和函數(shù)返回地址反映了程序執(zhí)行時(shí)系統(tǒng)內(nèi)核層的服務(wù)行為。系統(tǒng)調(diào)用信息是進(jìn)程對(duì)資源的請(qǐng)求,它從一定程度上反映了進(jìn)程行為的變化過程。而層層嵌套的函數(shù)返回地址則反映了系統(tǒng)調(diào)用對(duì)內(nèi)核資源請(qǐng)求的過程。把函數(shù)返回地址的序列稱為函數(shù)調(diào)用鏈,它代表了一個(gè)系統(tǒng)調(diào)用產(chǎn)生時(shí)完整
8、的函數(shù)調(diào)用的路徑。假設(shè)函