資源描述:
《基于web資源聚類分析的異常行為檢測》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、http://www.paper.edu.cn1基于Web資源聚類分析的異常行為檢測謝逸,余順爭中山大學(xué)電子與通信工程系,廣東廣州(510275)E-mail(xieyicn@163.com)摘要:本文針對大型活動網(wǎng)站的入侵檢測,提出一種基于隱半馬爾可夫模型(HSMM)的Web資源聚類方法,與傳統(tǒng)的基于Web頁面內(nèi)容的聚類不同,該方法僅需要用戶的HTTP請求序列,而不需要網(wǎng)站和頁面的相關(guān)信息;利用該模型,我們得到用戶對各個Web資源子集的訪問特征,我們進(jìn)一步引入邏輯行為來描述這種用戶訪問特征,并通過分析用戶的邏輯行為實(shí)現(xiàn)異常訪問行為的檢測。文章詳細(xì)介紹了模
2、型建立的理論依據(jù)和方法,推導(dǎo)出模型參數(shù)的估計(jì)算法,及一種快速的模型參數(shù)實(shí)時更新算法。并指出了如何把該模型應(yīng)用于實(shí)際的網(wǎng)絡(luò)環(huán)境。最后使用WorldCup1998實(shí)際采集的數(shù)據(jù)驗(yàn)證了模型的有效性。結(jié)果表明該方法不但可以很好地實(shí)現(xiàn)用戶行為分類,而且可以有效識別出異常的用戶行為,從而起到入侵檢測的作用。關(guān)鍵詞:聚類,用戶行為,異常檢測,隱半馬爾可夫模型中圖分類號:TP31.引言隨著Internet的普及,網(wǎng)絡(luò)上共享的計(jì)算機(jī)資源成為主要的攻擊目標(biāo),網(wǎng)絡(luò)入侵?jǐn)?shù)量的增加及其所帶來的嚴(yán)重危害,使計(jì)算機(jī)安全成為人們關(guān)注的焦點(diǎn)。入侵檢測系統(tǒng)(IntrusionDetectio
3、nSystem,IDS)是用于檢測正在發(fā)生的攻擊和試圖進(jìn)行攻擊的計(jì)算機(jī)系統(tǒng)。異常入侵檢測(AnomalyIntrusionDetection)是目前使用的主要手段之一。它是根據(jù)用戶行為與活動輪廓存在的偏離程度來判斷是否發(fā)生入侵,常用的方法有神經(jīng)網(wǎng)絡(luò)、模式預(yù)測、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等[1]。與一般的入侵檢測系統(tǒng)所關(guān)注的對象不同,本文主要研究大型活動網(wǎng)站(例如:體育比賽、重大商務(wù)/政治活動、大型文藝表演等)對分布式拒絕服務(wù)(DistributedDenial-of-Service,DDoS)攻擊的檢測。大型活動網(wǎng)站具有與一般網(wǎng)站不同的特點(diǎn):第一,訪問時間集中。由
4、于活動網(wǎng)站的信息內(nèi)容受活動時間表的影響很大,這導(dǎo)致它的訪問量集中在某些特定的時間段,而其余時間的訪問量則很低;第二,訪問內(nèi)容集中。在特定時段內(nèi)(例如某一場比賽),與該時段中進(jìn)行的活動有關(guān)的頁面會被高頻率訪問,而其它頁面的訪問量則較低;第三,訪問峰值持續(xù)時間短。通常情況下,各種現(xiàn)場活動的持續(xù)時間一般都在2-3小時內(nèi),因此網(wǎng)站的訪問峰值區(qū)不會持續(xù)很長時間。因此,總的來說,大型活動網(wǎng)站具有峰值時段業(yè)務(wù)量非常巨大、突發(fā)性強(qiáng)的特點(diǎn)。這些特點(diǎn)與DDoS的的洪水式(flooding)攻擊類似,因此使用一1本課題得到高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(項(xiàng)目編號:2004055
5、8043)資助.-1-http://www.paper.edu.cn般的異常檢測方法[2]難以有效區(qū)分突發(fā)性強(qiáng)的、業(yè)務(wù)量大的正常流和異常攻擊流,從而導(dǎo)致高誤檢率和高漏檢率。而目前用于防御DDoS攻擊的主要思路是基于分組的檢測和過濾[3]。這種方法首先檢測出攻擊流或攻擊分組,然后對這些分組實(shí)行過濾,它最大的缺陷是很容易把正常的分組誤判為DDoS攻擊分組,從而造成正常數(shù)據(jù)的丟失。與現(xiàn)有的DDoS檢測不同,本文從應(yīng)用層出發(fā),首先根據(jù)用戶的HTTP請求對服務(wù)器上的Web資源(頁面及各種可被用戶請求的對象)進(jìn)行聚類,于是用戶的一系列HTTP請求就變成是對不同Web資
6、源子集的請求,我們進(jìn)一步引入邏輯訪問行為來表述用戶在不同Web資源子集上的跳轉(zhuǎn)關(guān)系,由于邏輯訪問行為在一定程度上反映了用戶的真實(shí)行為,因此可以根據(jù)用戶邏輯訪問行為的統(tǒng)計(jì)特征來進(jìn)行異常檢測。為此,本文將采用隱半馬爾可夫模型(Hiddensemi-MarkovModel,HSMM)[4,5,6]來實(shí)現(xiàn)Web資源聚類與描述用戶邏輯訪問行為的隨機(jī)變化過程,最終實(shí)現(xiàn)異常行為檢測的目的。2.用戶行為與Web資源聚類模型從用戶進(jìn)入網(wǎng)站到獲取目的頁面的這一個過程是用戶在該Web服務(wù)器上的瀏覽過程。從用戶端看,用戶的瀏覽過程是用戶根據(jù)網(wǎng)頁上提供的鏈接一頁一頁往下瀏覽的過程,
7、它主要體現(xiàn)在用戶對頁面的點(diǎn)擊行為上;而從服務(wù)器端看,用戶的這個瀏覽過程是通過一系列的HTTP請求/響應(yīng)構(gòu)成的。由于一個頁面通常包含多個內(nèi)嵌的鏈接,例如:圖片、廣告條、背景音樂和框架頁面等,因此用戶的每一次瀏覽行為(例如:點(diǎn)擊頁面鏈接、前進(jìn)、后退、刷新等)都會觸發(fā)瀏覽器發(fā)出一系列的HTTP請求,這些HTTP請求到達(dá)服務(wù)器后除了使目標(biāo)服務(wù)器做出響應(yīng)(返回對應(yīng)的對象)以外,其屬性(源地址、請求時間、請求對象等)也會記錄在服務(wù)器的日志文件中。因此從理論上講,如果知道網(wǎng)站的頁面結(jié)構(gòu),就可以通過log文件的記錄分析出用戶的瀏覽行為(點(diǎn)擊序列),也就是說log文件中的H
8、TTP請求記錄是反映用戶瀏覽行為的“軌跡”。但是在實(shí)際的網(wǎng)絡(luò)環(huán)境中