資源描述:
《作業(yè)基于關(guān)聯(lián)規(guī)則的圖像數(shù)據(jù)挖掘研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、知識工程與知識發(fā)現(xiàn)的小論文基于關(guān)聯(lián)規(guī)則的圖像數(shù)據(jù)挖掘研究所在學(xué)院專業(yè)名稱年級姓名學(xué)號完成日期2014年12月1日摘要為了能充分從大量的圖像數(shù)據(jù)屮分析并提取有用信息,用關(guān)聯(lián)規(guī)則的思想方法研究了數(shù)據(jù)挖掘中的前沿領(lǐng)域——圖像數(shù)據(jù)挖掘技術(shù),首先分析傳統(tǒng)用在挖掘結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)規(guī)則的基本思想,然后分析圖像數(shù)據(jù)的特征,找出圖像數(shù)據(jù)與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的區(qū)別,最后結(jié)合圖像數(shù)據(jù)的特性將傳統(tǒng)的關(guān)聯(lián)規(guī)則進(jìn)行改進(jìn),并將它應(yīng)用在圖像數(shù)據(jù)挖掘屮,挖掘出圖像數(shù)據(jù)的相關(guān)性。關(guān)鍵字:關(guān)聯(lián)規(guī)則;圖像數(shù)據(jù)挖掘;項(xiàng)集;描述集;支持度1引言傳統(tǒng)數(shù)據(jù)挖掘處理的數(shù)據(jù)是數(shù)據(jù)庫屮表格形式的記錄和條目,屬于結(jié)構(gòu)型
2、數(shù)據(jù)。目前,由于音頻視頻設(shè)備、數(shù)碼相機(jī)、CD-ROM和因特網(wǎng)的流行和普及,出現(xiàn)了如圖形圖像、文本、視頻和音頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化的多媒體數(shù)據(jù)。因?yàn)槎嗝襟w數(shù)據(jù)挖掘?qū)ο蟮膹?fù)雜性,導(dǎo)致一些常規(guī)的數(shù)據(jù)挖掘方法不能直接采用,也就使得多媒體數(shù)據(jù)挖掘理論和技術(shù)發(fā)展緩慢。目前大多數(shù)的研究都集中在圖像數(shù)據(jù)挖掘方面,挖掘圖像信息主要采用的技術(shù)有對象識別、圖像索引和檢索、圖像分類和聚類、神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則挖掘等。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域一個(gè)重耍的研究課題,它可以處理大量數(shù)據(jù)集,從其中發(fā)現(xiàn)項(xiàng)集之間頻繁出現(xiàn)的有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。近年來關(guān)聯(lián)規(guī)則在結(jié)構(gòu)化的數(shù)據(jù)挖掘屮已經(jīng)逐漸走向成熟,
3、在許多商業(yè)應(yīng)用領(lǐng)域取得了成功。關(guān)聯(lián)規(guī)則反映數(shù)據(jù)項(xiàng)之間的相互蘊(yùn)涵關(guān)系,因此關(guān)聯(lián)規(guī)則挖掘也可以用來發(fā)現(xiàn)圖像數(shù)據(jù)特征間的關(guān)系。本文結(jié)合圖像數(shù)據(jù)的不同特性,將傳統(tǒng)的關(guān)聯(lián)規(guī)則思想應(yīng)用在圖像數(shù)據(jù)挖掘中。2.關(guān)聯(lián)規(guī)則挖掘思想關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘?qū)缬袃r(jià)值的描述數(shù)據(jù)項(xiàng)Z間相互聯(lián)系的有關(guān)知識。該思想最早是由Agrawal等人針對分析購物籃問題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則,分析顧客的購物習(xí)慣。這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商了解哪些商品頻繁地被顧客同時(shí)購買,從而幫助他們開發(fā)更好的營銷策略。例如,如果顧客在超級市場購物時(shí)購買了牛奶,他們多大可
4、能也同時(shí)購買面包?顯然能夠回答這些問題的有關(guān)信息肯定會有效地幫助商家進(jìn)行有針對性的促銷,以及進(jìn)行合適的貨架商品擺放。關(guān)聯(lián)規(guī)則的一般性描述如下:設(shè)匸{iI?i2...ij為m個(gè)不同的數(shù)據(jù)項(xiàng)集合;設(shè)D為與任務(wù)相關(guān)的數(shù)據(jù)集合,其中每個(gè)事務(wù)T是I的一個(gè)數(shù)據(jù)項(xiàng)子集;每一個(gè)事務(wù)有一個(gè)識別編號TIDo設(shè)A是一個(gè)數(shù)據(jù)項(xiàng)集合,當(dāng)且僅當(dāng)A為T的子集吋稱T包含A。一個(gè)關(guān)聯(lián)規(guī)則就是具有如A?>B形式的蘊(yùn)含式;其中A、B均為I的真子集,且AAB=0o規(guī)則A?>B在事務(wù)集D中成立,具有s支持度和c信任度。這就意味著事務(wù)數(shù)據(jù)集D屮有s比例的事務(wù)T包含有AUB數(shù)據(jù)項(xiàng);且數(shù)據(jù)集D中有c比例的
5、事務(wù)T滿足”包含A事務(wù)的同時(shí)也包含B”,A稱為規(guī)則的前提,B稱為規(guī)則的結(jié)果。這是條件概率P(B/A)0具體描述為:Support(A->B)=P(AUB)Confidence(A->B)=P(B/A)同時(shí)滿足最小支持度(min_sup)和最小置信度(min_conf)的規(guī)則稱作強(qiáng)規(guī)則。一個(gè)數(shù)據(jù)項(xiàng)的集合稱為項(xiàng)集;一個(gè)包含k個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集就稱為k-項(xiàng)集。一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)數(shù)據(jù)集D中包含該項(xiàng)集的記錄數(shù),這也稱為該項(xiàng)集的支持度。若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以記錄集D中的記錄數(shù),就稱該項(xiàng)集滿足最小支持度閾值。滿足最小支持閾值的項(xiàng)集就稱為頻繁大項(xiàng)目集
6、。所有頻繁k-項(xiàng)集的集合就記為Lko給定一個(gè)事務(wù)數(shù)據(jù)庫D,關(guān)聯(lián)規(guī)則挖掘問題就是通過用戶指定最小支持度和最小置信度來尋找合適關(guān)聯(lián)規(guī)則的過程。該過程首先要找出頻繁性至少與預(yù)定義的最小支持度計(jì)數(shù)min_sup一樣的頻繁項(xiàng)集,然后再在每個(gè)最大頻繁項(xiàng)目集中尋找可信度不小于給定的最小置信度的關(guān)聯(lián)規(guī)則。對于生成關(guān)聯(lián)規(guī)則來說,在每個(gè)最大頻繁項(xiàng)目集中逐…進(jìn)行可信度是否大于等于最小置信度的測試是必需的,也是相對比較容易的,因此,目前關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)主要就是找出頻繁項(xiàng)目集。2.圖像數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘3.1圖像數(shù)據(jù)挖掘概述圖像數(shù)據(jù)以點(diǎn)陣信息的形式存儲,數(shù)據(jù)量很大,圖像數(shù)據(jù)庫和傳統(tǒng)的關(guān)
7、系型數(shù)據(jù)庫也存在巨大差異。第一,在關(guān)系數(shù)據(jù)庫中,數(shù)據(jù)值在語義上是有意義的,例如年齡值50,這是容易理解的。然而在圖像數(shù)據(jù)庫中,如同灰度值為38這種信息,沒有背景資料的支持就難以理解。第二,圖像中包含的空間信息對研究圖像內(nèi)容至關(guān)重要,但在關(guān)系數(shù)據(jù)庫中卻并非如此。比如,為了識別出圖像中的某一特別形狀或模式,必須考慮位于相近位置上的一系列像素點(diǎn)。在關(guān)系數(shù)據(jù)庫中,數(shù)據(jù)挖掘更關(guān)注的是某一條記錄的特征,而不是它跟上一條記錄或下一條記錄之間的關(guān)系。第三,一個(gè)圖像可以包含多個(gè)對象,每個(gè)對象可以有許多特征,如顏色、形狀、紋理、關(guān)鍵詞和空間位置,因此可能存在許多可能的關(guān)聯(lián)。而關(guān)
8、系數(shù)據(jù)庫中的關(guān)聯(lián)就是記錄內(nèi)部的各個(gè)屬性項(xiàng)的關(guān)聯(lián),相對