資源描述:
《tough型約束下的頻繁閉項(xiàng)集挖掘》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、Tough型約束下的頻繁閉項(xiàng)集挖掘第27卷Vo1.27第11期NO.11計(jì)算機(jī)工程與設(shè)計(jì)ComputerEngineeringandDesign2006年6月June2006Tough型約束下的頻繁閉項(xiàng)集挖掘沙俐敏,楊淑珍(1.上海第二工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,上海201209;2.上海第二工業(yè)大學(xué)機(jī)電工程學(xué)院,上海201209)摘要:回顧了常見(jiàn)的關(guān)聯(lián)規(guī)則算法,關(guān)注頻繁閉項(xiàng)集這一非常有發(fā)展前途的方法.在綜合Tough型約束與頻繁閉項(xiàng)集的基礎(chǔ)上,提出了關(guān)聯(lián)規(guī)則的一種新算法——基于Tough型約束的頻繁閉項(xiàng)集挖掘算法(Tc-basedFCIMAlgorithm),分析了算法中選擇過(guò)程
2、和過(guò)濾過(guò)程這兩個(gè)重要過(guò)程的先后順序.關(guān)鍵詞:數(shù)據(jù)挖掘;聯(lián)規(guī)則;頻繁閉項(xiàng)集;支持度;Tough型約束中圖法分類號(hào):TP301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000?7024(2006)11-2041?03DataminingoffrequentcloseditemsetswithToughconstraintSHALi.min.YANGShu-zhen2(1.InstituteofComputerandInformation,ShanghaiSecondPolytechnicUniversity,Shanghai201209,China;2.DepartmentofElectrome
3、chanical,ShanghaiSecondPolytechnicUniversity,Shanghai201209,China)Abstract:Afterthetraditionalmethodsusedtoassociationrulesarereviewed,oneofthemostpromisingmethodsfrequentcloseditemsetsisemphasizedon.Combiningthetoughconstraintwithfrequentcloseditemsets.anewmethod——-TC?basedFCIMalgorithmispre
4、sented.Itcouldminetheassociationrulesdirectlyandefficiently~Therearetwomainprocessesinthealgorithm,selectfunctionandfilterfunction.Whichoneshouldbeputinadvanceisalsodiscussedindetail.Keywords:datamining;associationrules;frequentcloseditemsets;suppoaweigh;Toughconstraint0引言數(shù)據(jù)挖掘就是要從已存儲(chǔ)在數(shù)據(jù)庫(kù)中的大量數(shù)
5、據(jù)中提取或挖掘出有用的,事先不知道的知識(shí).常見(jiàn)的有關(guān)聯(lián)規(guī)則,分類規(guī)則,聚類規(guī)則,預(yù)測(cè)規(guī)則等等.由于關(guān)聯(lián)規(guī)則不但能對(duì)數(shù)據(jù)挖掘中許多技術(shù)產(chǎn)生影響,能夠幫助人們開(kāi)展決策和管理活動(dòng),而且從研究的角度來(lái)看還處于初級(jí)階段,因此成為研究的熱點(diǎn).有關(guān)關(guān)聯(lián)規(guī)則的問(wèn)題是由AgrawalR…等在1993年提出的.起初它是針對(duì)如何從大量的商業(yè)數(shù)據(jù)中提取出有效的規(guī)則,以幫助商家作出決策.在此基礎(chǔ)上,AgrawalR和SrikantR在1994年提出了Apriori算法,又把算法衍生到如何挖掘泛化關(guān)聯(lián)規(guī)則.有學(xué)者提出了基于約束的頻繁項(xiàng)集的挖掘.在挖掘過(guò)程中,通過(guò)添加約束使得所進(jìn)行的挖掘著眼于所關(guān)心的數(shù)據(jù),從
6、而挖掘出滿足特定條件的頻繁項(xiàng)集.除了以上提到的挖掘關(guān)聯(lián)規(guī)則的方法之外,還有一種被學(xué)者們認(rèn)為是非常有前途的方法,那就是頻繁閉項(xiàng)集挖掘….通過(guò)這種方法,能夠提取頻繁項(xiàng)集中的一部分特別的子集,如果需要就可以用這些子集重新產(chǎn)生全部的頻繁項(xiàng)集.由于子集的大小比原始的頻繁項(xiàng)集小,所以可以在不造成信息丟失的基礎(chǔ)上,限制頻繁項(xiàng)集的數(shù)量.就現(xiàn)在掌握的資料,還沒(méi)有學(xué)者研究如何將約束中的一種復(fù)雜約束—_T01lgh型約束與頻繁閉項(xiàng)集結(jié)合起來(lái),這也就是本文研究的重點(diǎn).不但要研究如何通過(guò)Apriori型的TC.basedFCIM算法來(lái)把Tough型約束嵌入頻繁閉項(xiàng)集挖掘,而且還要討論算法中的一個(gè)核心問(wèn)題:
7、選擇過(guò)程select()和過(guò)濾過(guò)程filter()的先后順序?qū)λ惴ǖ挠绊?1Galois連接和閉項(xiàng)集定義1(知識(shí)挖掘)知識(shí)挖掘就是D=I,R).行是事務(wù)集(T),列是項(xiàng)集(I).R__qTxI表示事務(wù)集和項(xiàng)集之間的關(guān)系.定義2(Galois連接)設(shè)D=I,R)是一個(gè)數(shù)據(jù)挖掘任務(wù),對(duì)于T__qT和I__qx,定義:p(T):2T一2p(T)={i∈TlVt∈i)∈R}q(D:2一2q(I)={teTIVieI,(t,i)∈R}因?yàn)?和2是T和T的冪集,(p,q)組成了一個(gè)Galoi