資源描述:
《基于隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘算法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、江蘇大學(xué)碩士學(xué)位論文基于隱私保護(hù)的關(guān)聯(lián)規(guī)則挖掘算法研究姓名:劉峰申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:薛安榮20120603江蘇大學(xué)碩士學(xué)位論文摘要隱私保護(hù)是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究課題,其目標(biāo)是在不泄露隱私信息的前提下,獲得精確的挖掘結(jié)果。數(shù)據(jù)挖掘中的隱私保護(hù)通常有兩種解決途徑:安全多方計(jì)算和數(shù)據(jù)擾亂。分布環(huán)境下的關(guān)聯(lián)規(guī)則挖掘在隱私保護(hù)方面己取得一定的研究成果,但其還存在著不足之處,現(xiàn)有的分布環(huán)境下關(guān)聯(lián)規(guī)則挖掘主要使用的是安全多方計(jì)算方法,由于關(guān)聯(lián)規(guī)則挖掘包含的一個(gè)重要過(guò)程是從候選頻繁項(xiàng)集空間中通過(guò)計(jì)算找出支持?jǐn)?shù)不小于給定閾值的頻繁項(xiàng)集,而候選頻繁項(xiàng)集是海量的,安全多方
2、計(jì)算采用安全協(xié)議管理這個(gè)過(guò)程,能夠獲取精確的結(jié)果,但計(jì)算每個(gè)候選項(xiàng)集的支持?jǐn)?shù)都需要多次加/解密和多次通信,故算法效率低、通信量大;基于擾亂的隱私保護(hù)技術(shù)是集中式環(huán)境下的主要技術(shù),能夠快速的實(shí)現(xiàn)數(shù)據(jù)擾亂和重構(gòu),但由于對(duì)單個(gè)屬性進(jìn)行干擾,破壞了屬性之間的相關(guān)性,導(dǎo)致挖掘精度下降,直接應(yīng)用于分布式環(huán)境會(huì)存在安全性和精度不高問(wèn)題。針對(duì)上述問(wèn)題,本文的重點(diǎn)是研究一種綜合考慮屬性之間相關(guān)性的新型擾亂方法,并應(yīng)用于分布式環(huán)境下結(jié)合安全多方計(jì)算盡量高效精確地完成分布式環(huán)境下的隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘。本文主要工作如下:(1)針對(duì)數(shù)據(jù)垂直分布環(huán)境下基于安全多方計(jì)算的效率低下問(wèn)題,提出一種多屬性擾亂技術(shù)與安全
3、多方計(jì)算相結(jié)合的方法。首先使用擾亂方法快速估算候選項(xiàng)集的全局支持?jǐn)?shù),再使用安全多方計(jì)算僅對(duì)支持?jǐn)?shù)大于給定閾值的候選項(xiàng)集精確計(jì)算其全局支持?jǐn)?shù),從而減少了使用安全協(xié)議計(jì)算的項(xiàng)集的數(shù)目,提高了挖掘效率。使用多屬性擾亂策略,能夠保持屬性之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,本方法與安全多方計(jì)算相比,精度保持在92%的情況下,挖掘效率提高了680/,...90%。(2)針對(duì)數(shù)據(jù)水平分布環(huán)境下基于安全多方計(jì)算的效率低下以及傳統(tǒng)擾亂方法精度不高問(wèn)題,提出一種基于事務(wù)壓縮與安全多方計(jì)算相結(jié)合的方法。主要思想是將原始聯(lián)合數(shù)據(jù)集映射到一個(gè)較小的匿名數(shù)據(jù)集,該匿名數(shù)據(jù)集與原始聯(lián)合數(shù)據(jù)集具有相似的分布特征,包括屬性間的
4、相關(guān)性。先從匿名數(shù)據(jù)集中快速估算出全局候選項(xiàng)集的支持?jǐn)?shù),再使用安全多方計(jì)算僅對(duì)支持?jǐn)?shù)大于給定閾值的候選項(xiàng)集精確計(jì)算其全局支持?jǐn)?shù),從而提高了挖掘效率。實(shí)驗(yàn)結(jié)果表明,該算法與江蘇大學(xué)碩士學(xué)位論文安全多方計(jì)算相比,精度保持在90%以上的情況下,挖掘效率提高了70%~93%,相比傳統(tǒng)擾亂方法,挖掘精度提高了16%之9%。(3)為了方便用戶使用本文所提出的方法開發(fā)一些實(shí)際的應(yīng)用,同時(shí)為了方便以后的學(xué)者測(cè)試本文算法,基于以上研究的理論基礎(chǔ),設(shè)計(jì)并實(shí)現(xiàn)了分布式隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘原型系統(tǒng),并對(duì)系統(tǒng)進(jìn)行了測(cè)試,測(cè)試結(jié)果表明系統(tǒng)運(yùn)行良好,達(dá)到預(yù)期目標(biāo)。關(guān)鍵字:數(shù)據(jù)挖掘,隱私保護(hù),相關(guān)性,安全多方計(jì)算,數(shù)
5、據(jù)擾亂,事務(wù)壓縮Il江蘇大學(xué)碩士學(xué)位論文AbstractPrivacypreservingisaveryimportantresearchquestioninthefieldofdatamining.Thegoalistoobtainaccurateminingresultsbutnotdiscloseprivateinformation.Themethodsofprivacypreservingdatamininginc.1udesecuremulti-partycomputationanddatadistortion.Distributedenvironmentassociatio
6、nrulemininghasalreadyobtainedsomeachievementsonresearchofprivacypreserving,buttherestillexitssomeinsufficiency.Inthedistributedenvironment,algorithmsalwaysbasedonsecuremultipartycomputation,whichcanachieveamoreaccuracyresult.Animportantprocessofassociationruleminingistofindfrequentitemsetswhoses
7、upportnotlessthanagiventhresholdfromthecandidatespacebycalculating.Butcandidatefrequentitemsetsaremassive,securemultipartycomputationusesthesecurityprotocolstomanagethisprocess,calculateseachcandidateitemsets’supportrequirem