資源描述:
《基因表達(dá)數(shù)據(jù)的頻繁閉合項(xiàng)集挖掘算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號密級UDC學(xué)號桂林電子科技大學(xué)碩士學(xué)位論文題目基因表達(dá)數(shù)據(jù)的頻繁閉合項(xiàng)集挖掘算法研究(英文)ResearchofMiningFrequentClosedItemsetsfromGeneExpressionDatasets研究生姓名:史建軍指導(dǎo)教師姓名、職務(wù):繆裕青(副教授)董榮勝(教授)申請學(xué)位門類:工學(xué)學(xué)科、專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)提交論文日期:2010年4月7日論文答辯日期:2010年6月12日2010年6月13日萬方數(shù)據(jù)獨(dú)創(chuàng)性(或創(chuàng)新性)聲明本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所
2、知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得桂林電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。本人簽名:日期:關(guān)于論文使用授權(quán)的說明本人完全了解桂林電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬桂林電子科技大學(xué)。本人保證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為桂林
3、電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。(保密的論文在解密后遵守此規(guī)定)本學(xué)位論文屬于保密在____年解密后適用本授權(quán)書。本人簽名:日期:導(dǎo)師簽名:日期:萬方數(shù)據(jù)摘要摘要基因表達(dá)數(shù)據(jù)蘊(yùn)含豐富的生物信息,但由于其高維且數(shù)據(jù)量大的特點(diǎn),生物信息的挖掘成為極具挑戰(zhàn)性的課題。關(guān)聯(lián)分析由于形式簡單且結(jié)果易于理解,已逐漸成為基因表達(dá)數(shù)據(jù)重要的分析方法之一。頻繁閉合項(xiàng)集挖掘是關(guān)聯(lián)分析中的重點(diǎn)和難點(diǎn)之一。本文對基因表達(dá)數(shù)據(jù)中頻繁閉合項(xiàng)集挖掘
4、算法做了全面深入的研究。針對當(dāng)前算法中存在的一些不足提出改進(jìn)算法。針對目前基因表達(dá)數(shù)據(jù)的頻繁閉合項(xiàng)集挖掘均需先設(shè)定最小支持度,提出挖掘基因表達(dá)數(shù)據(jù)中top-k頻繁閉合項(xiàng)集問題,并設(shè)計(jì)了相關(guān)算法。本文主要研究工作如下:(1)對現(xiàn)有頻繁項(xiàng)集和頻繁閉合項(xiàng)集挖掘算法進(jìn)行深入剖析。從已有算法使用的策略和數(shù)據(jù)結(jié)構(gòu)著手分析算法的優(yōu)缺點(diǎn),重點(diǎn)研究了基因表達(dá)數(shù)據(jù)頻繁閉合項(xiàng)集挖掘算法。(2)采用行枚舉空間搜索時(shí),已有自底向上策略并未有效利用最小支持度閾值對搜索空間進(jìn)行修剪,導(dǎo)致算法的時(shí)空性能較差?;谧皂斚蛳虏呗缘念l繁閉合項(xiàng)集挖掘算法TP+clo
5、se較好地解決了此問題。然而,TP+close算法在對項(xiàng)集進(jìn)行閉合性檢測時(shí),要對已輸出的頻繁閉合項(xiàng)集進(jìn)行掃描,影響了算法性能。通過對TP+close算法和數(shù)據(jù)結(jié)構(gòu)TP+-tree深入分析,提出改進(jìn)的數(shù)據(jù)結(jié)構(gòu)TTP+tree和基于該結(jié)構(gòu)的改進(jìn)算法TTP+close。算法TTP+close引入了一種新的閉合性檢測方法,即基于痕跡的閉合性檢測方法,避免對已輸出的頻繁閉合項(xiàng)集掃描來判別將輸出項(xiàng)集的閉合性。(3)已有大多數(shù)挖掘基因表達(dá)數(shù)據(jù)的頻繁閉合項(xiàng)集需先設(shè)定最小支持度,但在實(shí)際應(yīng)用中確定合適的最小支持度并不容易。本文提出在基因表達(dá)數(shù)據(jù)
6、中挖掘top-k頻繁閉合項(xiàng)集問題,并設(shè)計(jì)了挖掘算法TBtop。算法使用自頂向下寬度優(yōu)先搜索策略挖掘項(xiàng)集長度不小于給定值min_l的top-k頻繁閉合項(xiàng)集,并對搜索空間進(jìn)行了有效修剪。關(guān)鍵詞:基因表達(dá)數(shù)據(jù);關(guān)聯(lián)規(guī)則;頻繁閉合項(xiàng)集;top-k頻繁閉合項(xiàng)集;自頂向下;寬度優(yōu)先I萬方數(shù)據(jù)AbstractAbstractSomewealthbioinformationhasbeenhiddeningeneexpressiondatasets.However,duetothefeatureofhigh-dimensionalandlarg
7、evolumesofdata,thehigh-performancemeansisnecessarytoobtainthisinformance.Theassociationanalysisissimpleinformandtheresultiseasytounderstand,whichbecomesgraduallyanimportantanalysismethodingeneexpressiondataanalysis.Miningfrequentcloseditemsetsisemphasesanddifficulty
8、inassociationanalysis.Inthispaper,thealgorithmsofminingfrequentcloseditemsetareresearcheddeeplyandutterlyingeneexpressiondata.Animprovedal