基于全局和聲搜索算法的特征基因選擇方法.pdf

基于全局和聲搜索算法的特征基因選擇方法.pdf

ID:55399371

大?。?01.43 KB

頁(yè)數(shù):8頁(yè)

時(shí)間:2020-05-15

基于全局和聲搜索算法的特征基因選擇方法.pdf_第1頁(yè)
基于全局和聲搜索算法的特征基因選擇方法.pdf_第2頁(yè)
基于全局和聲搜索算法的特征基因選擇方法.pdf_第3頁(yè)
基于全局和聲搜索算法的特征基因選擇方法.pdf_第4頁(yè)
基于全局和聲搜索算法的特征基因選擇方法.pdf_第5頁(yè)
資源描述:

《基于全局和聲搜索算法的特征基因選擇方法.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第44卷第3期內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版)VoI.44NO.32015年5月JournalofInnerMongoliaNormalUniversity(NaturalScienceEdition)May2015基于全局和聲搜索算法的特征基因選擇方法魏峻(陜西理工學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,陜西漢中723000)摘要:鑒于DNA微陣列數(shù)據(jù)中無(wú)關(guān)基因和冗余基因?qū)Ψ诸惥群托实挠绊?,提出一種基于全局和聲搜索的特征基因選擇方法,首先采用ReliefF算法對(duì)微陣列基因數(shù)據(jù)集排序,取排序靠前的N個(gè)基因構(gòu)成初選基因子集,然后利用全局和聲搜索算法選擇特征基因

2、.兩個(gè)公共微陣列數(shù)據(jù)集上的仿真實(shí)驗(yàn)表明,該算法全局搜索能力強(qiáng),分類精度高,能夠有效地剔除噪聲和冗余基因,是一種有效的特征基因選擇算法.關(guān)鍵詞:微陣列數(shù)據(jù);特征基因;ReliefF算法;全局和聲搜索算法中圖分類號(hào):TP18文獻(xiàn)標(biāo)志碼:A文章編號(hào):1001-8735(2015)03-0372-08基因芯片L1又稱為DNA微陣列(DNAmicroarray)作為一種先進(jìn)的、大規(guī)模、高通量檢測(cè)技術(shù),已成功應(yīng)用于病原物檢測(cè)、遺傳疾病檢測(cè)、疾病進(jìn)程檢測(cè)等方面.然而基因芯片具有高維數(shù)小樣本的特點(diǎn),在這些成千上萬(wàn)的基因中,僅有非常少量的基因與分類任務(wù)密切相關(guān),而其他與

3、分類無(wú)關(guān)的噪聲和冗余基因則會(huì)嚴(yán)重影響分類的性能和效率.為了解決這個(gè)問(wèn)題,我們通過(guò)特征基因選擇,剔除與分類無(wú)關(guān)的、冗余的基因,從而降低臨床診斷的費(fèi)用,提高癌癥診斷的準(zhǔn)確性,并對(duì)疾病的預(yù)測(cè)提供可靠的依據(jù)瞳].目前,特征基因選擇方法主要有過(guò)濾法(Filter)與纏繞法(Wrapper)兩種[3].過(guò)濾法通常采用某種策略來(lái)評(píng)估每個(gè)基因?qū)Ψ诸惾蝿?wù)的相關(guān)性,然后按照相關(guān)性的高低對(duì)基因進(jìn)行排序,最后選擇排名靠前的N個(gè)基因作為特征基因.ReliefF算法[7。0]是一種經(jīng)典的過(guò)濾算法,它首先從訓(xùn)練樣本集中隨機(jī)抽取出一個(gè)樣本,再?gòu)呐cz同類的樣本集中找出樣本X的k個(gè)近鄰樣

4、本,然后從與每個(gè)不同類的樣本集中找出k個(gè)近鄰樣本,最后根據(jù)權(quán)值更新公式更新每個(gè)特征的權(quán)值,再根據(jù)權(quán)值的大小排序.過(guò)濾法具有運(yùn)算效率高、易于實(shí)現(xiàn)的優(yōu)點(diǎn),但是它沒(méi)有考慮基因之間的相互作用,容易產(chǎn)生冗余基因.纏繞法通常采用分類算法對(duì)一個(gè)特征基因子集進(jìn)行分類性能的評(píng)價(jià),然后根據(jù)評(píng)價(jià)的結(jié)果按照某種策略對(duì)子集進(jìn)行調(diào)整,以達(dá)到尋求最優(yōu)基因子集的目的.其中一些啟發(fā)式搜索算法已經(jīng)在這一領(lǐng)域得到了廣泛的應(yīng)用,聲搜索算法(HarmonySearch,HS)L】¨是一種新興的智能優(yōu)化算法,它模擬了樂(lè)師們通過(guò)反復(fù)調(diào)整各種樂(lè)器的音調(diào)直到生成一個(gè)美妙和聲的過(guò)程,該算法也在很多領(lǐng)域得

5、到了成功的應(yīng)用[1。引.纏繞法具有分類性能好、選取的特征基因少等優(yōu)點(diǎn),但其計(jì)算量很大,時(shí)間復(fù)雜度高,在高維、高噪的數(shù)據(jù)中容易產(chǎn)生過(guò)擬合現(xiàn)象.針對(duì)這一問(wèn)題,本文結(jié)合過(guò)濾法與纏繞法的思想,提出一種基于全局和聲搜索算法的基因選擇方法.首先以ReliefF算法為基礎(chǔ),計(jì)算每個(gè)基因與分類屬性的相關(guān)性,然后利用全局和聲搜索算法選取特征基因.并在2個(gè)公共微陣列數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文的算法全局搜索能力強(qiáng),分類精度高,能夠有效的剔除噪聲和冗余基因,是一種有效的特征基因選擇算法.1ReliefF算法1992年Kira等_5首先提出Relief算法,算法首先

6、對(duì)隨機(jī)選擇的m個(gè)樣本的假設(shè)間隔進(jìn)行計(jì)算,然后將計(jì)算結(jié)果累加起來(lái)作為屬性的權(quán)值,最后根據(jù)屬性權(quán)值的大小就可以近似地估計(jì)出對(duì)于分類最有用的特征子集.假設(shè)間隔定義為在保持樣本分類不變的情況下決策面能夠移動(dòng)的最大距離,可表示為收稿日期:2014—08—24基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(81160183,11305097);陜西省教育廳資助項(xiàng)目(14JK1148)作者簡(jiǎn)介:魏峻(1979一),男,陜西漢中人,陜西理工學(xué)院實(shí)驗(yàn)師,主要從事數(shù)據(jù)挖掘研究,E—mail:weijun307@163.com.第3期魏峻:基于全局和聲搜索算法的特征基因選擇方法一1(I

7、Iz—M()ll—lIz—H(z)l1).其中:H()、M(z)分別是與同類和非同類的最近鄰點(diǎn).樣本更新屬性P的權(quán)值可表示為w一w一!蘭!垡蘭+—diff(p,x,M(x))—.m最初,Relief算法主要針對(duì)兩類問(wèn)題.1994年Kononenko對(duì)Relief算法進(jìn)行了改進(jìn),提出RelidF算法.算法的思想是將分類問(wèn)題視為一類對(duì)多類關(guān)系加以解決,使算法可以解決多類問(wèn)題和回歸問(wèn)題.其改進(jìn)主要是在權(quán)值更新上,權(quán)值更新公式為kZ_aazf?f(p一,x,lVl?j(x)、)∑diff(p,z,H(z)).w===w~m×k.一+∑.C≠dass()?2改進(jìn)

8、的和聲搜索算法2.1標(biāo)準(zhǔn)和聲搜索算法HS搜索算法(HarmonySearch,HS)是Geem

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。