高維數(shù)據(jù)的低維表示綜述.doc

ID：50233700

大?。?30.50 KB

頁數(shù)：40頁

時間：2020-03-07

資源描述：

《高維數(shù)據(jù)的低維表示綜述.doc》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、高維數(shù)據(jù)的低維表示綜述一、研究背景在科學(xué)研究中，我們經(jīng)常要對數(shù)據(jù)進(jìn)行處理。而這些數(shù)據(jù)通常都位于維數(shù)較高的空間，例如，當(dāng)我們處理200個256*256的圖片序列時，通常我們將圖片拉成一個向量，這樣，我們得到了65536*200的數(shù)據(jù)，如果直接對這些數(shù)據(jù)進(jìn)行處理，會有以下問題：首先,會出現(xiàn)所謂的“位數(shù)災(zāi)難”問題，巨大的計算量將使我們無法忍受；其次，這些數(shù)據(jù)通常沒有反映出數(shù)據(jù)的本質(zhì)特征，如果直接對他們進(jìn)行處理，不會得到理想的結(jié)果。所以，通常我們需耍首先對數(shù)據(jù)進(jìn)行降維，然后對降維后的數(shù)據(jù)進(jìn)行處理。降維的基本原理是把數(shù)據(jù)樣本從高維輸入空間通過線性或非線性映射投影到一個低

2、維空間，從而找出隱藏在高維觀測數(shù)據(jù)中有意義的低維結(jié)構(gòu)。（8）之所以能對高維數(shù)據(jù)進(jìn)行降維，是因?yàn)閿?shù)據(jù)的原始表示常常包含大量冗余：?有些變量的變化比測量引入的噪聲還耍小，因此可以看作是無關(guān)的?有些變量和其他的變量有很強(qiáng)的相關(guān)性（例如是其他變量的線性組合或是其他函數(shù)依賴關(guān)系），可以找到一組新的不相關(guān)的變量。（3）從兒何的觀點(diǎn)來看，降維可以看成是挖掘嵌入在高維數(shù)據(jù)中的低維線性或非線性流形。這種嵌入保留了原始數(shù)據(jù)的幾何特性，即在高維空間屮靠近的點(diǎn)在嵌入空間中也相互靠近。（12）數(shù)據(jù)降維是以犧牲一部分信息為代價的，把高維數(shù)據(jù)通過投影映射到低維空間中，勢必會造成…些原始信息

3、的損失。所以在對高維數(shù)據(jù)實(shí)施降維的過程屮如何在最優(yōu)的保持原始數(shù)據(jù)的本質(zhì)的前提下，實(shí)現(xiàn)高維數(shù)據(jù)的低維表示，是研究的重點(diǎn)。（8）二、降維問題1.定義定義1.1降維問題的模型為（X,F）,其中D維數(shù)據(jù)空間集合X??xl?l?l（-般為RD的一個子集），映射FF:X?Yx?y?F（x）,NY是d空間集合（一般是Rd,d??D）的一個子集，我們稱F是數(shù)據(jù)集X（到Y(jié)）的降維。若F為X的線性函數(shù)，則稱F為線性降維；否則，稱為非線性降維。定義1.2稱映射F?1F?l:Y?Xy?xF?l（y）為嵌入映射。（8）2.分類針對降維問題的目的和待處理數(shù)據(jù)集合表象維數(shù)的多少，對其進(jìn)行初

4、步的、粗略的分類如下：?硬降維問題：數(shù)據(jù)維數(shù)從幾千到幾萬甚至幾十萬的變化，此時需要對數(shù)據(jù)集進(jìn)行“嚴(yán)厲”的降維，以至于達(dá)到便于處理的大小，如圖像識別、分類問題以及語咅識別問題等。?軟降維問題：此吋數(shù)據(jù)集合的維數(shù)不是太高，降維的需求不是非常的迫切。如社會科學(xué)、心理學(xué)以及多元統(tǒng)計分析領(lǐng)域皆屬于此類。?可視化問題：此吋數(shù)據(jù)集合的絕對維數(shù)不是很高，但為了便于利用人們的直觀洞察力，即為了可視化，我們將其降到2或3維。雖然我們可以可視化更高維數(shù)的數(shù)據(jù)，但是它們通常難于理解，不能產(chǎn)生數(shù)據(jù)空間的合理形態(tài)。若我們還考慮時間變量的話可以對降維問題進(jìn)行更加進(jìn)一步的分類，靜態(tài)降維問題和

5、動態(tài)降維問題。后者對于吋間序列來講是冇用的，如視頻序列、連續(xù)語音信號等的處理。(4)1.方法介紹如何將高維數(shù)據(jù)表示在低維空間中，并由此發(fā)現(xiàn)其內(nèi)在結(jié)構(gòu)是高維信息處理研究的關(guān)鍵問題Z-O實(shí)際處理中，由于線性方法具冇簡單性、易解釋性、可延展性等優(yōu)點(diǎn)，使得線性降維在高維數(shù)據(jù)處理中是一個主要研究方向。已有的線性維數(shù)約簡方法,主要包括主成分分析(PrincipalComponentAnalysis,PCA)[16]>獨(dú)立成分分析(IndependentComponentAnalysis,ICA)>線性判別分析ineardiscriminantanalysis(LDA)[1

6、7]>Fisher判別分析(FisherDiscriminantAnalysis,FDA)、主曲線(PrincipalCurves)>投影尋蹤(ProjectionPursuit,PP)、多維尺度方法(MultidimensionalScaling,MDS)等。這些方法實(shí)際是在不同優(yōu)化準(zhǔn)則之I、，尋求最佳線性模型，這也是線性維數(shù)約簡方法的共性。(10)通過消除數(shù)據(jù)建模過程中的全局線性假設(shè)，Sammon提出了一種非線性映射，即Sammon映射(SM),該算法能夠保持輸入樣本之間的相關(guān)距離；Hastie提出了principalcurves(PC),其定義為通過概率

7、分布或數(shù)據(jù)中間的光滑曲線;Kohonen基于自組織神經(jīng)網(wǎng)絡(luò)提出了self-organizingmap(SOM)用來保存數(shù)據(jù)空間的拓?fù)鋵傩裕籗cholkopf等應(yīng)用Mercer核將PCA擴(kuò)展為KernelPCA(KPCA),該算法在高維空間中計算主分量，而該高維空間由輸入空間經(jīng)某種非線性映射得到。Mika等采用相同的思想來非線性擴(kuò)展LDA,從而提出了kernelLDA(KLDA)；然而，基于核的方法其難點(diǎn)在于如何選擇一個合適的核函數(shù)，一個好的核函數(shù)可以使數(shù)據(jù)在特征空間上線性可分或者近似線性可分，但并不是所選核函數(shù)對于每一種數(shù)據(jù)都適用。核函數(shù)的選擇反映了人們對問題

8、的先驗(yàn)知識，在實(shí)際的應(yīng)用中往往是經(jīng)驗(yàn)地

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 40



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

高維數(shù)據(jù)的低維表示綜述.doc

高維數(shù)據(jù)的低維表示綜述.doc

相關(guān)文章

相關(guān)標(biāo)簽