高維數(shù)據(jù)的低維表示綜述.doc

高維數(shù)據(jù)的低維表示綜述.doc

ID:50233700

大?。?30.50 KB

頁數(shù):40頁

時間:2020-03-07

高維數(shù)據(jù)的低維表示綜述.doc_第1頁
高維數(shù)據(jù)的低維表示綜述.doc_第2頁
高維數(shù)據(jù)的低維表示綜述.doc_第3頁
高維數(shù)據(jù)的低維表示綜述.doc_第4頁
高維數(shù)據(jù)的低維表示綜述.doc_第5頁
資源描述:

《高維數(shù)據(jù)的低維表示綜述.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、高維數(shù)據(jù)的低維表示綜述一、研究背景在科學(xué)研究中,我們經(jīng)常要對數(shù)據(jù)進(jìn)行處理。而這些數(shù)據(jù)通常都位于維數(shù)較高的空間,例如,當(dāng)我們處理200個256*256的圖片序列時,通常我們將圖片拉成一個向量,這樣,我們得到了65536*200的數(shù)據(jù),如果直接對這些數(shù)據(jù)進(jìn)行處理,會有以下問題:首先,會出現(xiàn)所謂的“位數(shù)災(zāi)難”問題,巨大的計算量將使我們無法忍受;其次,這些數(shù)據(jù)通常沒有反映出數(shù)據(jù)的本質(zhì)特征,如果直接對他們進(jìn)行處理,不會得到理想的結(jié)果。所以,通常我們需耍首先對數(shù)據(jù)進(jìn)行降維,然后對降維后的數(shù)據(jù)進(jìn)行處理。降維的基本原理是把數(shù)據(jù)樣本從高維輸入空間通過線性或非線性映射投影到一個低

2、維空間,從而找出隱藏在高維觀測數(shù)據(jù)中有意義的低維結(jié)構(gòu)。(8)之所以能對高維數(shù)據(jù)進(jìn)行降維,是因?yàn)閿?shù)據(jù)的原始表示常常包含大量冗余:?有些變量的變化比測量引入的噪聲還耍小,因此可以看作是無關(guān)的?有些變量和其他的變量有很強(qiáng)的相關(guān)性(例如是其他變量的線性組合或是其他函數(shù)依賴關(guān)系),可以找到一組新的不相關(guān)的變量。(3)從兒何的觀點(diǎn)來看,降維可以看成是挖掘嵌入在高維數(shù)據(jù)中的低維線性或非線性流形。這種嵌入保留了原始數(shù)據(jù)的幾何特性,即在高維空間屮靠近的點(diǎn)在嵌入空間中也相互靠近。(12)數(shù)據(jù)降維是以犧牲一部分信息為代價的,把高維數(shù)據(jù)通過投影映射到低維空間中,勢必會造成…些原始信息

3、的損失。所以在對高維數(shù)據(jù)實(shí)施降維的過程屮如何在最優(yōu)的保持原始數(shù)據(jù)的本質(zhì)的前提下,實(shí)現(xiàn)高維數(shù)據(jù)的低維表示,是研究的重點(diǎn)。(8)二、降維問題1.定義定義1.1降維問題的模型為(X,F),其中D維數(shù)據(jù)空間集合X??xl?l?l(-般為RD的一個子集),映射FF:X?Yx?y?F(x),NY是d空間集合(一般是Rd,d??D)的一個子集,我們稱F是數(shù)據(jù)集X(到Y(jié))的降維。若F為X的線性函數(shù),則稱F為線性降維;否則,稱為非線性降維。定義1.2稱映射F?1F?l:Y?Xy?xF?l(y)為嵌入映射。(8)2.分類針對降維問題的目的和待處理數(shù)據(jù)集合表象維數(shù)的多少,對其進(jìn)行初

4、步的、粗略的分類如下:?硬降維問題:數(shù)據(jù)維數(shù)從幾千到幾萬甚至幾十萬的變化,此時需要對數(shù)據(jù)集進(jìn)行“嚴(yán)厲”的降維,以至于達(dá)到便于處理的大小,如圖像識別、分類問題以及語咅識別問題等。?軟降維問題:此吋數(shù)據(jù)集合的維數(shù)不是太高,降維的需求不是非常的迫切。如社會科學(xué)、心理學(xué)以及多元統(tǒng)計分析領(lǐng)域皆屬于此類。?可視化問題:此吋數(shù)據(jù)集合的絕對維數(shù)不是很高,但為了便于利用人們的直觀洞察力,即為了可視化,我們將其降到2或3維。雖然我們可以可視化更高維數(shù)的數(shù)據(jù),但是它們通常難于理解,不能產(chǎn)生數(shù)據(jù)空間的合理形態(tài)。若我們還考慮時間變量的話可以對降維問題進(jìn)行更加進(jìn)一步的分類,靜態(tài)降維問題和

5、動態(tài)降維問題。后者對于吋間序列來講是冇用的,如視頻序列、連續(xù)語音信號等的處理。(4)1.方法介紹如何將高維數(shù)據(jù)表示在低維空間中,并由此發(fā)現(xiàn)其內(nèi)在結(jié)構(gòu)是高維信息處理研究的關(guān)鍵問題Z-O實(shí)際處理中,由于線性方法具冇簡單性、易解釋性、可延展性等優(yōu)點(diǎn),使得線性降維在高維數(shù)據(jù)處理中是一個主要研究方向。已有的線性維數(shù)約簡方法,主要包括主成分分析(PrincipalComponentAnalysis,PCA)[16]>獨(dú)立成分分析(IndependentComponentAnalysis,ICA)>線性判別分析ineardiscriminantanalysis(LDA)[1

6、7]>Fisher判別分析(FisherDiscriminantAnalysis,FDA)、主曲線(PrincipalCurves)>投影尋蹤(ProjectionPursuit,PP)、多維尺度方法(MultidimensionalScaling,MDS)等。這些方法實(shí)際是在不同優(yōu)化準(zhǔn)則之I、,尋求最佳線性模型,這也是線性維數(shù)約簡方法的共性。(10)通過消除數(shù)據(jù)建模過程中的全局線性假設(shè),Sammon提出了一種非線性映射,即Sammon映射(SM),該算法能夠保持輸入樣本之間的相關(guān)距離;Hastie提出了principalcurves(PC),其定義為通過概率

7、分布或數(shù)據(jù)中間的光滑曲線;Kohonen基于自組織神經(jīng)網(wǎng)絡(luò)提出了self-organizingmap(SOM)用來保存數(shù)據(jù)空間的拓?fù)鋵傩裕籗cholkopf等應(yīng)用Mercer核將PCA擴(kuò)展為KernelPCA(KPCA),該算法在高維空間中計算主分量,而該高維空間由輸入空間經(jīng)某種非線性映射得到。Mika等采用相同的思想來非線性擴(kuò)展LDA,從而提出了kernelLDA(KLDA);然而,基于核的方法其難點(diǎn)在于如何選擇一個合適的核函數(shù),一個好的核函數(shù)可以使數(shù)據(jù)在特征空間上線性可分或者近似線性可分,但并不是所選核函數(shù)對于每一種數(shù)據(jù)都適用。核函數(shù)的選擇反映了人們對問題

8、的先驗(yàn)知識,在實(shí)際的應(yīng)用中往往是經(jīng)驗(yàn)地

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。