數(shù)據(jù)挖掘考題new

數(shù)據(jù)挖掘考題new

ID:38748735

大?。?4.50 KB

頁數(shù):5頁

時間:2019-06-18

數(shù)據(jù)挖掘考題new_第1頁
數(shù)據(jù)挖掘考題new_第2頁
數(shù)據(jù)挖掘考題new_第3頁
數(shù)據(jù)挖掘考題new_第4頁
數(shù)據(jù)挖掘考題new_第5頁
資源描述:

《數(shù)據(jù)挖掘考題new》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、曹達(dá)23220101153239一、分析題1.如何改進(jìn)kmeans算法中的k的選取問題?聚類數(shù)的確定沒有個確切方法。K值可以先用系統(tǒng)聚類法,看譜系圖然后得出大致分幾類。然后試多幾個k值,確定個最好的。使用遺傳算法是解決K均值中K的選取一個比較可行的方法。K均值聚類算法把n個向量Xj(j=1,2,…,n)分成K個類(k=1,2,…,k),每類的所有樣本形成一組,求每組的聚類中心,使得非相似性(或距離)指標(biāo)的價值函數(shù)(或目標(biāo)函數(shù))達(dá)到最小。K均值聚類算法中重要的一步是初始聚類中心的選擇,聚類的性能與初始聚類中心的選擇有關(guān)

2、系,一般選擇待聚類樣本集的前K個樣本作為初始聚類中心。這樣使得聚類的結(jié)果與樣本的位置有極大的相關(guān)性。為了減少這種相關(guān)性,使用“偽隨機(jī)數(shù)”的方法,生成一個存有隨機(jī)數(shù)的數(shù)組。總以數(shù)組的前K個隨機(jī)數(shù)值對應(yīng)的樣本為初始聚類中心。這種方法不但減少了相關(guān)性問題,也解決了使用隨機(jī)數(shù)作為初始聚類中心造成的相同K值聚類效果不穩(wěn)定的問題。2.請描述EM算法的原理和技術(shù)。在統(tǒng)計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依

3、賴于無法觀測的隱藏變量(LatentVariabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計算機(jī)視覺的數(shù)據(jù)集聚(DataClustering)領(lǐng)域。最大期望算法經(jīng)過兩個步驟交替進(jìn)行計算,第一步是計算期望(E),也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計算最大似然的期望值;另外一步是最大化(M),也就是最大化在E步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M步上找到的參數(shù)然后用于另外一個E步計算,這個過程不斷交替進(jìn)行。用表示能夠觀察到的不完整的變量值,用表示無法觀察到的變量值,這樣和一起組成了完整的數(shù)據(jù)??赡苁菍?/p>

4、際測量丟失的數(shù)據(jù),也可能是能夠簡化問題的隱藏變量,如果它的值能夠知道的話。例如,在混合模型(MixtureModel)中,如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利(參見下面的例子)。讓代表矢量定義的參數(shù)的全部數(shù)據(jù)的概率分布(連續(xù)情況下)或者概率集聚函數(shù)(離散情況下),那么從這個函數(shù)就可以得到全部數(shù)據(jù)的最大似然值,另外,在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件分布可以表示為:3.試分析回歸和分類的區(qū)別。分類(classification)是這樣的過程:它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù))

5、,以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個類中。分類和回歸都可用于預(yù)測,兩者的目的都是從歷史數(shù)據(jù)紀(jì)錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。與回歸不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。二者常表現(xiàn)為決策樹的形式,根據(jù)數(shù)據(jù)值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。4.決策樹算法有哪些種類和改進(jìn)?決策樹有以下幾種經(jīng)典算法:ID3(IterativeD

6、ichotomizer3)算法。ID3是一種經(jīng)典的決策樹算法,它從根節(jié)點開始,根節(jié)點被賦予一個最好的屬性.隨后對該屬性的每個取值都生成相應(yīng)的分支,在每個分支上又生成新的節(jié)點.對于最好的屬性的選擇標(biāo)準(zhǔn),ID3采用基于信息熵定義的信息增益來選擇內(nèi)節(jié)點的測試屬性,熵(Entro—py)刻畫了任意樣本集的純度.C4.5算法。C4.5算法是ID3的改進(jìn),其中屬性的選擇依據(jù)同ID3.它對于實值變量的處理與下節(jié)論述的CART(ClassificationAndRegressionTrees)算法一致,采用多重分支.C4.5算法能實

7、現(xiàn)基于規(guī)則的剪枝.因為算法生成的每個葉子都和一條規(guī)則相關(guān)聯(lián),這個規(guī)則可以從樹的根節(jié)點直到葉節(jié)點的路徑上以邏輯合取式的形式讀出.CART算法。決策樹的分類過程就是把訓(xùn)練集劃分為越來越小的子集的過程.理想的結(jié)果是決策樹的葉子節(jié)點的樣本都有同類標(biāo)記.如果是這樣,顯然決策樹的分支應(yīng)該停止了,因為所有的類別己經(jīng)被分開了.但是,一般情況下,很難一步就達(dá)到目標(biāo),所以,如果不止一步才能結(jié)束的話,這個分類的過程就是一個遞歸樹的生長過程,CART是僅有的一種通用的樹生長算法。改進(jìn):對任何數(shù)量的訓(xùn)練集,總是能找到相應(yīng)的多個線性判別函數(shù)把它

8、分類,但是這樣生成的樹的深度可能太大.因為,雖然使用了最好的特征進(jìn)行分類,但還是可能存在一些特征對分類很有用,盡管不是像最好的特征那樣有用,卻沒有用到.一個直覺是:有些特征對某些類別有效,但是對另外一些則無效,甚至可能有副作用,如果能把這些特征選擇出來,一次就能最大限度地把多個類別分開.MBDT正是基于這個直覺.MBDT通過在每個子集上選擇最能

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。