數(shù)據(jù)挖掘考題new

ID：38748735

大?。?4.50 KB

頁數(shù)：5頁

時間：2019-06-18

資源描述：

《數(shù)據(jù)挖掘考題new》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、曹達(dá)23220101153239一、分析題1.如何改進(jìn)kmeans算法中的k的選取問題？聚類數(shù)的確定沒有個確切方法。K值可以先用系統(tǒng)聚類法，看譜系圖然后得出大致分幾類。然后試多幾個k值，確定個最好的。使用遺傳算法是解決K均值中K的選取一個比較可行的方法。K均值聚類算法把n個向量Xj(j=1，2，…，n)分成K個類(k=1，2，…，k)，每類的所有樣本形成一組，求每組的聚類中心，使得非相似性(或距離)指標(biāo)的價值函數(shù)(或目標(biāo)函數(shù))達(dá)到最小。K均值聚類算法中重要的一步是初始聚類中心的選擇，聚類的性能與初始聚類中心的選擇有關(guān)

2、系，一般選擇待聚類樣本集的前K個樣本作為初始聚類中心。這樣使得聚類的結(jié)果與樣本的位置有極大的相關(guān)性。為了減少這種相關(guān)性，使用“偽隨機(jī)數(shù)”的方法，生成一個存有隨機(jī)數(shù)的數(shù)組。總以數(shù)組的前K個隨機(jī)數(shù)值對應(yīng)的樣本為初始聚類中心。這種方法不但減少了相關(guān)性問題，也解決了使用隨機(jī)數(shù)作為初始聚類中心造成的相同K值聚類效果不穩(wěn)定的問題。2.請描述EM算法的原理和技術(shù)。在統(tǒng)計計算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中尋找參數(shù)最大似然估計的算法，其中概率模型依

3、賴于無法觀測的隱藏變量（LatentVariabl）。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計算機(jī)視覺的數(shù)據(jù)集聚（DataClustering）領(lǐng)域。最大期望算法經(jīng)過兩個步驟交替進(jìn)行計算，第一步是計算期望（E），也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計算最大似然的期望值；另外一步是最大化（M），也就是最大化在E步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M步上找到的參數(shù)然后用于另外一個E步計算，這個過程不斷交替進(jìn)行。用表示能夠觀察到的不完整的變量值，用表示無法觀察到的變量值，這樣和一起組成了完整的數(shù)據(jù)?？赡苁菍?/p>

4、際測量丟失的數(shù)據(jù)，也可能是能夠簡化問題的隱藏變量，如果它的值能夠知道的話。例如，在混合模型（MixtureModel）中，如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利（參見下面的例子）。讓代表矢量定義的參數(shù)的全部數(shù)據(jù)的概率分布（連續(xù)情況下）或者概率集聚函數(shù)（離散情況下），那么從這個函數(shù)就可以得到全部數(shù)據(jù)的最大似然值，另外，在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件分布可以表示為：3.試分析回歸和分類的區(qū)別。分類(classification)是這樣的過程：它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù))

5、，以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器)，該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個類中。分類和回歸都可用于預(yù)測，兩者的目的都是從歷史數(shù)據(jù)紀(jì)錄中自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述，從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。與回歸不同的是，分類的輸出是離散的類別值，而回歸的輸出是連續(xù)數(shù)值。二者常表現(xiàn)為決策樹的形式，根據(jù)數(shù)據(jù)值從樹根開始搜索，沿著數(shù)據(jù)滿足的分支往上走，走到樹葉就能確定類別。4.決策樹算法有哪些種類和改進(jìn)？決策樹有以下幾種經(jīng)典算法：ID3(IterativeD

6、ichotomizer3)算法。ID3是一種經(jīng)典的決策樹算法，它從根節(jié)點開始，根節(jié)點被賦予一個最好的屬性．隨后對該屬性的每個取值都生成相應(yīng)的分支，在每個分支上又生成新的節(jié)點．對于最好的屬性的選擇標(biāo)準(zhǔn)，ID3采用基于信息熵定義的信息增益來選擇內(nèi)節(jié)點的測試屬性，熵(Entro—py)刻畫了任意樣本集的純度．C4.5算法。C4．5算法是ID3的改進(jìn)，其中屬性的選擇依據(jù)同ID3．它對于實值變量的處理與下節(jié)論述的CART(ClassificationAndRegressionTrees)算法一致，采用多重分支．C4．5算法能實

7、現(xiàn)基于規(guī)則的剪枝．因為算法生成的每個葉子都和一條規(guī)則相關(guān)聯(lián)，這個規(guī)則可以從樹的根節(jié)點直到葉節(jié)點的路徑上以邏輯合取式的形式讀出．CART算法。決策樹的分類過程就是把訓(xùn)練集劃分為越來越小的子集的過程．理想的結(jié)果是決策樹的葉子節(jié)點的樣本都有同類標(biāo)記．如果是這樣，顯然決策樹的分支應(yīng)該停止了，因為所有的類別己經(jīng)被分開了．但是，一般情況下，很難一步就達(dá)到目標(biāo)，所以，如果不止一步才能結(jié)束的話，這個分類的過程就是一個遞歸樹的生長過程，CART是僅有的一種通用的樹生長算法。改進(jìn)：對任何數(shù)量的訓(xùn)練集，總是能找到相應(yīng)的多個線性判別函數(shù)把它

8、分類，但是這樣生成的樹的深度可能太大．因為，雖然使用了最好的特征進(jìn)行分類，但還是可能存在一些特征對分類很有用，盡管不是像最好的特征那樣有用，卻沒有用到．一個直覺是：有些特征對某些類別有效，但是對另外一些則無效，甚至可能有副作用，如果能把這些特征選擇出來，一次就能最大限度地把多個類別分開．MBDT正是基于這個直覺．MBDT通過在每個子集上選擇最能

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)挖掘考題new

數(shù)據(jù)挖掘考題new

相關(guān)文章

相關(guān)標(biāo)簽