數(shù)據(jù)挖掘分類算法介紹

數(shù)據(jù)挖掘分類算法介紹

ID:6301927

大?。?06.50 KB

頁數(shù):14頁

時間:2018-01-09

數(shù)據(jù)挖掘分類算法介紹_第1頁
數(shù)據(jù)挖掘分類算法介紹_第2頁
數(shù)據(jù)挖掘分類算法介紹_第3頁
數(shù)據(jù)挖掘分類算法介紹_第4頁
數(shù)據(jù)挖掘分類算法介紹_第5頁
資源描述:

《數(shù)據(jù)挖掘分類算法介紹》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、數(shù)據(jù)挖掘分類算法介紹----------------------------------------------------------------------------------------------------------------------分類是用于識別什么樣的事務(wù)屬于哪一類的方法,可用于分類的算法有決策樹、bayes分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等。決策樹例1一個自行車廠商想要通過廣告宣傳來吸引顧客。他們從各地的超市獲得超市會員的信息,計劃將廣告冊和禮品投遞給這些會員。但是投遞廣告冊是需要成本的,不可能投遞給所有

2、的超市會員。而這些會員中有的人會響應(yīng)廣告宣傳,有的人就算得到廣告冊不會購買。所以最好是將廣告投遞給那些對廣告冊感興趣從而購買自行車的會員。分類模型的作用就是識別出什么樣的會員可能購買自行車。自行車廠商首先從所有會員中抽取了1000個會員,向這些會員投遞廣告冊,然后記錄這些收到廣告冊的會員是否購買了自行車。數(shù)據(jù)如下:?事例列會員編號12496141772438125597…………輸入列婚姻狀況MarriedMarriedSingleSingle性別FemaleMaleMaleMale收入40000800007000030000孩子

3、數(shù)1500教育背景BachelorsPartialCollegeBachelorsBachelors職業(yè)SkilledManualProfessionalProfessionalClerical是否有房YesNoYesNo汽車數(shù)0210上班距離0-1Miles2-5Miles5-10Miles0-1Miles區(qū)域EuropeEuropePacificEurope年齡42604136預(yù)測列是否購買自行車NoNoYesYes?在分類模型中,每個會員作為一個事例,居民的婚姻狀況、性別、年齡等特征作為輸入列,所需預(yù)測的分類是客戶是否購買

4、了自行車。使用1000個會員事例訓(xùn)練模型后得到的決策樹分類如下:?※圖中矩形表示一個拆分節(jié)點(diǎn),矩形中文字是拆分條件?!匦晤伾顪\代表此節(jié)點(diǎn)包含事例的數(shù)量,顏色越深包含的事例越多,如全部節(jié)點(diǎn)包含所有的1000個事例,顏色最深。經(jīng)過第一次基于年齡的拆分后,年齡大于67歲的包含36個事例,年齡小于32歲的133個事例,年齡在39和67歲之間的602個事例,年齡32和39歲之間的229個事例。所以第一次拆分后,年齡在39和67歲的節(jié)點(diǎn)顏色最深,年齡大于67歲的節(jié)點(diǎn)顏色最淺?!?jié)點(diǎn)中的條包含兩種顏色,紅色和藍(lán)色,分別表示此節(jié)點(diǎn)中的事例購

5、買和不購買自行車的比例。如節(jié)點(diǎn)“年齡>=67”節(jié)點(diǎn)中,包含36個事例,其中28個沒有購買自行車,8個購買了自行車,所以藍(lán)色的條比紅色的要長。表示年齡大于67的會員有74.62%的概率不購買自行車,有23.01%的概率購買自行車。?在圖中,可以找出幾個有用的節(jié)點(diǎn):1.年齡小于32歲,居住在太平洋地區(qū)的會員有72.75%的概率購買自行車;2.年齡在32和39歲之間的會員有68.42%的概率購買自行車;3.年齡在39和67歲之間,上班距離不大于10公里,只有1輛汽車的會員有66.08%的概率購買自行車;4.年齡小于32歲,不住在太平洋

6、地區(qū),上班距離在1公里范圍內(nèi)的會員有51.92%的概率購買自行車;?在得到了分類模型后,將其他的會員在分類模型中查找就可預(yù)測會員購買自行車的概率有多大。隨后自行車廠商就可以有選擇性的投遞廣告冊。?數(shù)據(jù)挖掘的一般流程第一步,建立模型,確定數(shù)據(jù)表中哪些列是要用于輸入,哪些是用于預(yù)測,選擇用何種算法。這時建立的模型內(nèi)容是空的,在模型沒有經(jīng)過訓(xùn)練之前,計算機(jī)是無法知道如何分類數(shù)據(jù)的。?第二步,準(zhǔn)備模型數(shù)據(jù)集,例子中的模型數(shù)據(jù)集就是1000個會員數(shù)據(jù)。通常的做法是將模型集分成訓(xùn)練集和檢驗集,比如從1000個會員數(shù)據(jù)中隨機(jī)抽取700個作為訓(xùn)

7、練集,剩下300個作為檢驗集。第三步,用訓(xùn)練數(shù)據(jù)集填充模型,這個過程是對模型進(jìn)行訓(xùn)練,模型訓(xùn)練后就有分類的內(nèi)容了,像例子圖中的樹狀結(jié)構(gòu)那樣,然后模型就可以對新加入的會員事例進(jìn)行分類了。由于時效性,模型內(nèi)容要經(jīng)常更新,比如十年前會員的消費(fèi)模式與現(xiàn)在有很大的差異,如果用十年前數(shù)據(jù)訓(xùn)練出來的模型來預(yù)測現(xiàn)在的會員是否會購買自行車是不合適的,所以要按時使用新的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型。?第四步,模型訓(xùn)練后,還無法確定模型的分類方法是否準(zhǔn)確??梢杂媚P蛯?00個會員的檢驗集進(jìn)行查詢,查詢后,模型會預(yù)測出哪些會員會購買自行車,將預(yù)測的情況與真實(shí)的

8、情況對比,評估模型預(yù)測是否準(zhǔn)確。如果模型準(zhǔn)確度能滿足要求,就可以用于對新會員進(jìn)行預(yù)測。第五步,超市每天都會有新的會員加入,這些新加入的會員數(shù)據(jù)叫做預(yù)測集或得分集。使用模型對預(yù)測集進(jìn)行預(yù)測,識別出哪些會員可能會購買自行車,然后向這些會員投遞廣告。?Na?veBay

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。