資源描述:
《商務(wù)智能與數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告new》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、商務(wù)智能與數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告課程:商務(wù)智能與數(shù)據(jù)挖掘地點(diǎn):L2607時(shí)間:2012年5月13日學(xué)生姓名*******班級電商學(xué)號*******成績實(shí)驗(yàn)項(xiàng)目數(shù)據(jù)挖掘應(yīng)用實(shí)驗(yàn)指導(dǎo)教師*******實(shí)驗(yàn)?zāi)康?.掌握MicrosoftSQLserver的數(shù)據(jù)庫恢復(fù);2.掌握MicrosoftSQLserverAnlysisService的多維數(shù)據(jù)分析功能;3.至少掌握一種數(shù)據(jù)挖掘工具,并能正確地使用;4.利用所掌握的數(shù)據(jù)挖掘工具進(jìn)行分類分析、關(guān)聯(lián)分析、聚類分析等。實(shí)驗(yàn)要求1.根據(jù)提供的“SQL2008SBSDW.bak”文件恢復(fù)SQL2008SBSDW數(shù)據(jù)庫;2.
2、在SQL2008SBSDW數(shù)據(jù)庫上搭建多維數(shù)據(jù)集。3.根據(jù)提供的“data02”進(jìn)行分類分析;4.根據(jù)提供的“data02”進(jìn)行關(guān)聯(lián)分析;5.根據(jù)提供的“data01”進(jìn)行聚類分析;(數(shù)據(jù)可利用系統(tǒng)自帶的進(jìn)行分析,也可利用提供的數(shù)據(jù)進(jìn)行分析)實(shí)驗(yàn)內(nèi)容及實(shí)驗(yàn)結(jié)果一、對“data02”進(jìn)行分類分析1.數(shù)據(jù)格式的轉(zhuǎn)換(1)打開“data02.xls”另存為CSV類型,得到“data02.csv”。(2)在WEKA中提供了一個(gè)“ArffViewer”模塊,打開一個(gè)“data02.csv”進(jìn)行瀏覽,然后另存為ARFF文件,得到“data02.arff”。2.分類過
3、程(1)決策樹分類用“Explorer”打開數(shù)據(jù)“data02.arff”,然后切換到“Classify”。點(diǎn)擊“Choose”,選擇算法“trees-J48”,再在“Testoptions”選擇“Cross-validation(Flods=10)”,點(diǎn)擊“Start”,開始運(yùn)行。訓(xùn)練結(jié)果:系統(tǒng)默認(rèn)trees-J48決策樹算法中minNumObj=2,得到如下結(jié)果===Summary===CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappas
4、tatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255Relativeabsoluteerror30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeightedAvg
5、.0.8850.0610.9130.8850.8870.892===ConfusionMatrix===ab<--classifiedas143
6、a=N09
7、b=Y使用不同的參數(shù)準(zhǔn)確率比較:minNumObj2345CorrectlyClassifiedInstances23(88.4615%)22(84.6154%)23(88.4615%)23(88.4615%)由上表,可知minNumObj為2時(shí),準(zhǔn)確率最高。根據(jù)測試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說明:在用J48對數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉驗(yàn)證(Folds=10)來選擇和評估模型,
8、其中屬性值有兩個(gè)Y,N。一部分結(jié)果如下:CorrectlyClassifiedInstances2388.4615%IncorrectlyClassifiedInstances311.5385%===ConfusionMatrix===ab<--classifiedas143
9、a=N09
10、b=Y這個(gè)矩陣是說,原來是“Y”的實(shí)例,有14個(gè)被正確的預(yù)測為“Y”,有3個(gè)錯(cuò)誤的預(yù)測成了“N”。原本是“NO”的實(shí)例有0個(gè)被正確的預(yù)測成為“Y”,有9個(gè)正確的預(yù)測成了“N”。“14+3+0+9=26”是實(shí)例的總數(shù),而(14+9)/26=0.884615正好是正確分類的
11、實(shí)例所占比例。這個(gè)矩陣對角線上的數(shù)字越大,說明預(yù)測得越好。(2)K最近鄰分類算法用“Explorer”打開數(shù)據(jù)“data02.arff”,然后切換到“Classify”。點(diǎn)擊“Choose”,選擇算法“l(fā)azy-IBk”,再在“Testoptions”選擇“Cross-validation(Flods=10)”,點(diǎn)擊“Start”,開始運(yùn)行。訓(xùn)練結(jié)果:系統(tǒng)默認(rèn)lazy-IBkK最近鄰分類算法中KNN=1,得到如下結(jié)果===Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifi
12、edInstances623.0769%Kappastatistic0.4902