資源描述:
《第六章實(shí)驗(yàn)設(shè)計(jì)與結(jié)果評估》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第六章實(shí)驗(yàn)設(shè)計(jì)與結(jié)果評估6.1實(shí)驗(yàn)設(shè)計(jì)與評估方式在本研究裡面,實(shí)驗(yàn)的主要目的是比較各種不同方法的效果。主要的實(shí)驗(yàn)有三部份,列舉如下:1.Converge:我們實(shí)驗(yàn)中所採用的WebpageRankingAlgorithms,在計(jì)算網(wǎng)頁的重要性時(shí),所有網(wǎng)頁的總分?jǐn)?shù),經(jīng)過一定次數(shù)的計(jì)算之後,前後兩次計(jì)算所得的總分,變動(dòng)性不大,因此在我們的實(shí)驗(yàn)裡面,利用PageRank來找出我們實(shí)驗(yàn)中較佳的計(jì)算次數(shù)。2.Fixeddataset:針對不同研究主題,各自固定資料集合,測試哪一種方式能得到較佳的結(jié)果。實(shí)驗(yàn)方式組合如表6.1。3.Personalwebsiteidentification:針對我們提出的個(gè)人
2、網(wǎng)站找法,評估其準(zhǔn)確率。針對第2項(xiàng)實(shí)驗(yàn),我們將分別對各項(xiàng)結(jié)果做評估。主要是請具有該研究主題專長的學(xué)者來評估結(jié)果,評估結(jié)果主要用兩種方式呈現(xiàn),平均分?jǐn)?shù)和準(zhǔn)確率。1.平均分?jǐn)?shù):針對一個(gè)研究主題,我們找出影響力排前10名的論文、會議、期刊和作者,請?jiān)摼哂性撗芯恐黝}專長的學(xué)者,對我們的實(shí)驗(yàn)結(jié)果評分,針對各項(xiàng)具有影響力的論文、會議、期刊和作者,依影響力由低到高給1~5分,最後求出論文、會議、期刊和作者的影響力平均分?jǐn)?shù)。2.準(zhǔn)確率:針對專家對各項(xiàng)的評分,以評分在4分以上,包含4分的結(jié)果當(dāng)作正確,其他當(dāng)作錯(cuò)誤,求出的準(zhǔn)確率。76在本研究中不以Recall來評量的原因,是因?yàn)槲覀儫o法得出關(guān)於某個(gè)研究主題的論文
3、總數(shù)是多少,因此我們僅能得出每一個(gè)property的Precision。表6.1:排序方式的實(shí)驗(yàn)組合PageRank(PR)BasicStrategyTimedPageRank(TPR)HITSPageRank(PR)SATimedPageRank(TPR)AsynchronousRanking(Asyn)HITSPageRank(PR)ASTimedPageRank(TPR)HITSPageRank(PR)SynchronousRanking(Syn)TimedPageRank(TPR)HITS6.2結(jié)果評估本次實(shí)驗(yàn)的硬體設(shè)備,CPU是IntelPentium42.4G,2G的實(shí)體記憶體空間
4、,100MB的網(wǎng)路傳輸環(huán)境。總共下了四個(gè)查詢,Datamining、Associationrules、Database和Patternrecognition。除了上一節(jié)所提到的三項(xiàng)實(shí)驗(yàn),在6.2.4節(jié)我們將作總結(jié)並另外討論SIGMODRecord裡所提到的具有影響力的論文。77圖6.1:PageRank的收斂圖ConvergenceofPaper-basedRanking4su2900paperso2revip)0een10gtwbe(lon13579111315171921cetio-2raite-4ifferendltao-6T-8Numberofiterations圖6.2:實(shí)驗(yàn)結(jié)果收斂
5、圖6.2.1ConvergePageRank[9]裡提到的收斂如圖6.1,總共有322000000個(gè)網(wǎng)頁,當(dāng)前一次計(jì)算的所有網(wǎng)頁總分和下一次的所有網(wǎng)頁總分差在100以下,[9]稱為收斂。因此在我們的實(shí)驗(yàn)裡面,當(dāng)我們的資料集合為2900篇論文時(shí),則總分?jǐn)?shù)差應(yīng)在0.00001之下,而我們實(shí)驗(yàn)的結(jié)果如圖6.2,約在第16次計(jì)算時(shí)達(dá)到0.00001,所以在我們之後的計(jì)算,以20次為基準(zhǔn),來進(jìn)行6.1小節(jié)所提到的第2個(gè)實(shí)驗(yàn)。786.2.2FixedDataset針對Datamining、Associationrules、Database和Patternrecognition等四個(gè)研究主題,分別利用我們所
6、提到的ranking去找出最具影響力的前10名論文、作者、會議和期刊。再表6.2:論文的評估結(jié)果DataminingAssociationrulesDatabasePatternrecognitionscoreprecisionscoreprecisionscoreprecisionscoreprecisionPR310.5350.6360.6370.7TPR310.4430.9390.8370.7HITS170320.5310.4370.7Asyn(SA)+PR430.8350.4320.4390.9Asyn(SA)+TPR440.8330.4340.5370.7Asyn(SA)+HITS1
7、40320.5300.4370.7Asyn(AS)+PR300.5270.2290.3380.8Asyn(AS)+TPR280.4300.3360.4350.5Asyn(AS)+HITS170320.5300.4340.7Syn+PR350.6400.6300.6390.9Syn+TPR140.1290.3350.6360.6Syn+HITS170320.5320.3360.6表6.3:作者的評量