資源描述:
《基于網(wǎng)絡(luò)流量模式的網(wǎng)絡(luò)社群》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于網(wǎng)絡(luò)流量模式的網(wǎng)絡(luò)社群發(fā)現(xiàn)與網(wǎng)站推薦系統(tǒng)WebCommunityMiningandWebSiteRecommendationSystembasedonNetflowrecordanalysis(申請清華大學(xué)工學(xué)碩士學(xué)位論文)培養(yǎng)單位:電子工程系學(xué)科:信息與通信工程研究生:賈明指導(dǎo)教師:李星教授二○○六年五月基于網(wǎng)絡(luò)流量模式的網(wǎng)絡(luò)社群發(fā)現(xiàn)與網(wǎng)站推薦系統(tǒng)賈明關(guān)于學(xué)位論文使用授權(quán)的說明本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán),其中包括:(1)已獲
2、學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文,學(xué)??梢圆捎糜坝?、縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文;(2)為教學(xué)和科研目的,學(xué)??梢詫⒐_的學(xué)位論文作為資料在圖書館、資料室等場所供校內(nèi)師生閱讀,或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi)容;(3)根據(jù)《中華人民共和國學(xué)位條例暫行實(shí)施辦法》,向國家圖書館報送可以公開的學(xué)位論文。本人保證遵守上述規(guī)定。(保密的論文在解密后遵守此規(guī)定)作者簽名:導(dǎo)師簽名:日期:日期:摘要摘要隨著萬維網(wǎng)(WorldWideWeb)的飛速發(fā)展,人們對于網(wǎng)絡(luò)的需求已經(jīng)不僅僅是獲取大量的信息,而
3、且需要這些信息是為自己量身定制。這種需求促成了網(wǎng)絡(luò)上推薦系統(tǒng)的大量出現(xiàn)與成熟。但是,由于目前的推薦系統(tǒng)都需要用戶對以往的項(xiàng)目做出評價,而大部分推薦系統(tǒng)可以依靠的歷史信息過于稀少,這大大影響了推薦的準(zhǔn)確度。網(wǎng)絡(luò)能反映出人們在現(xiàn)實(shí)中的部分社會關(guān)系,因此,對于網(wǎng)絡(luò)社群的研究也獲得越來越多學(xué)者的關(guān)注。然而,目前人們只能依靠網(wǎng)頁鏈接來獲得網(wǎng)頁集合的社群關(guān)系,這并不能直接反映用戶的社群關(guān)系。本文利用教育網(wǎng)與公網(wǎng)接口路由器產(chǎn)生的Netflow流量數(shù)據(jù),實(shí)現(xiàn)了對用戶的網(wǎng)站推薦系統(tǒng),并且利用網(wǎng)絡(luò)社群在流量上的表現(xiàn),實(shí)現(xiàn)了同
4、時對用戶和網(wǎng)絡(luò)的社群發(fā)現(xiàn)。在預(yù)處理系統(tǒng)中,通過端口及協(xié)議的過濾,IP地址的過濾與合并,,以及異常流量的去除,最終將流量數(shù)據(jù)轉(zhuǎn)換為4種實(shí)用的評分指標(biāo)。在對網(wǎng)絡(luò)社群的研究中,論文首先證明了用戶網(wǎng)絡(luò)社群的存在。之后,論文使用K均值法,二分K均值法和反復(fù)聚類方法對用戶與站點(diǎn)的集合進(jìn)行聚類,從而生成網(wǎng)絡(luò)社群。論文通過對模擬數(shù)據(jù)以及真實(shí)流量數(shù)據(jù)的測試,比較了三種算法在復(fù)雜度和聚類結(jié)果內(nèi)部質(zhì)量上的差異,并對結(jié)果進(jìn)行了分析。試驗(yàn)結(jié)果表明,無論是算法復(fù)雜度還是聚類結(jié)果的內(nèi)部質(zhì)量,普通的K均值算法在本系統(tǒng)的應(yīng)用中最有優(yōu)勢。由
5、于流量評分?jǐn)?shù)據(jù)體現(xiàn)了用戶對站點(diǎn)的興趣程度,論文提出了基于流量評分的網(wǎng)站推薦系統(tǒng)。論文實(shí)現(xiàn)了六種推薦算法:隨機(jī)站點(diǎn)推薦,以流量評分排序的網(wǎng)站推薦(貪心算法),基于最近鄰的網(wǎng)站推薦,基于鄰近IP的網(wǎng)站推薦,基于站點(diǎn)相似度的網(wǎng)站推薦,基于網(wǎng)絡(luò)社群的網(wǎng)站推薦。通過對多種算法評價指標(biāo)的比較,論文認(rèn)為最適合本系統(tǒng)應(yīng)用的是TopN準(zhǔn)確度。通過一系列測試,論文將推薦系統(tǒng)參數(shù)以及各算法參數(shù)調(diào)整至能實(shí)現(xiàn)TopN準(zhǔn)確度最大的情況,并在這種參數(shù)情況下對各個參數(shù)的TopN準(zhǔn)確度做了比較。結(jié)果顯示,基于最近鄰居的推薦算法為最優(yōu)算法,
6、可以達(dá)到50%的Top5準(zhǔn)確度,并且在Top30以內(nèi)的準(zhǔn)確度都在40%以上。這樣高的推薦準(zhǔn)確度為實(shí)現(xiàn)本系統(tǒng)的應(yīng)用奠定了良好的基礎(chǔ)。關(guān)鍵詞:Netflow流量數(shù)據(jù)流量預(yù)處理網(wǎng)絡(luò)社群網(wǎng)站推薦IAbstractAbstractThefastdevelopmentofWorldWideWeb(WWW)improvespeople’sabilityoffindinginformationofinterest,aswellasaugmentstheneedoffilteringrequiredknowledgefro
7、mlargeamountofinformation.Thedemandofhavingthepersonalizedsearchtoolsexpeditestheresearchonrecommendationsystemwhichhasachievedgreatsuccessine-commerce.Therecommendationsystemsfacetheproblemofinformationscarcity,whichgreatlydebasetheperformanceofthesystem
8、s.Theusers’activitiesinWWWhaverevealedsomekindofsocialactivitiesandrelationsintherealworld.Thisphenomenonraisestheresearchinterestintheareaofwebcommunitymining,whichbasedonthelinkagebetweenwebpages.However,thiskindo