資源描述:
《基于協(xié)同過(guò)濾的個(gè)性化推薦》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、ThePersonalizedRecommendationbasedonCollaborativeFilteringADissertationSubmittedfortheDegreeofMasterCandidate:WangXuebeiSupervisor:Prof.XuYongSouthChinaUniversityofTechnologyGuangzhou,China摘要隨著互聯(lián)網(wǎng)時(shí)代的迅猛發(fā)展,豐富海量的信息資源為我們的生活、學(xué)習(xí)帶來(lái)了便利,然而,隨著信息資源的飛速增長(zhǎng),我們很難從海量的數(shù)據(jù)中發(fā)現(xiàn)自己所需要的信息,這便是“信息過(guò)載”。目前解決信
2、息過(guò)載問(wèn)題的技術(shù)主要分為兩類,一類是信息檢索技術(shù),如:搜索引擎,另一類是信息過(guò)濾技術(shù),如:推薦系統(tǒng)。其中,搜索引擎獲取的信息質(zhì)量很大程度依賴于用戶對(duì)需求描述的準(zhǔn)確程度,而推薦系統(tǒng)不需要用戶提供明確的需求,它根據(jù)用戶的歷史行為,建立用戶模型,篩選出用戶感興趣的信息。因此在用戶需求不明確時(shí),推薦系統(tǒng)的作用尤為重要。目前,提出的推薦算法已有很多,協(xié)同過(guò)濾是目前最有效且被應(yīng)用得最為廣泛的推薦算法。雖然協(xié)同過(guò)濾算法已被廣泛應(yīng)用到許多實(shí)際的推薦系統(tǒng)中,但是協(xié)同過(guò)濾方法仍存在一些問(wèn)題:(1)數(shù)據(jù)稀疏問(wèn)題引起推薦結(jié)果不準(zhǔn)確;(2)興趣漂移導(dǎo)致的用戶模型失真;(3)大部分
3、基于單機(jī)實(shí)現(xiàn),面對(duì)越來(lái)越大的數(shù)據(jù),無(wú)法滿足實(shí)際需求?;谝陨蠁?wèn)題,本文主要完成以下工作:(1)針對(duì)數(shù)據(jù)稀疏問(wèn)題,本文對(duì)基于用戶的協(xié)同過(guò)濾方法做出改進(jìn),其關(guān)鍵在于在計(jì)算用戶相似度階段,采用了興趣相似度和置信度混合的相似度計(jì)算方法。其中,興趣相似度是由興趣向量計(jì)算余弦距離得到,興趣向量是從用戶歷史數(shù)據(jù)的類別標(biāo)簽,經(jīng)過(guò)篩選確定標(biāo)簽所屬的興趣類別:正向興趣類別、一般興趣類別、負(fù)向興趣類別,然后根據(jù)興趣類別為用戶標(biāo)簽進(jìn)行加權(quán),再結(jié)合時(shí)間函數(shù)得到最終的興趣向量;置信度是指兩個(gè)用戶擁有的共有項(xiàng)比率,從統(tǒng)計(jì)上反映出用戶之間的相似程度。由于此種方法都不直接使用用戶評(píng)分矩陣
4、,因此有效地解決了數(shù)據(jù)稀疏導(dǎo)致推薦結(jié)果的不準(zhǔn)確的問(wèn)題;(2)針對(duì)興趣漂移問(wèn)題,本文提出時(shí)間函數(shù)(基于時(shí)間的遺忘函數(shù)),結(jié)合用戶興趣向量獲取過(guò)程,調(diào)節(jié)用戶興趣模型,緩解興趣漂移帶來(lái)的推薦質(zhì)量下降;(3)針對(duì)推薦算法在單機(jī)情況下擴(kuò)展性不足的問(wèn)題,本文通過(guò)引入Hadoop并行計(jì)算框架,設(shè)計(jì)并實(shí)現(xiàn)了電影推薦系統(tǒng)。在實(shí)驗(yàn)階段,采用了Movielens數(shù)據(jù)集,設(shè)計(jì)了兩組實(shí)驗(yàn)。其中,一組實(shí)驗(yàn)是對(duì)本文中提出改進(jìn)算法進(jìn)行參數(shù)調(diào)優(yōu);另一組實(shí)驗(yàn)是本文改進(jìn)的算法與傳統(tǒng)的協(xié)同過(guò)濾算法以及近2年的同類碩士論文中的改進(jìn)算法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明,本文的改進(jìn)算法在推薦準(zhǔn)確率、召回率
5、上均優(yōu)于其他對(duì)比算法。關(guān)鍵詞:協(xié)同過(guò)濾;數(shù)據(jù)稀疏;興趣漂移;混合相似度;HadoopIAbstractWiththerapiddevelopmentoftheInternet,massive,richinformationresourcesbringtheconvenienceforourlife,learning,however,withtherapidgrowthofinformationresources,it’sverydifficultforustofindtheinformationweareinterestedinfromthemassof
6、data,thisis“informationoverload”.Atpresent,tosolvetheproblemofinformationoverload,technologyismainlydividedintotwotypes,oneisinformationretrievaltechnologysuchassearchengine,theotherisinformationfilteringtechnologysuchasrecommendationsystem.Insearchengine,thequalityofobtainedinfo
7、rmationdependsontheaccuracyofuser’sdescriptionofdemand,however,it’snoneedtoprovideuser’sdemandinrecommendationsystem,itbasesontheuser’spastbehavior,establishestheusermodel,andthenfiltersouttheinformationtheyareinterested.Therefore,therecommendationsystemisparticularlyimportant,wh
8、enthedemandofusersisnotclear.Atpresent,a