基于協(xié)同過(guò)濾的個(gè)性化推薦

ID：35061931

大小：3.22 MB

頁(yè)數(shù)：79頁(yè)

時(shí)間：2019-03-17

資源描述：

《基于協(xié)同過(guò)濾的個(gè)性化推薦》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、ThePersonalizedRecommendationbasedonCollaborativeFilteringADissertationSubmittedfortheDegreeofMasterCandidate：WangXuebeiSupervisor：Prof.XuYongSouthChinaUniversityofTechnologyGuangzhou,China摘要隨著互聯(lián)網(wǎng)時(shí)代的迅猛發(fā)展，豐富海量的信息資源為我們的生活、學(xué)習(xí)帶來(lái)了便利，然而，隨著信息資源的飛速增長(zhǎng)，我們很難從海量的數(shù)據(jù)中發(fā)現(xiàn)自己所需要的信息,這便是“信息過(guò)載”。目前解決信

2、息過(guò)載問(wèn)題的技術(shù)主要分為兩類，一類是信息檢索技術(shù)，如：搜索引擎，另一類是信息過(guò)濾技術(shù)，如：推薦系統(tǒng)。其中，搜索引擎獲取的信息質(zhì)量很大程度依賴于用戶對(duì)需求描述的準(zhǔn)確程度，而推薦系統(tǒng)不需要用戶提供明確的需求，它根據(jù)用戶的歷史行為，建立用戶模型，篩選出用戶感興趣的信息。因此在用戶需求不明確時(shí)，推薦系統(tǒng)的作用尤為重要。目前，提出的推薦算法已有很多，協(xié)同過(guò)濾是目前最有效且被應(yīng)用得最為廣泛的推薦算法。雖然協(xié)同過(guò)濾算法已被廣泛應(yīng)用到許多實(shí)際的推薦系統(tǒng)中，但是協(xié)同過(guò)濾方法仍存在一些問(wèn)題：(1)數(shù)據(jù)稀疏問(wèn)題引起推薦結(jié)果不準(zhǔn)確；(2)興趣漂移導(dǎo)致的用戶模型失真；(3)大部分

3、基于單機(jī)實(shí)現(xiàn)，面對(duì)越來(lái)越大的數(shù)據(jù)，無(wú)法滿足實(shí)際需求?；谝陨蠁?wèn)題，本文主要完成以下工作：(1)針對(duì)數(shù)據(jù)稀疏問(wèn)題，本文對(duì)基于用戶的協(xié)同過(guò)濾方法做出改進(jìn),其關(guān)鍵在于在計(jì)算用戶相似度階段，采用了興趣相似度和置信度混合的相似度計(jì)算方法。其中，興趣相似度是由興趣向量計(jì)算余弦距離得到，興趣向量是從用戶歷史數(shù)據(jù)的類別標(biāo)簽，經(jīng)過(guò)篩選確定標(biāo)簽所屬的興趣類別：正向興趣類別、一般興趣類別、負(fù)向興趣類別，然后根據(jù)興趣類別為用戶標(biāo)簽進(jìn)行加權(quán)，再結(jié)合時(shí)間函數(shù)得到最終的興趣向量；置信度是指兩個(gè)用戶擁有的共有項(xiàng)比率，從統(tǒng)計(jì)上反映出用戶之間的相似程度。由于此種方法都不直接使用用戶評(píng)分矩陣

4、，因此有效地解決了數(shù)據(jù)稀疏導(dǎo)致推薦結(jié)果的不準(zhǔn)確的問(wèn)題；(2)針對(duì)興趣漂移問(wèn)題，本文提出時(shí)間函數(shù)（基于時(shí)間的遺忘函數(shù)），結(jié)合用戶興趣向量獲取過(guò)程，調(diào)節(jié)用戶興趣模型，緩解興趣漂移帶來(lái)的推薦質(zhì)量下降；(3)針對(duì)推薦算法在單機(jī)情況下擴(kuò)展性不足的問(wèn)題，本文通過(guò)引入Hadoop并行計(jì)算框架，設(shè)計(jì)并實(shí)現(xiàn)了電影推薦系統(tǒng)。在實(shí)驗(yàn)階段，采用了Movielens數(shù)據(jù)集，設(shè)計(jì)了兩組實(shí)驗(yàn)。其中，一組實(shí)驗(yàn)是對(duì)本文中提出改進(jìn)算法進(jìn)行參數(shù)調(diào)優(yōu)；另一組實(shí)驗(yàn)是本文改進(jìn)的算法與傳統(tǒng)的協(xié)同過(guò)濾算法以及近2年的同類碩士論文中的改進(jìn)算法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明，本文的改進(jìn)算法在推薦準(zhǔn)確率、召回率

5、上均優(yōu)于其他對(duì)比算法。關(guān)鍵詞：協(xié)同過(guò)濾；數(shù)據(jù)稀疏；興趣漂移；混合相似度；HadoopIAbstractWiththerapiddevelopmentoftheInternet,massive,richinformationresourcesbringtheconvenienceforourlife,learning,however,withtherapidgrowthofinformationresources,it’sverydifficultforustofindtheinformationweareinterestedinfromthemassof

6、data,thisis“informationoverload”.Atpresent,tosolvetheproblemofinformationoverload,technologyismainlydividedintotwotypes,oneisinformationretrievaltechnologysuchassearchengine,theotherisinformationfilteringtechnologysuchasrecommendationsystem.Insearchengine,thequalityofobtainedinfo

7、rmationdependsontheaccuracyofuser’sdescriptionofdemand,however,it’snoneedtoprovideuser’sdemandinrecommendationsystem,itbasesontheuser’spastbehavior,establishestheusermodel,andthenfiltersouttheinformationtheyareinterested.Therefore,therecommendationsystemisparticularlyimportant,wh

8、enthedemandofusersisnotclear.Atpresent,a

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 79



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于協(xié)同過(guò)濾的個(gè)性化推薦

基于協(xié)同過(guò)濾的個(gè)性化推薦

相關(guān)文章

相關(guān)標(biāo)簽