資源描述:
《推薦系統(tǒng)中的用戶(hù)興趣模式檢測(cè)1》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、http://www.paper.edu.cn1推薦系統(tǒng)中的用戶(hù)興趣模式檢測(cè)楊杰,陳恩紅中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系,合肥(230027)E-mail:jayyouth@ustc.edu,cheneh@ustc.edu.cn摘要:近年來(lái)推薦系統(tǒng)已經(jīng)被證明是一種非常有效的方法用以處理網(wǎng)絡(luò)上的信息過(guò)載問(wèn)題,這些推薦系統(tǒng)根據(jù)用戶(hù)以往的訪(fǎng)問(wèn)記錄為用戶(hù)興趣建模,并根據(jù)用戶(hù)興趣給用戶(hù)提供推薦項(xiàng)。然而,當(dāng)前在推薦系統(tǒng)方面的研究幾乎都忽略了用戶(hù)訪(fǎng)問(wèn)記錄的時(shí)間因素,這些系統(tǒng)在為用戶(hù)做推薦的時(shí)候并不知道用戶(hù)的興趣是否發(fā)生了改變,或者說(shuō)并不知道在推薦那一刻并不知道用戶(hù)真正需要什么。本文
2、對(duì)用戶(hù)訪(fǎng)問(wèn)記錄進(jìn)行深入分析,提出了四種典型的用戶(hù)興趣模式,并提出了一種及于子圖稠密度和連續(xù)度的方法來(lái)檢測(cè)這四種模式。實(shí)驗(yàn)結(jié)果顯示該方法可以有效檢測(cè)用戶(hù)興趣模式。關(guān)鍵詞:推薦系統(tǒng);興趣模式;偏移檢測(cè);序列分割中圖分類(lèi)號(hào):TP31計(jì)算機(jī)軟件1.引言推薦系統(tǒng)常常在用戶(hù)先前訪(fǎng)問(wèn)數(shù)據(jù)、訪(fǎng)問(wèn)項(xiàng)的內(nèi)容以及用戶(hù)自身信息等基礎(chǔ)上為用戶(hù)提供他們可能感興趣的推薦項(xiàng)。目前在推薦系統(tǒng)方面有很多有意義的研究[1],包括基于內(nèi)容的推薦(content-based)、基于協(xié)同過(guò)濾的推薦(collaborativefiltering)和混合推薦(hybridmethod)等。然而,大多數(shù)當(dāng)前的
3、研究很少關(guān)注用戶(hù)興趣上的轉(zhuǎn)變,盡管現(xiàn)實(shí)中用戶(hù)的興趣總是在發(fā)生變化。這些系統(tǒng)大都把用戶(hù)的訪(fǎng)問(wèn)數(shù)據(jù)全部同等地進(jìn)行處理,而不關(guān)心用戶(hù)的興趣是否發(fā)生了變化,也不在乎系統(tǒng)提供推薦那一刻用戶(hù)真正的興趣是什么。到目前為止,只有少數(shù)的研究考慮了時(shí)間因素和檢測(cè)用戶(hù)興趣的變化[2]。文章[3]使用關(guān)聯(lián)規(guī)則挖掘算法在基于內(nèi)容的推薦系統(tǒng)中建立興趣變化規(guī)則;文章[4]使用一種SOM(self-roganizingmap)聚類(lèi)方法來(lái)檢測(cè)用戶(hù)興趣在協(xié)同過(guò)濾系統(tǒng)中的變化。然而為了達(dá)到更好的推薦效果,實(shí)際的推薦系統(tǒng)大多采用混合的推薦模式來(lái)建立推薦系統(tǒng),因此迫切需要一種更一般的方法來(lái)檢測(cè)用戶(hù)興趣
4、在復(fù)雜的推薦系統(tǒng)中的變化。為了提高推薦系統(tǒng)的性能,本文分析了時(shí)間相關(guān)的用戶(hù)評(píng)分?jǐn)?shù)據(jù),并提取出四種用戶(hù)興趣模式。它們分別為:?jiǎn)我慌d趣模式(singleinterestmode),多興趣模式(multipleinterestsmode),興趣偏移模式(interestshiftingmode),隨機(jī)噪聲模式(casualnoisemode)。其中,興趣偏移模式和隨機(jī)噪聲模式存在于系統(tǒng)數(shù)據(jù)中的話(huà)將會(huì)對(duì)推薦系統(tǒng)的推薦性能造成很大的影響。于是我們把所有的項(xiàng)構(gòu)建成一個(gè)相似網(wǎng)絡(luò)圖,并且定義了用戶(hù)訪(fǎng)問(wèn)項(xiàng)子圖,以及子圖的稠密度和連續(xù)度。根據(jù)子圖的稠密度和連續(xù)度我們識(shí)別出了單一興
5、趣用戶(hù)和隨機(jī)噪聲用戶(hù)。而且我們采用基于稠密度的啟發(fā)式分段算法識(shí)別多興趣用戶(hù)和興趣偏移用戶(hù),達(dá)到很高的準(zhǔn)確度和召回率。本文主要貢獻(xiàn)有以下幾點(diǎn):(1)本文提出了四種用戶(hù)興趣模式,它們可以揭示出用戶(hù)興趣的變化。根據(jù)有的用戶(hù)具有單一興趣,有的用戶(hù)同時(shí)具有多個(gè)用戶(hù),有的用戶(hù)興趣發(fā)生改變,而有些用戶(hù)的訪(fǎng)問(wèn)數(shù)據(jù)類(lèi)似隨機(jī)噪聲,我們提出四種模式,縮寫(xiě)為:SIM,MIM,ISM,CNM。(2)我們提出了一種方法根據(jù)用戶(hù)的訪(fǎng)問(wèn)記錄來(lái)檢測(cè)用戶(hù)的興趣模式。首先我們?cè)诔砻芏群瓦B續(xù)度的基礎(chǔ)上設(shè)置了閾值來(lái)識(shí)別單一興趣用戶(hù)和隨機(jī)噪聲用戶(hù)。隨后采用一種基于稠密度的分割算法識(shí)別多興趣用戶(hù)和興趣偏移
6、用戶(hù)。實(shí)驗(yàn)結(jié)果顯示我們的方法在精確度、召回率和F-值方面都有超過(guò)90%的得分。1本課題得到國(guó)家教育部基于“中國(guó)科技論文在線(xiàn)”模式的科技論文網(wǎng)絡(luò)發(fā)表平臺(tái)的個(gè)性化服務(wù)研究,教育部博士點(diǎn)基金項(xiàng)目(2007105)的資助。-1-http://www.paper.edu.cn本文的剩余部分組織如下:第二節(jié)我們首先介紹了推薦系統(tǒng)中項(xiàng)具有的相似度特性,接著在此特性基礎(chǔ)上根據(jù)用戶(hù)的訪(fǎng)問(wèn)行為概括出了四種用戶(hù)的訪(fǎng)問(wèn)模式,包括單興趣、多興趣、興趣偏移和隨機(jī)噪聲模式。然后我們給出了用戶(hù)訪(fǎng)問(wèn)項(xiàng)子圖及其稠密度和連續(xù)度的定義,并在兩者基礎(chǔ)上給出了稠密度和連續(xù)度的閾值來(lái)識(shí)別單興趣模式和隨機(jī)噪
7、聲模式,更進(jìn)一步本文提出了基于稠密度的啟發(fā)式分割算法來(lái)檢測(cè)興趣偏移,從而識(shí)別興趣偏移模式和多興趣模式。第三節(jié)我們?cè)谀M數(shù)據(jù)上做了一些實(shí)驗(yàn)來(lái)識(shí)別四種模式,結(jié)果顯示我們的方法對(duì)識(shí)別用戶(hù)訪(fǎng)問(wèn)模式具有相當(dāng)好的性能。第四節(jié)中本文詳細(xì)介紹了一些與用戶(hù)興趣偏移檢測(cè)相關(guān)的研究工作。最后一節(jié)對(duì)本文進(jìn)行總結(jié)并給出了我們的結(jié)論。2.興趣模式2.1項(xiàng)的相似性網(wǎng)絡(luò)先前的研究[5,6]顯示項(xiàng)之間存在相似性。我們從MovieLens數(shù)據(jù)集(詳細(xì)描述在3.1小節(jié))中選取了一些電影作為例子。表1給出了這些電影以及它們具有類(lèi)型的描述。對(duì)于電影Mi和Mj,它們的類(lèi)型用Gi和Gj表示,則電影Mi與M
8、j的相似度可以定義為:
9、GIG
10、ijs