基于微博的用戶分析與個(gè)性化推薦系統(tǒng)

基于微博的用戶分析與個(gè)性化推薦系統(tǒng)

ID:16363037

大?。?72.00 KB

頁(yè)數(shù):11頁(yè)

時(shí)間:2018-08-09

基于微博的用戶分析與個(gè)性化推薦系統(tǒng)_第1頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)_第2頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)_第3頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)_第4頁(yè)
基于微博的用戶分析與個(gè)性化推薦系統(tǒng)_第5頁(yè)
資源描述:

《基于微博的用戶分析與個(gè)性化推薦系統(tǒng)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、1.概念及應(yīng)用背景1.1本文研究?jī)?nèi)容在過(guò)去的幾年時(shí)間里,無(wú)論從用戶數(shù)量還是內(nèi)容數(shù)量來(lái)看,互聯(lián)網(wǎng)都經(jīng)歷了爆炸式的增長(zhǎng)。人們逐漸從信息匱乏時(shí)代過(guò)渡到了信息過(guò)載(informationoverload)時(shí)代。無(wú)論作為想獲取信息的普通用戶,還是作為產(chǎn)生信息的內(nèi)容提供商或產(chǎn)品提供商,都面臨著新的挑戰(zhàn)。作為普通用戶,他們希望有一種從海量信息中方便實(shí)時(shí)快速地獲取有用的信息的方式。而作為內(nèi)容或產(chǎn)品提供商,他們希望把自己的信息及時(shí)準(zhǔn)確地傳播給希望接收這些信息的目標(biāo)群體。用戶獲取信息的方式經(jīng)歷了如下幾個(gè)階段:從原始靠人工記憶各種網(wǎng)站,并且人工查找所需的信息,推出了按類別對(duì)網(wǎng)站進(jìn)行分類以方

2、便用戶查詢,再到近年來(lái)以為代表的搜索引擎的出現(xiàn)。雖然搜索引擎極大地方便了人們獲取信息的方式,但是依然存在不足。比如,當(dāng)用戶無(wú)法用一些關(guān)鍵詞準(zhǔn)確描述自己的需求時(shí),搜索引擎就無(wú)能為力了。而且對(duì)于互聯(lián)網(wǎng)信息的內(nèi)容提供商來(lái)說(shuō),搜索引擎也不能幫助他們主動(dòng)地把自己的內(nèi)容傳播給目標(biāo)人群。推薦系統(tǒng)的出現(xiàn)彌補(bǔ)了搜索引擎的不足。從用戶的角度出發(fā),搜索引擎是一個(gè)拉(pull)模型,即用戶主動(dòng)地查找自己感興趣的信息,而推薦系統(tǒng)是一個(gè)推(push)模型,即系統(tǒng)根據(jù)用戶的歷史行為記錄,推薦新的信息給用戶。一個(gè)好的推薦系統(tǒng),非常重要的一步就是對(duì)用戶的興趣進(jìn)行建模。常用的方法是根據(jù)用戶的歷史行為數(shù)據(jù)

3、對(duì)用戶興趣進(jìn)行建模。用戶的歷史行為數(shù)據(jù)可以是用戶的在線購(gòu)買記錄,搜索記錄等。這些數(shù)據(jù)存在許多缺點(diǎn)。首先,數(shù)據(jù)的形式比較單一,只能反應(yīng)用戶的購(gòu)買喜好,或者搜索喜好,并不能全面地描述用戶的興趣。其次,這些數(shù)據(jù)更新緩慢,反應(yīng)的是用戶過(guò)去的興趣。而我們相信,用戶的興趣可能是經(jīng)常變化的。而且對(duì)于一個(gè)新的用戶,在沒(méi)有歷史行為數(shù)據(jù)的情況下,推薦系統(tǒng)就無(wú)法正常工作,這也稱為冷啟動(dòng)(coldstart)問(wèn)題。另外一種獲取用戶興趣的方式是讓用戶直接輸入一些關(guān)鍵詞列表來(lái)描述用戶的興趣。但是通常情況下,用戶并不愿意參與其中。并且,用戶可能不能完整地描述自己的興趣。另外,由于用戶的興趣會(huì)隨時(shí)間

4、經(jīng)常變化,這就需要用戶不停地更新關(guān)鍵詞列表。這些局限性大大降低了用戶體驗(yàn),也會(huì)影響推薦系統(tǒng)的質(zhì)量。微博作為一種新興的社交網(wǎng)絡(luò)和信息分享、傳播方式,在最近幾年變得尤為流行。常用的微博服務(wù),比如國(guó)外的,國(guó)內(nèi)的新浪微博,騰訊微博等,都有上億的注冊(cè)用戶。最初的理念就是,讓用戶能夠更加簡(jiǎn)單地與好友、家人分享自己正在做什么。實(shí)際中,用戶不僅使用微博發(fā)布我正在做什么之類的信息,還用它來(lái)與好友交流,轉(zhuǎn)播突發(fā)的一些新聞事件,對(duì)某件事發(fā)表自己的觀點(diǎn),甚至在危險(xiǎn)的時(shí)候作為一種求救的方式。微博更像是傳統(tǒng)博客與社交網(wǎng)絡(luò)的一個(gè)結(jié)合體。微博服務(wù)的一個(gè)重要特性就是它的實(shí)時(shí)性。比如,傳統(tǒng)的博客用戶可能

5、每過(guò)幾天會(huì)更新一次博客的內(nèi)容。而微博用戶經(jīng)常會(huì)在一天內(nèi)發(fā)布多條微博內(nèi)容。而且用戶發(fā)布的微博內(nèi)容大部分都是跟用戶每天的活動(dòng)相關(guān)。因此,微博內(nèi)容可以被看做是基于人的信息聚合種子(RSSFeed)。微博的這些特性讓我們有了新的途徑去獲取用戶的實(shí)時(shí)興趣。與傳統(tǒng)的獲取用戶興趣的方法相比,微博提供了更海量,更實(shí)時(shí)的數(shù)據(jù)。如何有效地從用戶的微博數(shù)據(jù)中挖掘出用戶的實(shí)時(shí)興趣,對(duì)于提高個(gè)性化推薦的質(zhì)量,提高用戶體驗(yàn),都具有重要意義。101.2本文研究?jī)?nèi)容本文主要對(duì)從微博數(shù)據(jù)集上分析用戶興趣并進(jìn)行個(gè)性化推薦的過(guò)程中的一些關(guān)鍵問(wèn)題進(jìn)行分析和探索:1.2.1使用外部知識(shí)庫(kù)對(duì)微博文本進(jìn)行語(yǔ)義豐富

6、針對(duì)微博文本內(nèi)容都比較短,語(yǔ)義信息不夠充分的特點(diǎn),我們提出使用在外部知識(shí)庫(kù)上建立的主題模型分析微博內(nèi)容,從而對(duì)短文本的微博內(nèi)容進(jìn)行語(yǔ)義上的豐富。這樣也避免了直接在微博數(shù)據(jù)上構(gòu)建主題模型時(shí),主題數(shù)目不容易確定的缺點(diǎn)。1.2.2過(guò)濾不能體現(xiàn)用戶興趣的微博用戶使用微博的目的多樣,因此并不是每條微博都能體現(xiàn)用戶興趣。那些不能體現(xiàn)用戶興趣的微博,會(huì)對(duì)基于詞袋的模型,包括主題模型等,產(chǎn)生負(fù)面的影響。我們稱這些微博為噪音微博。我們從多個(gè)方面分析了識(shí)別一條微博是否是噪音微博的特征,并使用樸素貝葉斯分類器和支持向量機(jī)分類器過(guò)濾掉這些噪音微博。1.2.3用時(shí)間加權(quán)的主題分布表示用戶興趣我

7、們認(rèn)為用戶的興趣并不是一成不變的,而是隨時(shí)間變化的。因此,我們?cè)谟脩襞d趣的表達(dá)上,加上的時(shí)間的維度。并基于此描述了分析用戶興趣及個(gè)性化推薦的方法。2.基于微博的用戶興趣分析及信息推薦方法研究2.1概述微博服務(wù)作為目前主流的信息傳播媒介,越來(lái)越多的用戶每天在上面發(fā)布自己的狀態(tài),分享信息,表達(dá)自己的觀點(diǎn)、想法和意圖。這使得微博服務(wù)成為一個(gè)有用的、信息量巨大的數(shù)據(jù)源,用來(lái)挖掘分析用戶的興趣。根據(jù)從微博數(shù)據(jù)中分析得到的用戶興趣,我們可以給用戶推薦他們感興趣的新聞、團(tuán)購(gòu)信息等。本文針對(duì)微博的特點(diǎn),提出了從微博數(shù)據(jù)中分析用戶興趣并建模的方法,然后使用挖掘出的用戶

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。