資源描述:
《基于用戶與消息特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)模型研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、分類號(hào)TP3密級(jí)公開UDC620學(xué)校代碼10巧5碩:ir?qū)W位論文(專業(yè)學(xué)位)¥基于用戶與消息特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)模型研究研究生姓名:陳磊指導(dǎo)教師、職稱:背基毅教授合作導(dǎo)師、職稱:王懷杰教授專業(yè)學(xué)位類別(領(lǐng)域);計(jì)算機(jī)技術(shù)研究:.方向數(shù)據(jù)挖掘所在學(xué)院:計(jì)算化科學(xué)與技術(shù)學(xué)院二—0六年五月基于巧戶與消息特征的橫I博轉(zhuǎn)發(fā)預(yù)測(cè)模型研究論文作者簽名:粹禹心指導(dǎo)教師簽名:帶去心扛論文評(píng)閱人1:為jy評(píng)閱人/2:
2、文)雞呼評(píng)閱人3:^答辯委員會(huì)主席*^:安《移^^弓^委巧1;旁姑^教炎委員2;考f委貝3:施%禾私委員斗;轉(zhuǎn)句客姆工於聽委員5;委員6:答辯日期/?日;年r月南華大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明.,所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研巧成果盡我所知,除了論文中特別加W標(biāo)注和致謝的地方外,論文中不包含其他人己經(jīng)發(fā)表或揉寫過(guò)的研究成果,也不包含為獲得南華大學(xué)或其他單位的學(xué)位或證書而使用過(guò)的材料。與我
3、共同工作的同志對(duì)本研究所作的貢獻(xiàn)均已在論文中作了明確的說(shuō)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。"作者簽名:的P/月書日南華大學(xué)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文是本人在南華大學(xué)攻讀(博/壬學(xué)位期間在導(dǎo)師指導(dǎo)下完成的學(xué)位論文。>^它單位的名義發(fā)表。本人同本論文,{^^其的研巧成果巧南華大學(xué)所有本論文的研究?jī)?nèi)容不得意南華大學(xué)有關(guān)保,留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留學(xué)位論文允許學(xué)位論文被查可^公布學(xué)位論文的全部或部分、^,可^^采縮印或其它手段保閱和借閱;學(xué)
4、校1??jī)?nèi)容用復(fù)印?!?;中留學(xué)位論文學(xué)校可根據(jù)國(guó)家或湖南省有關(guān)部口規(guī)定送交學(xué)位論文同意學(xué)校將論文加入國(guó)優(yōu)秀博碩古學(xué)位論文全文數(shù)據(jù)庫(kù)》,《國(guó)優(yōu)秀博碩:t學(xué)位論文全文數(shù)據(jù)庫(kù)出版章程》并按中。論文收錄到《規(guī)定享受相關(guān)權(quán)益同意授權(quán)中國(guó)科學(xué)信息技術(shù)研究所將本學(xué)位中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù),》,并通過(guò)網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)。對(duì)于涉密的學(xué)位論文解密后適用該授權(quán)。^^作者簽名:[曰的/月扛導(dǎo)師簽名:峽^曰診月戶K爭(zhēng)基于用戶與消息特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)模型研究摘要:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,社會(huì)化媒體
5、技術(shù)日新月異,微博已成為傳播信息的主要網(wǎng)絡(luò)平臺(tái)。作為一種新的媒體工具,微博已經(jīng)融入到人們的學(xué)習(xí)、工作、生活中來(lái),不僅改變了社會(huì)大眾的舊有的社交方式,而且徹底顛覆了傳統(tǒng)的信息傳播模式。新浪微博是成立于2009年的微博平臺(tái),它是一個(gè)基于粉絲-關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)的信息發(fā)布、分享、傳播、獲取平臺(tái),允許超過(guò)2億用戶分享微博消息:任何一條微博的字符數(shù)都被限定在140個(gè)之內(nèi)。微博用戶可以關(guān)注其他用戶,通過(guò)這種方式來(lái)獲取他們發(fā)布的微博消息。如果一個(gè)用戶覺(jué)得一條微博很有趣并且值得分享,他就可以把這條微博傳遞給自己的粉絲,這種行
6、為被稱為轉(zhuǎn)發(fā)。通常用戶會(huì)轉(zhuǎn)發(fā)那些有趣的或與他們粉絲有關(guān)的內(nèi)容。按照慣例,轉(zhuǎn)發(fā)會(huì)用特殊的關(guān)鍵字來(lái)表示,例如(轉(zhuǎn))。進(jìn)行轉(zhuǎn)發(fā)通常是為了向自己的粉絲傳播信息。研究微博用戶轉(zhuǎn)發(fā)行為,預(yù)測(cè)微博轉(zhuǎn)發(fā)概率,確定影響微博轉(zhuǎn)發(fā)概率的因素,在熱點(diǎn)挖掘、產(chǎn)品營(yíng)銷、輿情監(jiān)控、謠言控制等方面有重要的現(xiàn)實(shí)意義。相比傳統(tǒng)的社交網(wǎng)絡(luò)和媒體網(wǎng)絡(luò),微博社區(qū)中的用戶關(guān)系更加多樣,消息傳播機(jī)制更加復(fù)雜,因此,影響用戶轉(zhuǎn)發(fā)行為的因素也就更多,研究難度相應(yīng)的也會(huì)加大。本文利用新浪微博平臺(tái)數(shù)據(jù),分析了影響微博轉(zhuǎn)發(fā)的屬性特征,包括用戶特征,例如用戶影
7、響力、粉絲活躍度等,以及微博消息本身的內(nèi)容特征,并挑選出對(duì)微博轉(zhuǎn)發(fā)影響較大的一些屬性作為參數(shù),以此來(lái)構(gòu)建一種基于用戶和消息特征的微博轉(zhuǎn)發(fā)概率預(yù)測(cè)模型。本文主I要研究?jī)?nèi)容如下:一、本文分析了新浪微博平臺(tái)的數(shù)據(jù)獲取方法。在研究初期,將從新浪微博平臺(tái)抓取大量用戶數(shù)據(jù)及消息數(shù)據(jù),因此,本文詳細(xì)介紹了兩種常用的數(shù)據(jù)獲取方法:微博開放平臺(tái)API和網(wǎng)絡(luò)爬蟲,并比較了這兩種方法的優(yōu)劣。本文采用新浪微博開放平臺(tái)API獲取原始數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將預(yù)處理后的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)當(dāng)中。為了解決新浪開放平臺(tái)中API調(diào)用次數(shù)限
8、制的問(wèn)題,采用多賬戶多應(yīng)用輪換的方法來(lái)提高請(qǐng)求頻率。同時(shí),通過(guò)程序延時(shí)請(qǐng)求來(lái)避免數(shù)據(jù)中斷的問(wèn)題。在數(shù)據(jù)預(yù)處理階段,使用中文分詞詞典和停用詞表來(lái)平滑數(shù)據(jù)和去除數(shù)據(jù)噪聲。這部分?jǐn)?shù)據(jù)是本工作的基礎(chǔ)數(shù)據(jù),也可作為其他研究的基礎(chǔ)數(shù)據(jù)。二、本文介紹了影響微博轉(zhuǎn)發(fā)的用戶特征和消息特征,并從中挑選出對(duì)用戶微博轉(zhuǎn)發(fā)貢獻(xiàn)較大的15個(gè)屬性特征,將其添加到我們的模型中,構(gòu)成了模型的15個(gè)維度。其中比較典型的有用戶影響力、粉絲活躍度、內(nèi)容特征以及情感特征等,將這些指