資源描述:
《在線社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、博士學(xué)位論文在線社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散研究RESEARCHOFINFORMAITONDIFFUSIONINONLINESOCIALNETWORKS李棟哈爾濱工業(yè)大學(xué)2014年12月國內(nèi)圖書分類號(hào):TP393學(xué)校代碼:10213國際圖書分類號(hào):621.39密級(jí):公開工學(xué)博士學(xué)位論文在線社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散研究博士研究生:李棟導(dǎo)師:李生教授副導(dǎo)師:徐志明教授申請學(xué)位:工學(xué)博士學(xué)科:計(jì)算機(jī)科學(xué)與技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2014年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:T
2、P393U.D.C:621.39DissertationfortheDoctoralDegreeinEngineeringRESEARCHONINFORMAITONDIFFUSIONINONLINESOCIALNETWORKSCandidate:DongLiSupervisor:Prof.ShengLiViceSupervisor:Prof.ZhimingXuAcademicDegreeAppliedfor:DoctorofEngineeringSpeciality:ComputerScienceand
3、TechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:December,2014Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要Facebook、Twitter等社交類網(wǎng)站的迅猛發(fā)展,預(yù)示著社會(huì)媒體(SocialMedia)已成為當(dāng)今網(wǎng)絡(luò)技術(shù)發(fā)展的熱點(diǎn)和趨勢。社會(huì)媒體中的用戶可以建立各種關(guān)系(關(guān)注、好友等),從而產(chǎn)生了各種不同的虛擬的在線社會(huì)
4、網(wǎng)絡(luò)。網(wǎng)絡(luò)中的用戶不僅可以發(fā)布信息,同時(shí)還可以通過共享、轉(zhuǎn)發(fā)等行為來傳播信息。因此,在線社會(huì)網(wǎng)絡(luò)支撐著信息的發(fā)布和擴(kuò)散。在線社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散研究可以幫助網(wǎng)絡(luò)用戶獲取有用信息、幫助企業(yè)推廣產(chǎn)品、幫助政府調(diào)控輿情,應(yīng)用價(jià)值巨大。本文以真實(shí)的在線社會(huì)網(wǎng)絡(luò)數(shù)據(jù)和信息擴(kuò)散數(shù)據(jù)為研究對(duì)象,構(gòu)建了在線社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散研究的整體框架,并針對(duì)研究框架中的用戶興趣描述、信息擴(kuò)散模型、信息擴(kuò)散最大化問題、信息擴(kuò)散和用戶推薦相結(jié)合等問題展開了研究。本文的研究內(nèi)容主要包括以下四個(gè)部分:傳統(tǒng)的信息檢索研究中,通常使用詞向量來描
5、述用戶的興趣,每個(gè)詞的權(quán)重使用TF-IDF方法來計(jì)算。社會(huì)化媒體中存在用戶、資源和標(biāo)簽這樣的三元關(guān)系數(shù)據(jù),而傳統(tǒng)的詞向量模型無法充分使用上述三元關(guān)系來準(zhǔn)確描述用戶興趣,而且詞向量方法還存在一詞多語義問題。為解決上述問題,本文提出了標(biāo)簽網(wǎng)絡(luò)模型來描述用戶興趣。在標(biāo)簽網(wǎng)絡(luò)中,節(jié)點(diǎn)代表標(biāo)簽,邊代表標(biāo)簽之間的關(guān)系。節(jié)點(diǎn)和邊都是有權(quán)重的,代表用戶的興趣度和興趣間的關(guān)聯(lián)強(qiáng)度。特別的,本文還提出了一種改進(jìn)的TF-IDF方法來計(jì)算標(biāo)簽權(quán)重。在MovieLens和CiteULike數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證實(shí)了文中提出方法的有
6、效性。信息擴(kuò)散預(yù)測模型可以應(yīng)用在輿情預(yù)警和爆炸性信息識(shí)別等方面,具有重要研究意義和應(yīng)用價(jià)值。當(dāng)前的信息擴(kuò)散預(yù)測模型大多存在兩方面問題:一是不具有時(shí)間相關(guān)的信息擴(kuò)散預(yù)測能力,二是模型訓(xùn)練大都需要耗費(fèi)較多的時(shí)間。為解決這些問題,本文提出了一種新穎的信息擴(kuò)散預(yù)測模型(GT模型)。不同于過去的信息擴(kuò)散預(yù)測模型,在GT模型中,網(wǎng)絡(luò)中的節(jié)點(diǎn)不再被動(dòng)的受到鄰居的影響而執(zhí)行行為,而是被視為自治的、智能的、理智的個(gè)體。用戶會(huì)計(jì)算不同選擇下的利益,從而做出理智選擇。該模型中引入了時(shí)間相關(guān)的用戶利益,使得GT模型具有了預(yù)測信
7、息擴(kuò)散進(jìn)程時(shí)間動(dòng)態(tài)性的能力。文中創(chuàng)新性的提出了結(jié)合全局影響力和社會(huì)影響力來計(jì)算用戶利益的方法。在新浪微博和Flickr數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了文中所提出模型在預(yù)測信息擴(kuò)散時(shí)間動(dòng)態(tài)性方面的有效性。當(dāng)前信息擴(kuò)散最大化研究基本上都是在無標(biāo)注社會(huì)網(wǎng)絡(luò)中展開的,這種網(wǎng)-I-摘要絡(luò)只包含朋友或者信任這類正向關(guān)系。然而,信息擴(kuò)散最大化問題在標(biāo)注社會(huì)網(wǎng)絡(luò)中的研究仍然是一個(gè)有挑戰(zhàn)性的并且被忽視的問題。信息擴(kuò)散最大化研究如果不區(qū)分網(wǎng)絡(luò)用戶間關(guān)系的極性,將標(biāo)注社會(huì)網(wǎng)絡(luò)粗略的視為無標(biāo)注網(wǎng)絡(luò),那么用戶的正影響力和負(fù)影響力都會(huì)被誤
8、認(rèn)為正影響力。為解決該問題,本文將信息擴(kuò)散最大化問題拓展到標(biāo)注社會(huì)網(wǎng)絡(luò)中,提出了極性相關(guān)的信息擴(kuò)散最大(PRIM)問題和極性相關(guān)的獨(dú)立級(jí)聯(lián)模型,并提出了使用貪心算法來解決該問題。在兩個(gè)標(biāo)注社會(huì)網(wǎng)絡(luò)數(shù)據(jù)集中(Epinions和Slashdot)的實(shí)驗(yàn)結(jié)果表明,文中提出的方法在解決PRIM問題時(shí)要優(yōu)于未考慮關(guān)系極性的貪心算法和其他啟發(fā)式方法。社會(huì)網(wǎng)絡(luò)主要有兩個(gè)功能:社會(huì)交互和信息擴(kuò)散。用戶推薦研究基于用戶的偏好和網(wǎng)絡(luò)結(jié)構(gòu)幫助用戶找到合適的朋友,