微博用戶性別判斷分析與研究

微博用戶性別判斷分析與研究

ID:23516942

大?。?.29 MB

頁數(shù):55頁

時間:2018-11-08

微博用戶性別判斷分析與研究_第1頁
微博用戶性別判斷分析與研究_第2頁
微博用戶性別判斷分析與研究_第3頁
微博用戶性別判斷分析與研究_第4頁
微博用戶性別判斷分析與研究_第5頁
資源描述:

《微博用戶性別判斷分析與研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、武漢郵電科學(xué)研究院碩士學(xué)位論文微博用戶性別判斷分析與研究AnalysisandResearchofMicroblogUserGenderClassification專業(yè):通信與信息系統(tǒng)研究方向:自然語言處理導(dǎo)師:汪洋研究生:孫啟蘊(yùn)學(xué)號:20150078二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果,除了文中特別加以標(biāo)注的地方外,沒有任何剽竊、抄襲、造假等違反學(xué)術(shù)道德、學(xué)術(shù)規(guī)范的行為,也沒有侵犯任何其他人或組織的科研成果及專利。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明

2、并表示了謝意。如有任何侵權(quán)行為,本人愿意為此獨(dú)立承擔(dān)全部責(zé)任。作者簽名:_______________簽字日期:關(guān)于論文使用授權(quán)的說明本人完全了解武漢郵電科學(xué)研究院(烽火科技集團(tuán))有關(guān)保留、使用學(xué)位論文的規(guī)定,本文知識產(chǎn)權(quán)歸武漢郵電科學(xué)研究院所有,武漢郵電科學(xué)研究院有權(quán)保留送交論文的復(fù)印件和電子版本,允許論文被查閱和借閱。同意將本人的學(xué)位論文提交中國學(xué)術(shù)期刊(光盤版)電子雜志社全文出版并收入《中國學(xué)位論文全文數(shù)據(jù)庫》。公開保密一年保密兩年(注:保密的學(xué)位論文在解密后遵守此協(xié)議)作者簽名:簽字日期:導(dǎo)師簽名:簽字日期:武漢郵電科學(xué)研究院碩士學(xué)位論文摘要從電子郵件到博客再

3、到Facebook、Twitter等網(wǎng)站的出現(xiàn),社交網(wǎng)絡(luò)發(fā)展速度之快在過去是難以想象的。社交網(wǎng)絡(luò)逐漸融入人們的日常生活中,在各方面都有著舉足輕重的影響。它不僅提供豐富的信息還有著強(qiáng)大的煽動力,不僅展現(xiàn)人們的日常生活還能為商家提供營銷推廣的平臺。微博用戶性別判斷分析與研究在不同領(lǐng)域都具有研究意義和實(shí)用價值。本文的研究內(nèi)容主要分為以下兩個方面:首先基于用戶原創(chuàng)微博文本判斷用戶性別。針對用戶原創(chuàng)微博的短文本稀疏性的特點(diǎn),提出一種結(jié)合word2vec模型和LDA主題模型擴(kuò)充特征的方法。以中文維基百科數(shù)據(jù)集作為基準(zhǔn)生成詞級別的word2vec模型,海量原創(chuàng)微博文檔經(jīng)過word2

4、vec模型擴(kuò)充特征后生成文檔級別的LDA主題模型。使用改進(jìn)后的模型對訓(xùn)練樣本和測試樣本進(jìn)行特征擴(kuò)充后,用訓(xùn)練樣本訓(xùn)練SVM分類器,測試樣本測試分類準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,通過word2vec和LDA結(jié)合模型擴(kuò)展關(guān)鍵詞,能有效降低文本詞稀疏程度,提高分類準(zhǔn)確性。其次基于原創(chuàng)微博文本、用戶標(biāo)簽、用戶昵稱三個視圖判斷用戶性別。針對新浪微博用戶數(shù)量非常大,且性別信息并不一定真實(shí),造成樣本打標(biāo)困難的現(xiàn)狀,采用了一種改進(jìn)的半監(jiān)督學(xué)習(xí)中的tri-training方法。通過分析構(gòu)建三個不同的視圖,結(jié)合熵值裝袋查詢構(gòu)建六個分類器,利用少量已標(biāo)記樣本和大量未標(biāo)記樣本不斷迭代訓(xùn)練分類器,每次

5、迭代時選取投票熵最大的未標(biāo)記樣本進(jìn)行人工打標(biāo)后加入訓(xùn)練集,同時將隱式投票結(jié)果一致的未標(biāo)記樣本加入訓(xùn)練集。通過真實(shí)用戶數(shù)據(jù)對分類器的分類性能進(jìn)行試驗(yàn),發(fā)現(xiàn)使用改進(jìn)后的tri-training分類器準(zhǔn)確性比原始tri-training算法提高了1.3%,比單視圖監(jiān)督算法平均提高了7.1%。關(guān)鍵詞:word2vecLDA主題模型tri-training算法多視圖學(xué)習(xí)性別判斷I武漢郵電科學(xué)研究院碩士學(xué)位論文AbstractFrome-mailtoblog,Facebook,twitterandotherwebsites,thedevelopmentofsocialnetwor

6、kbeyondtheimaginationofpeople.Socialnetworkplaysanimportantroleinpeople'slives.Ithasbecomeapartofpeopleandhasaninestimableimpactonpeople'saccesstoinformation,thinkingandliving.Socialnetworkhasbecomeawindowforpeopletoaccessinformation,showthemselvesandpromotemarketing.Microbloguser'sgend

7、erjudgmenthasstrongpracticalapplicationvalueinsuchfieldaspersonalizedrecommendation,intelligentmarketingandsoon.Theresearchofthisthesisisdividedintothefollowingtwoaspects:Thefirstresearchisjudgingmicrobloguser'sgenderbasedontheuser'soriginalmicroblogtext.Aimingattheshorttextspa

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。