資源描述:
《微博用戶性別判斷分析與研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、武漢郵電科學(xué)研究院碩士學(xué)位論文微博用戶性別判斷分析與研究AnalysisandResearchofMicroblogUserGenderClassification專業(yè):通信與信息系統(tǒng)研究方向:自然語言處理導(dǎo)師:汪洋研究生:孫啟蘊(yùn)學(xué)號:20150078二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果,除了文中特別加以標(biāo)注的地方外,沒有任何剽竊、抄襲、造假等違反學(xué)術(shù)道德、學(xué)術(shù)規(guī)范的行為,也沒有侵犯任何其他人或組織的科研成果及專利。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明
2、并表示了謝意。如有任何侵權(quán)行為,本人愿意為此獨(dú)立承擔(dān)全部責(zé)任。作者簽名:_______________簽字日期:關(guān)于論文使用授權(quán)的說明本人完全了解武漢郵電科學(xué)研究院(烽火科技集團(tuán))有關(guān)保留、使用學(xué)位論文的規(guī)定,本文知識產(chǎn)權(quán)歸武漢郵電科學(xué)研究院所有,武漢郵電科學(xué)研究院有權(quán)保留送交論文的復(fù)印件和電子版本,允許論文被查閱和借閱。同意將本人的學(xué)位論文提交中國學(xué)術(shù)期刊(光盤版)電子雜志社全文出版并收入《中國學(xué)位論文全文數(shù)據(jù)庫》。公開保密一年保密兩年(注:保密的學(xué)位論文在解密后遵守此協(xié)議)作者簽名:簽字日期:導(dǎo)師簽名:簽字日期:武漢郵電科學(xué)研究院碩士學(xué)位論文摘要從電子郵件到博客再
3、到Facebook、Twitter等網(wǎng)站的出現(xiàn),社交網(wǎng)絡(luò)發(fā)展速度之快在過去是難以想象的。社交網(wǎng)絡(luò)逐漸融入人們的日常生活中,在各方面都有著舉足輕重的影響。它不僅提供豐富的信息還有著強(qiáng)大的煽動力,不僅展現(xiàn)人們的日常生活還能為商家提供營銷推廣的平臺。微博用戶性別判斷分析與研究在不同領(lǐng)域都具有研究意義和實(shí)用價值。本文的研究內(nèi)容主要分為以下兩個方面:首先基于用戶原創(chuàng)微博文本判斷用戶性別。針對用戶原創(chuàng)微博的短文本稀疏性的特點(diǎn),提出一種結(jié)合word2vec模型和LDA主題模型擴(kuò)充特征的方法。以中文維基百科數(shù)據(jù)集作為基準(zhǔn)生成詞級別的word2vec模型,海量原創(chuàng)微博文檔經(jīng)過word2
4、vec模型擴(kuò)充特征后生成文檔級別的LDA主題模型。使用改進(jìn)后的模型對訓(xùn)練樣本和測試樣本進(jìn)行特征擴(kuò)充后,用訓(xùn)練樣本訓(xùn)練SVM分類器,測試樣本測試分類準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,通過word2vec和LDA結(jié)合模型擴(kuò)展關(guān)鍵詞,能有效降低文本詞稀疏程度,提高分類準(zhǔn)確性。其次基于原創(chuàng)微博文本、用戶標(biāo)簽、用戶昵稱三個視圖判斷用戶性別。針對新浪微博用戶數(shù)量非常大,且性別信息并不一定真實(shí),造成樣本打標(biāo)困難的現(xiàn)狀,采用了一種改進(jìn)的半監(jiān)督學(xué)習(xí)中的tri-training方法。通過分析構(gòu)建三個不同的視圖,結(jié)合熵值裝袋查詢構(gòu)建六個分類器,利用少量已標(biāo)記樣本和大量未標(biāo)記樣本不斷迭代訓(xùn)練分類器,每次
5、迭代時選取投票熵最大的未標(biāo)記樣本進(jìn)行人工打標(biāo)后加入訓(xùn)練集,同時將隱式投票結(jié)果一致的未標(biāo)記樣本加入訓(xùn)練集。通過真實(shí)用戶數(shù)據(jù)對分類器的分類性能進(jìn)行試驗(yàn),發(fā)現(xiàn)使用改進(jìn)后的tri-training分類器準(zhǔn)確性比原始tri-training算法提高了1.3%,比單視圖監(jiān)督算法平均提高了7.1%。關(guān)鍵詞:word2vecLDA主題模型tri-training算法多視圖學(xué)習(xí)性別判斷I武漢郵電科學(xué)研究院碩士學(xué)位論文AbstractFrome-mailtoblog,Facebook,twitterandotherwebsites,thedevelopmentofsocialnetwor
6、kbeyondtheimaginationofpeople.Socialnetworkplaysanimportantroleinpeople'slives.Ithasbecomeapartofpeopleandhasaninestimableimpactonpeople'saccesstoinformation,thinkingandliving.Socialnetworkhasbecomeawindowforpeopletoaccessinformation,showthemselvesandpromotemarketing.Microbloguser'sgend
7、erjudgmenthasstrongpracticalapplicationvalueinsuchfieldaspersonalizedrecommendation,intelligentmarketingandsoon.Theresearchofthisthesisisdividedintothefollowingtwoaspects:Thefirstresearchisjudgingmicrobloguser'sgenderbasedontheuser'soriginalmicroblogtext.Aimingattheshorttextspa