基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究

基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究

ID:34220634

大?。?.93 MB

頁數(shù):68頁

時間:2019-03-04

基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究_第1頁
基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究_第2頁
基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究_第3頁
基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究_第4頁
基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究_第5頁
資源描述:

《基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、學(xué)校代碼:10327學(xué)號:11120150560碩士學(xué)位論文基于半監(jiān)督學(xué)習(xí)的虛假評論識別研究學(xué)院:管理科學(xué)與工程學(xué)院院專業(yè):管理科學(xué)與工程專業(yè)業(yè)研究方向:信息管理與信息系統(tǒng)統(tǒng)姓名:王夢華華指導(dǎo)教師:劉軍軍完成日期:2018年4月軍答辯日期:2018年6月軍RESEARCHONFAKEREVIEWSBASEDONSEMI-SUPERVISEDLEARNINGADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofMana

2、gementBYWangMenghuaSupervisedby(Associate)ProfessorLiuJunSchoolofManagementScienceandEngineeringNanjingUniversityofFinanceandEconomicsJune2018學(xué)位論文獨創(chuàng)性聲明本論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。論文中除了特別加以標(biāo)注和致謝的地方外,不包含其他人或其它機(jī)構(gòu)已經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻(xiàn)均已在論文中作了明確的聲明并表示了謝意。作者簽名:日期:2018學(xué)位

3、論文使用授權(quán)聲明本人完全了解南京財經(jīng)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)校可以公布論文的全部或部分內(nèi)容,可以采用影印、縮印或其它復(fù)制手段保存論文。保密的論文在解密后遵守此規(guī)定。作者簽名:導(dǎo)師簽名:日期:018摘要近年來,隨著網(wǎng)絡(luò)購物的發(fā)展,消費(fèi)者逐漸由傳統(tǒng)的線下購物轉(zhuǎn)向更便捷的線上購物,且養(yǎng)成了對已購買商品發(fā)布評論的習(xí)慣。電子商務(wù)平臺上逐漸積累了大量的在線商品評論,這些評論信息為商家,潛在消費(fèi)者和研究者們提供了珍貴的數(shù)據(jù)資源。由于在線評論信息可以在某種程度上影響消費(fèi)者的購物決策,進(jìn)而影響產(chǎn)

4、品銷量,因此在商品評論中逐漸出現(xiàn)了一些不真實的內(nèi)容。這些虛假評論迷惑了消費(fèi)者,降低了在線評論的參考價值,擾亂了正常的電商秩序,因此識別虛假評論顯得尤為重要。在線商品評論是最具有代表意義的評論信息,是虛假評論識別問題的理想數(shù)據(jù)源,也是本文使用的數(shù)據(jù)集。本文對虛假評論識別技術(shù)和半監(jiān)督學(xué)習(xí)方法進(jìn)行了研究與分析,首先介紹了虛假評論識別問題的研究現(xiàn)狀和發(fā)展趨勢,然后介紹了半監(jiān)督學(xué)習(xí)原理及其分類方法,最后將基于分歧的半監(jiān)督學(xué)習(xí)領(lǐng)域的三個主流算法:協(xié)同訓(xùn)練(Co-Training)算法,三體訓(xùn)練法(Tri-Training)算法和協(xié)同隨機(jī)森林(Co-Fore

5、st)算法應(yīng)用到了虛假評論識別任務(wù)中,提出了基于半監(jiān)督學(xué)習(xí)的虛假評論識別模型。本文圍繞在線商品評論數(shù)據(jù),基于分歧的半監(jiān)督學(xué)習(xí),虛假評論識別問題等關(guān)鍵問題展開研究,主要的研究工作如下:(1)提出了一種基于分歧的半監(jiān)督學(xué)習(xí)方法來實現(xiàn)虛假評論的檢測任務(wù)。根據(jù)虛假評論數(shù)據(jù)集中未標(biāo)注數(shù)據(jù)多,已標(biāo)注數(shù)據(jù)少的特點,本文借助了基于分歧的半監(jiān)督學(xué)習(xí)思想,使用該領(lǐng)域的三個主流算法,循環(huán)迭代訓(xùn)練多個分類器,充分利用未標(biāo)注數(shù)據(jù)擴(kuò)充已標(biāo)注訓(xùn)練集,然后使用訓(xùn)練集更新分類模型,改善模型效果。最后在亞馬遜評論數(shù)據(jù)上進(jìn)行了實驗,結(jié)果表明了基于分歧的半監(jiān)督學(xué)習(xí)算法對虛假評論有著更

6、好的識別效果。(2)在特征提取階段,本文結(jié)合了評論的主題以及文本信息,依據(jù)對評論數(shù)據(jù)集的統(tǒng)計分析得出的規(guī)律,從評論文本、評論者和被評論產(chǎn)品3個角度出發(fā),分析并提取了3大類22個維度的混合特征。最后,基于不同的特征組合,使用三種全監(jiān)督學(xué)習(xí)算法:樸素貝葉斯,最大熵分類器和支持向量機(jī)分類器,檢測了不同特征組合在不同分類器下的識別效果。結(jié)果顯示,混合特征預(yù)測效果更好,且樸素貝葉斯分類器獲得了最好的識別效果,并將其應(yīng)用到了后續(xù)的虛假評論識別模型中。關(guān)鍵詞:半監(jiān)督學(xué)習(xí);虛假評論識別;協(xié)同訓(xùn)練;三體訓(xùn)練法;協(xié)同隨機(jī)森林IABSTRACTWiththedeve

7、lopmentofonlineshopping,consumershavegraduallyshiftedfromtraditionalofflineshoppingtomoreconvenientonlineshopping,andtheyhavegotusedtocommentingonpurchasedproducts.Thee-commerceplatformhasgraduallyaccumulatedonlineproductreviews,whichprovidevaluabledataresourcesforbusinesses

8、,potentialconsumersandresearchers.Becausetheonlinereviewinformationcaninflu

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。