基于半監(jiān)督學習的虛假評論識別研究

基于半監(jiān)督學習的虛假評論識別研究

ID:34220634

大?。?.93 MB

頁數(shù):68頁

時間:2019-03-04

基于半監(jiān)督學習的虛假評論識別研究_第1頁
基于半監(jiān)督學習的虛假評論識別研究_第2頁
基于半監(jiān)督學習的虛假評論識別研究_第3頁
基于半監(jiān)督學習的虛假評論識別研究_第4頁
基于半監(jiān)督學習的虛假評論識別研究_第5頁
資源描述:

《基于半監(jiān)督學習的虛假評論識別研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、學校代碼:10327學號:11120150560碩士學位論文基于半監(jiān)督學習的虛假評論識別研究學院:管理科學與工程學院院專業(yè):管理科學與工程專業(yè)業(yè)研究方向:信息管理與信息系統(tǒng)統(tǒng)姓名:王夢華華指導教師:劉軍軍完成日期:2018年4月軍答辯日期:2018年6月軍RESEARCHONFAKEREVIEWSBASEDONSEMI-SUPERVISEDLEARNINGADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofMana

2、gementBYWangMenghuaSupervisedby(Associate)ProfessorLiuJunSchoolofManagementScienceandEngineeringNanjingUniversityofFinanceandEconomicsJune2018學位論文獨創(chuàng)性聲明本論文是我個人在導師指導下進行的研究工作及取得的研究成果。論文中除了特別加以標注和致謝的地方外,不包含其他人或其它機構已經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻均已在論文中作了明確的聲明并表示了謝意。作者簽名:日期:2018學位

3、論文使用授權聲明本人完全了解南京財經(jīng)大學有關保留、使用學位論文的規(guī)定,即:學校有權保留送交論文的復印件,允許論文被查閱和借閱;學校可以公布論文的全部或部分內(nèi)容,可以采用影印、縮印或其它復制手段保存論文。保密的論文在解密后遵守此規(guī)定。作者簽名:導師簽名:日期:018摘要近年來,隨著網(wǎng)絡購物的發(fā)展,消費者逐漸由傳統(tǒng)的線下購物轉向更便捷的線上購物,且養(yǎng)成了對已購買商品發(fā)布評論的習慣。電子商務平臺上逐漸積累了大量的在線商品評論,這些評論信息為商家,潛在消費者和研究者們提供了珍貴的數(shù)據(jù)資源。由于在線評論信息可以在某種程度上影響消費者的購物決策,進而影響產(chǎn)

4、品銷量,因此在商品評論中逐漸出現(xiàn)了一些不真實的內(nèi)容。這些虛假評論迷惑了消費者,降低了在線評論的參考價值,擾亂了正常的電商秩序,因此識別虛假評論顯得尤為重要。在線商品評論是最具有代表意義的評論信息,是虛假評論識別問題的理想數(shù)據(jù)源,也是本文使用的數(shù)據(jù)集。本文對虛假評論識別技術和半監(jiān)督學習方法進行了研究與分析,首先介紹了虛假評論識別問題的研究現(xiàn)狀和發(fā)展趨勢,然后介紹了半監(jiān)督學習原理及其分類方法,最后將基于分歧的半監(jiān)督學習領域的三個主流算法:協(xié)同訓練(Co-Training)算法,三體訓練法(Tri-Training)算法和協(xié)同隨機森林(Co-Fore

5、st)算法應用到了虛假評論識別任務中,提出了基于半監(jiān)督學習的虛假評論識別模型。本文圍繞在線商品評論數(shù)據(jù),基于分歧的半監(jiān)督學習,虛假評論識別問題等關鍵問題展開研究,主要的研究工作如下:(1)提出了一種基于分歧的半監(jiān)督學習方法來實現(xiàn)虛假評論的檢測任務。根據(jù)虛假評論數(shù)據(jù)集中未標注數(shù)據(jù)多,已標注數(shù)據(jù)少的特點,本文借助了基于分歧的半監(jiān)督學習思想,使用該領域的三個主流算法,循環(huán)迭代訓練多個分類器,充分利用未標注數(shù)據(jù)擴充已標注訓練集,然后使用訓練集更新分類模型,改善模型效果。最后在亞馬遜評論數(shù)據(jù)上進行了實驗,結果表明了基于分歧的半監(jiān)督學習算法對虛假評論有著更

6、好的識別效果。(2)在特征提取階段,本文結合了評論的主題以及文本信息,依據(jù)對評論數(shù)據(jù)集的統(tǒng)計分析得出的規(guī)律,從評論文本、評論者和被評論產(chǎn)品3個角度出發(fā),分析并提取了3大類22個維度的混合特征。最后,基于不同的特征組合,使用三種全監(jiān)督學習算法:樸素貝葉斯,最大熵分類器和支持向量機分類器,檢測了不同特征組合在不同分類器下的識別效果。結果顯示,混合特征預測效果更好,且樸素貝葉斯分類器獲得了最好的識別效果,并將其應用到了后續(xù)的虛假評論識別模型中。關鍵詞:半監(jiān)督學習;虛假評論識別;協(xié)同訓練;三體訓練法;協(xié)同隨機森林IABSTRACTWiththedeve

7、lopmentofonlineshopping,consumershavegraduallyshiftedfromtraditionalofflineshoppingtomoreconvenientonlineshopping,andtheyhavegotusedtocommentingonpurchasedproducts.Thee-commerceplatformhasgraduallyaccumulatedonlineproductreviews,whichprovidevaluabledataresourcesforbusinesses

8、,potentialconsumersandresearchers.Becausetheonlinereviewinformationcaninflu

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。