資源描述:
《基于融合特征的虛假評論檢測算法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、單位代巧10475 ̄104753萬130756分類號巧巧1.1皆旗乂聲碩壬學(xué)位論文基于融合特征的虛假評論檢測算法學(xué)科、專業(yè):計算機(jī)應(yīng)用技術(shù)研究方向:數(shù)據(jù)挖掘申請學(xué)位類別:理學(xué)碩±申請人:焦易于指導(dǎo)教師:劉剛教授二〇—六年十二月FAKECOMMENTSBASEDONFU別ONFEATUREDETECTIONALGORITHMADissertationSubmited化theGraduateSchoolofHenanUniversityinPartialFulfillmento
2、ftheReuirementsqfortheDereeofgMasterofScienceByJiaoYiuySupervisor:Prof.LiuGangDecember2016,關(guān)于學(xué)位論文獨(dú)創(chuàng)聲明和學(xué)術(shù)誠信承諾本人向河南大學(xué)提出碩壬學(xué)位申請。本人鄭重聲明:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立完成的,對所研究的課題有新的見解。據(jù)我所知,除文中特別加k乂說明、標(biāo)注和致謝的地方外,論文中不包括其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包括其他人為獲得任何教育、科研機(jī)構(gòu)的學(xué)位或證書而使用過的材料一工。與我同作的同事對
3、本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示了謝意。在此本人鄭重承諾:所呈交的學(xué)位論文不存在舞弊作偽行為,文責(zé)自負(fù)。人學(xué)位申請(學(xué)位論文作者:)簽之麵201年處/曰以I關(guān)于學(xué)位論文著作權(quán)使用授權(quán)書本人經(jīng)河南大學(xué)審核批準(zhǔn)授予碩壬學(xué)位。作為學(xué)位論文的作者,本人完全了解并同意河南大學(xué)有關(guān)保留、使用學(xué)位論文的要求,即河南大學(xué)有權(quán)向國家圖書館、科研信息機(jī)構(gòu),數(shù)據(jù)收集機(jī)構(gòu)和本校圖書館等提供學(xué)位論文(紙質(zhì)文■乂供公眾檢索本和電子文本)^、查閱。本人授權(quán)河南大學(xué)出于宣揚(yáng)、展覽學(xué)校學(xué)術(shù)發(fā)展和進(jìn)行學(xué)術(shù)交流等目的,可k乂采取影印、縮印、知描和振貝等復(fù)制手
4、段保存、匯編學(xué)位論文(紙質(zhì)文本和電子文本)。(涉及保密內(nèi)容的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位獲得者:(學(xué)位論文作者)簽違V201年f月I曰^學(xué)位論文指導(dǎo)教師簽名:201年月曰I^摘要商品評論是用戶選購商品的重要參考,在電商購物中發(fā)揮著重要作用。由于利益驅(qū)使,電商評論中的虛假評論越來越多,對消費(fèi)者形成誤導(dǎo),造成嚴(yán)重?fù)p失。因此檢測虛假評論具有重要意義。,隨著商品銷售量的持續(xù)增長虛假評論數(shù)量激增,然而當(dāng)前針對虛假評論的檢測方一法存在定的局限性>:基于評論內(nèi)容特征的檢測方法難^1滿足不同類型的商品下的虛假評論檢測,對于領(lǐng)域知識具有較強(qiáng)依
5、賴性,通用性較差;基于行為分析的檢測方法依賴于特定用戶的評論行為信息,對虛假評論的識別率較低。針對W上問題,本文提出了檢測電商平臺虛假評論的系統(tǒng)性方法,包括如下H個方面:一一、提出種虛假評論的目標(biāo)商品識別方法。由于電商平臺上的評論信息橫跨多種,數(shù)量龐大,導(dǎo)致當(dāng)前的檢測方法準(zhǔn)確率下降類型商品。為了有效提高檢測效率與準(zhǔn)確度,進(jìn)行針對性的研究分析,需要對包含虛假評論的目標(biāo)商品進(jìn)行篩選。通過對大量電商數(shù)據(jù)研究發(fā)現(xiàn)一,單商品的用戶評論評分服從特定的統(tǒng)計規(guī)律,當(dāng)商品的評分分布偏離該統(tǒng)計規(guī)律時,該商品下所包含的評論信息中存在虛假評論的可能性越高。實(shí)驗(yàn)表明,通過本文方
6、法篩選出的目標(biāo)商品中確實(shí)包含較多的虛假評論,說明該方法能夠識別出包含虛假評論的目標(biāo)商品。一二、提出種評論文本相似性度量算法,。傳統(tǒng)的文本相似性度量算法準(zhǔn)確率較低本文根據(jù)評論文本內(nèi)容結(jié)構(gòu)特征,構(gòu)建文本樹形結(jié)構(gòu),將相似性度量轉(zhuǎn)化為樹形結(jié)構(gòu)的一匹配,。通過對樹形結(jié)構(gòu)每層的相似性進(jìn)行度量然后根據(jù)權(quán)重融合得到最終的整體相似度,。實(shí)驗(yàn)表明本文方法在實(shí)際文本數(shù)據(jù)分析中的準(zhǔn)確率比現(xiàn)有方法更高。一種基于融合特征的虛假評論檢測算法王、提出?,F(xiàn)有的檢測方法并沒有充分利用,檢測準(zhǔn)確率不夠高,用戶歷史行為信息。本文通過時序模型挖掘用戶的行為的動態(tài)特征然后將這些動態(tài)特征與靜志特征
7、進(jìn)行融合來發(fā)現(xiàn)可疑用戶,并此來推斷這些用戶所發(fā)-表評論的可疑概率,,earn。最后根據(jù)可疑概率和評論文本靜態(tài)特征借助PULing學(xué)習(xí)策略來訓(xùn)練分類器,實(shí)現(xiàn)虛假評論檢測,。實(shí)驗(yàn)表明該方法的檢測效果優(yōu)于現(xiàn)有的方法。-關(guān)鍵詞:虛假評論,相似性度量,時序分析,融合特征,PULeamingIAbstractC*ommodiviewiimrfrstblrriesanortantrefee打ceoruseouoodsandays