ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new

ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new

ID:34603269

大?。?21.21 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2019-03-08

ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new_第1頁(yè)
ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new_第2頁(yè)
ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new_第3頁(yè)
ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new_第4頁(yè)
ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new_第5頁(yè)
資源描述:

《ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法朱洪譚文堂賀明科葛斌李芳芳(國(guó)防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,湖南長(zhǎng)沙,410073)摘要隨著Web2.0和電子商務(wù)的飛速發(fā)展,消費(fèi)者在網(wǎng)上購(gòu)物之后會(huì)對(duì)所購(gòu)產(chǎn)品在網(wǎng)站上發(fā)表一些相關(guān)評(píng)論,這些評(píng)論數(shù)據(jù)無(wú)論是對(duì)消費(fèi)者還是對(duì)生產(chǎn)商都有很重要的價(jià)值。評(píng)論中不可避免地出現(xiàn)一些如廣告或不相關(guān)評(píng)論等之類(lèi)的垃圾評(píng)論數(shù)據(jù),使得在海量評(píng)論數(shù)據(jù)中獲取有用信息時(shí)產(chǎn)生干擾,所以垃圾評(píng)論數(shù)據(jù)的檢測(cè)顯得尤為必要。本文提出了一種基于譜聚類(lèi)的無(wú)監(jiān)督的垃圾評(píng)論檢測(cè)方法,實(shí)驗(yàn)表明該方法具有較高的準(zhǔn)確率和

2、召回率,達(dá)到了較好的檢測(cè)效果。關(guān)鍵詞譜聚類(lèi);垃圾評(píng)論;評(píng)論分析ADetectionMethodBasedonSpectralClusteringforReviewSpamZHUHong,TANWen-Tang,HEMing-KeGEBin,LIFang-Fang(ScienceandTechnologyonInformationSystemsEngineeringLaboratoryinNationalUniv.ofDefenseTechnology,Changsha,410073)Abstra

3、ctWiththerapiddevelopmentofWeb2.0andE-commerce,consumerswroterelatedreviewsofproductsthattheyhavepurchasedonthewebsite.EvaluativetextsontheWebhavebecomeavaluablesourcetoconsumersandproductmanufacturers.Inevitably,therearesomereviewspamsuchasadvertise

4、mentsandunrelateditemsinnormalreviews.Itisverynecessarytoproposeonemethodtodetectreviewspamsoastoavoidinterferencewhenwegetusefulinformationfromreviews.Inthispaper,weproposedoneunsuperviseddetectionmethodbasedonoutlierdetectionforreviewspam.Thisexper

5、imentshowsthatthismethodhashigheraccuracyandachievespreferableeffects.keywordsSpectralClustering;ReviewSpam;ReviewAnalysis引言隨著Web2.0和電子商務(wù)的飛速發(fā)展,“以用戶(hù)為中心,用戶(hù)參與”的開(kāi)放式構(gòu)架理念的[1,2]不斷深入,改變了互聯(lián)網(wǎng)用戶(hù)以往表達(dá)自己想法的方式。他們可以在所購(gòu)買(mǎi)產(chǎn)品的網(wǎng)站上(如www.taobao.com)發(fā)表對(duì)相應(yīng)產(chǎn)品的評(píng)論。因?yàn)檫@些評(píng)論包含用戶(hù)對(duì)產(chǎn)品

6、的評(píng)論意[3,4,5]見(jiàn),這些評(píng)論意見(jiàn)不管是對(duì)潛在客戶(hù)還是對(duì)產(chǎn)品制造商都是非常有用的。因?yàn)檎娴脑u(píng)論可以為組織或個(gè)人帶來(lái)顯著的商業(yè)利益和聲譽(yù),不幸的是,這也促使了[4]垃圾評(píng)論(ReviewSpam)的產(chǎn)生。研究發(fā)現(xiàn)有10%到15%的評(píng)論都是重復(fù)早期的評(píng)論,[6]這些評(píng)論很可能是受到了垃圾評(píng)論的影響,使得我們?cè)趶暮A康脑u(píng)論數(shù)據(jù)中獲取有用信息時(shí)產(chǎn)生了影響,而對(duì)垃圾評(píng)論和垃圾評(píng)論檢測(cè)的研究并不多。鑒于此,本文提出了一種基于譜聚類(lèi)的無(wú)監(jiān)督的垃圾評(píng)論檢測(cè)方法,該方法把垃圾評(píng)論作為離群點(diǎn),采用譜聚類(lèi)的方法

7、進(jìn)行離群點(diǎn)探測(cè)從而檢測(cè)出垃圾評(píng)論。1相關(guān)工作[7]互聯(lián)網(wǎng)上產(chǎn)生的垃圾信息(Spam)一般分為垃圾網(wǎng)頁(yè)(WebSpam)和垃圾郵件(Email[8]Spam),這兩類(lèi)垃圾信息已有諸多學(xué)著進(jìn)行了相應(yīng)的研究。近年來(lái),對(duì)在線(xiàn)評(píng)論的研究越來(lái)越多,而對(duì)垃圾評(píng)論的研究并不多。文獻(xiàn)[2]首次提出了另外一種垃圾信息:垃圾評(píng)論(ReviewSpam)。文獻(xiàn)[9]和文獻(xiàn)[10]對(duì)垃圾評(píng)論進(jìn)行了分類(lèi):(1)不真實(shí)評(píng)論(untruthful收稿日期:基金項(xiàng)目:唐九陽(yáng)、國(guó)家自然科學(xué)基金(60903225);周城、國(guó)防科技大

8、學(xué)優(yōu)秀研究生創(chuàng)新基金(S100502)作者簡(jiǎn)介:朱洪、男、1988.03生、碩士研究生、湖北鐘祥人、研究方向?yàn)樾畔①Y源管理和Web文本挖掘、湖南省國(guó)防科技大學(xué)信息系統(tǒng)與管理學(xué)院碩士生隊(duì)、郵編410073、zhuhong301@gmail.com、13687387364opinions):虛假的好評(píng)或惡意的差評(píng);(2)僅對(duì)品牌的評(píng)論(reviewsonbrandsonly):僅僅對(duì)品牌而不是商品進(jìn)行評(píng)論;(3)不相關(guān)評(píng)論(non-reviews):廣告或其它如提問(wèn)等不相關(guān)評(píng)論。文獻(xiàn)[2]和文獻(xiàn)[9

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。