資源描述:
《ccsc_09_基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法new》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、基于譜聚類(lèi)的垃圾評(píng)論檢測(cè)方法朱洪譚文堂賀明科葛斌李芳芳(國(guó)防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,湖南長(zhǎng)沙,410073)摘要隨著Web2.0和電子商務(wù)的飛速發(fā)展,消費(fèi)者在網(wǎng)上購(gòu)物之后會(huì)對(duì)所購(gòu)產(chǎn)品在網(wǎng)站上發(fā)表一些相關(guān)評(píng)論,這些評(píng)論數(shù)據(jù)無(wú)論是對(duì)消費(fèi)者還是對(duì)生產(chǎn)商都有很重要的價(jià)值。評(píng)論中不可避免地出現(xiàn)一些如廣告或不相關(guān)評(píng)論等之類(lèi)的垃圾評(píng)論數(shù)據(jù),使得在海量評(píng)論數(shù)據(jù)中獲取有用信息時(shí)產(chǎn)生干擾,所以垃圾評(píng)論數(shù)據(jù)的檢測(cè)顯得尤為必要。本文提出了一種基于譜聚類(lèi)的無(wú)監(jiān)督的垃圾評(píng)論檢測(cè)方法,實(shí)驗(yàn)表明該方法具有較高的準(zhǔn)確率和
2、召回率,達(dá)到了較好的檢測(cè)效果。關(guān)鍵詞譜聚類(lèi);垃圾評(píng)論;評(píng)論分析ADetectionMethodBasedonSpectralClusteringforReviewSpamZHUHong,TANWen-Tang,HEMing-KeGEBin,LIFang-Fang(ScienceandTechnologyonInformationSystemsEngineeringLaboratoryinNationalUniv.ofDefenseTechnology,Changsha,410073)Abstra
3、ctWiththerapiddevelopmentofWeb2.0andE-commerce,consumerswroterelatedreviewsofproductsthattheyhavepurchasedonthewebsite.EvaluativetextsontheWebhavebecomeavaluablesourcetoconsumersandproductmanufacturers.Inevitably,therearesomereviewspamsuchasadvertise
4、mentsandunrelateditemsinnormalreviews.Itisverynecessarytoproposeonemethodtodetectreviewspamsoastoavoidinterferencewhenwegetusefulinformationfromreviews.Inthispaper,weproposedoneunsuperviseddetectionmethodbasedonoutlierdetectionforreviewspam.Thisexper
5、imentshowsthatthismethodhashigheraccuracyandachievespreferableeffects.keywordsSpectralClustering;ReviewSpam;ReviewAnalysis引言隨著Web2.0和電子商務(wù)的飛速發(fā)展,“以用戶(hù)為中心,用戶(hù)參與”的開(kāi)放式構(gòu)架理念的[1,2]不斷深入,改變了互聯(lián)網(wǎng)用戶(hù)以往表達(dá)自己想法的方式。他們可以在所購(gòu)買(mǎi)產(chǎn)品的網(wǎng)站上(如www.taobao.com)發(fā)表對(duì)相應(yīng)產(chǎn)品的評(píng)論。因?yàn)檫@些評(píng)論包含用戶(hù)對(duì)產(chǎn)品
6、的評(píng)論意[3,4,5]見(jiàn),這些評(píng)論意見(jiàn)不管是對(duì)潛在客戶(hù)還是對(duì)產(chǎn)品制造商都是非常有用的。因?yàn)檎娴脑u(píng)論可以為組織或個(gè)人帶來(lái)顯著的商業(yè)利益和聲譽(yù),不幸的是,這也促使了[4]垃圾評(píng)論(ReviewSpam)的產(chǎn)生。研究發(fā)現(xiàn)有10%到15%的評(píng)論都是重復(fù)早期的評(píng)論,[6]這些評(píng)論很可能是受到了垃圾評(píng)論的影響,使得我們?cè)趶暮A康脑u(píng)論數(shù)據(jù)中獲取有用信息時(shí)產(chǎn)生了影響,而對(duì)垃圾評(píng)論和垃圾評(píng)論檢測(cè)的研究并不多。鑒于此,本文提出了一種基于譜聚類(lèi)的無(wú)監(jiān)督的垃圾評(píng)論檢測(cè)方法,該方法把垃圾評(píng)論作為離群點(diǎn),采用譜聚類(lèi)的方法
7、進(jìn)行離群點(diǎn)探測(cè)從而檢測(cè)出垃圾評(píng)論。1相關(guān)工作[7]互聯(lián)網(wǎng)上產(chǎn)生的垃圾信息(Spam)一般分為垃圾網(wǎng)頁(yè)(WebSpam)和垃圾郵件(Email[8]Spam),這兩類(lèi)垃圾信息已有諸多學(xué)著進(jìn)行了相應(yīng)的研究。近年來(lái),對(duì)在線(xiàn)評(píng)論的研究越來(lái)越多,而對(duì)垃圾評(píng)論的研究并不多。文獻(xiàn)[2]首次提出了另外一種垃圾信息:垃圾評(píng)論(ReviewSpam)。文獻(xiàn)[9]和文獻(xiàn)[10]對(duì)垃圾評(píng)論進(jìn)行了分類(lèi):(1)不真實(shí)評(píng)論(untruthful收稿日期:基金項(xiàng)目:唐九陽(yáng)、國(guó)家自然科學(xué)基金(60903225);周城、國(guó)防科技大
8、學(xué)優(yōu)秀研究生創(chuàng)新基金(S100502)作者簡(jiǎn)介:朱洪、男、1988.03生、碩士研究生、湖北鐘祥人、研究方向?yàn)樾畔①Y源管理和Web文本挖掘、湖南省國(guó)防科技大學(xué)信息系統(tǒng)與管理學(xué)院碩士生隊(duì)、郵編410073、zhuhong301@gmail.com、13687387364opinions):虛假的好評(píng)或惡意的差評(píng);(2)僅對(duì)品牌的評(píng)論(reviewsonbrandsonly):僅僅對(duì)品牌而不是商品進(jìn)行評(píng)論;(3)不相關(guān)評(píng)論(non-reviews):廣告或其它如提問(wèn)等不相關(guān)評(píng)論。文獻(xiàn)[2]和文獻(xiàn)[9