資源描述:
《面向產(chǎn)品的虛假評論識別》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、面向產(chǎn)品的虛假評論識別 隨著網(wǎng)上購物成為一種最重要的日常購物方式,產(chǎn)品評論成為了用戶是否購買賣家產(chǎn)品的重要依據(jù),因而對虛假評論的識別具有重要意義。本文基于虛假評論和真實(shí)評論在情感極性上的差異,定義了8個特征并利用隨機(jī)初值的局部搜索法、模擬退火法兩種啟發(fā)式算法進(jìn)行特征選擇,再通過兩種聚類算法對虛假評論進(jìn)行識別。最后通過對構(gòu)造出的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了算法的有效性?! ?P鍵詞】虛假評論情感極性啟發(fā)式算法聚類 1引言 互聯(lián)網(wǎng)的發(fā)展極大地影響了人們的生活方式和消費(fèi)觀念,網(wǎng)購越來越受到消費(fèi)者的歡迎。由于人貨分離,
2、消費(fèi)者在消費(fèi)前需要大量的信息作為參考,面向產(chǎn)品的評論是其中重要的一環(huán)。在現(xiàn)實(shí)利益的驅(qū)動下,垃圾評論快速“滋生”,特別是產(chǎn)品評論數(shù)量呈爆炸性趨勢增長,人為地辨別垃圾評論已不切實(shí)際,因此,研究出一種能夠識別和過濾垃圾評論的方法具有重要的現(xiàn)實(shí)意義?! ?相關(guān)工作 國內(nèi)外的研究者們在博客和郵件領(lǐng)域的垃圾評論方面做了大量工作,取得了一定的成果,但對于產(chǎn)品虛假評論的識別依然困難重重?! ∥墨I(xiàn)[1]首次定義了三種類型的垃圾評論以及基于產(chǎn)品、評論內(nèi)容以及評論者三類評論特征,建立Logistic回歸模型進(jìn)行識別。但這種方法對于虛
3、假評論識別效果不佳。文獻(xiàn)[2]開發(fā)了第一個識別虛假評論的“黃金”數(shù)據(jù)集,利用文本分類技術(shù)來對虛假評論進(jìn)行識別。文獻(xiàn)[3]提出通過用戶所給的評價等級來識別垃圾評論制造者的方法,用計(jì)算機(jī)所得分值進(jìn)行排名,從數(shù)據(jù)集中移除分值較高的評論者及其評論。文獻(xiàn)[4]從互聯(lián)網(wǎng)獲取產(chǎn)品評論集,并進(jìn)行手工標(biāo)注的數(shù)據(jù)集訓(xùn)練分類器來識別虛假評論。以上方法由于人的主觀因素難以確定合適的標(biāo)準(zhǔn),使數(shù)據(jù)集中存在過多的錯誤標(biāo)注。文獻(xiàn)[5]現(xiàn)利用對評論文本進(jìn)行上下文無關(guān)文法的特征建模有助于提高識別的正確率。文獻(xiàn)[6]利用F統(tǒng)計(jì)量改進(jìn)K均值算法,在實(shí)現(xiàn)
4、評論集的自適應(yīng)聚類后計(jì)算每個簇偏離的程度,從而實(shí)現(xiàn)對虛假評論的識別?! ”疚膭?chuàng)新性地提出采用評論文本的語言結(jié)構(gòu)和情感極性上的差異來定義特征,使用隨機(jī)初值的局部搜索法、模擬退火法進(jìn)行特征選擇,然后利用聚類算法來識別虛假評論?! ?數(shù)據(jù)集 當(dāng)前阻礙虛假評論研究發(fā)展的一個重要因素是缺少評估檢測算法的標(biāo)注數(shù)據(jù)集,為了獲得可靠的已標(biāo)注數(shù)據(jù)集,我們選擇了西安市2家日化店,進(jìn)行人工構(gòu)造,具體構(gòu)造方式如下: 3.1虛假評論 虛假評論是人工無法直接從評論集中有效識別出的,故我們進(jìn)行人工構(gòu)造虛假評論。在10天內(nèi),我們要求周邊市
5、民(并未實(shí)際購買產(chǎn)品)寫下正面積極、有利于產(chǎn)品售出的評價,共收集到300條虛假評價?! ?.2真實(shí)評論 2個月內(nèi),我們共獲得437條真實(shí)的用戶評論。由于評價質(zhì)量良莠不齊,我們制定了一些約束條件對這437條評論進(jìn)行過濾處理,與虛假評論平衡,保持長度分布一致,最終保留300條真實(shí)評論?! ∥覀儗⑦@300條真實(shí)評論與300條虛假評論構(gòu)成本文所需的數(shù)據(jù)集。 4特征工程 根據(jù)現(xiàn)有對特征定義和構(gòu)建的方法研究,并結(jié)合用戶語言心理學(xué)知識、文本的語言結(jié)構(gòu)及情感極性的分析,本文總結(jié)了以下8個特征?! ?.1特征定義 4.1.
6、1詞匯量 虛假評論者會大肆贊美產(chǎn)品,使評論冗長,而真實(shí)評論言簡意賅。故詞匯量越大,評論真實(shí)度越低,由此定義詞匯量為評論中詞匯的數(shù)量?! ?.1.2修飾度 豐富的詞匯種類可以用來表達(dá)用戶的情感,虛假評論者使用的詞匯種類少于真實(shí)評論者使用的詞匯種類。為了便于統(tǒng)計(jì),本文定義形容詞與副詞與總詞匯量的比值為修飾度,修飾度越高,真實(shí)性越大?! ?.1.3人稱代詞詞頻 第一人稱代詞可以增加評論的真實(shí)度以及親切感,在無親身體驗(yàn)的虛假評論中,它被更多地使用。本文定義第一人稱代詞數(shù)量占總詞匯量的比值為人稱代詞詞頻?! ?.1.
7、4產(chǎn)品提及度 定義產(chǎn)品提及度為產(chǎn)品各種屬性相關(guān)的詞匯量占總詞匯量的比值。虛假評論會更多地提及產(chǎn)品的品牌以及相關(guān)屬性以增加評論可信度,故產(chǎn)品提及度越高,該評論為虛假評論可能性越大?! ?.1.5正面情感 為了強(qiáng)調(diào)產(chǎn)品的正面性,虛假評論中能表現(xiàn)正面情感的詞匯較多。定義正面詞匯(利用正面情感詞典)數(shù)量占總詞匯數(shù)的比值代表正面情感。 4.1.6負(fù)面情感 與正面情感相似,虛假評論者會為了贊美產(chǎn)品而盡量不使用負(fù)面情感詞匯。定義負(fù)面詞匯(利用負(fù)面情感詞典)數(shù)量占總詞匯數(shù)的比值代表負(fù)面情感?! ?.1.7極端評分 虛假
8、評論者會為了提高產(chǎn)品的正面性而給出極端的評分(數(shù)據(jù)集中評分滿分為5分),設(shè)定5分為極端評分賦值為1,其他評分為0。 4.1.8評分偏差 虛假評論者缺少真實(shí)的用戶體驗(yàn),所給出的評分常與平均評分有較大偏差,本文認(rèn)為偏差越大,該評論為虛假評論的可能性越大。定義評分偏差為用戶評分與均值的絕對值。 4.2基于啟發(fā)式算法的特征選擇 在機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,特征的數(shù)量