資源描述:
《面向產品的虛假評論識別》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、面向產品的虛假評論識別 隨著網上購物成為一種最重要的日常購物方式,產品評論成為了用戶是否購買賣家產品的重要依據,因而對虛假評論的識別具有重要意義。本文基于虛假評論和真實評論在情感極性上的差異,定義了8個特征并利用隨機初值的局部搜索法、模擬退火法兩種啟發(fā)式算法進行特征選擇,再通過兩種聚類算法對虛假評論進行識別。最后通過對構造出的數據集進行實驗,驗證了算法的有效性?! ?P鍵詞】虛假評論情感極性啟發(fā)式算法聚類 1引言 互聯網的發(fā)展極大地影響了人們的生活方式和消費觀念,網購越來越受到消費者的歡迎。由于人貨分離,
2、消費者在消費前需要大量的信息作為參考,面向產品的評論是其中重要的一環(huán)。在現實利益的驅動下,垃圾評論快速“滋生”,特別是產品評論數量呈爆炸性趨勢增長,人為地辨別垃圾評論已不切實際,因此,研究出一種能夠識別和過濾垃圾評論的方法具有重要的現實意義?! ?相關工作 國內外的研究者們在博客和郵件領域的垃圾評論方面做了大量工作,取得了一定的成果,但對于產品虛假評論的識別依然困難重重。 文獻[1]首次定義了三種類型的垃圾評論以及基于產品、評論內容以及評論者三類評論特征,建立Logistic回歸模型進行識別。但這種方法對于虛
3、假評論識別效果不佳。文獻[2]開發(fā)了第一個識別虛假評論的“黃金”數據集,利用文本分類技術來對虛假評論進行識別。文獻[3]提出通過用戶所給的評價等級來識別垃圾評論制造者的方法,用計算機所得分值進行排名,從數據集中移除分值較高的評論者及其評論。文獻[4]從互聯網獲取產品評論集,并進行手工標注的數據集訓練分類器來識別虛假評論。以上方法由于人的主觀因素難以確定合適的標準,使數據集中存在過多的錯誤標注。文獻[5]現利用對評論文本進行上下文無關文法的特征建模有助于提高識別的正確率。文獻[6]利用F統(tǒng)計量改進K均值算法,在實現
4、評論集的自適應聚類后計算每個簇偏離的程度,從而實現對虛假評論的識別。 本文創(chuàng)新性地提出采用評論文本的語言結構和情感極性上的差異來定義特征,使用隨機初值的局部搜索法、模擬退火法進行特征選擇,然后利用聚類算法來識別虛假評論。 3數據集 當前阻礙虛假評論研究發(fā)展的一個重要因素是缺少評估檢測算法的標注數據集,為了獲得可靠的已標注數據集,我們選擇了西安市2家日化店,進行人工構造,具體構造方式如下: 3.1虛假評論 虛假評論是人工無法直接從評論集中有效識別出的,故我們進行人工構造虛假評論。在10天內,我們要求周邊市
5、民(并未實際購買產品)寫下正面積極、有利于產品售出的評價,共收集到300條虛假評價?! ?.2真實評論 2個月內,我們共獲得437條真實的用戶評論。由于評價質量良莠不齊,我們制定了一些約束條件對這437條評論進行過濾處理,與虛假評論平衡,保持長度分布一致,最終保留300條真實評論?! ∥覀儗⑦@300條真實評論與300條虛假評論構成本文所需的數據集?! ?特征工程 根據現有對特征定義和構建的方法研究,并結合用戶語言心理學知識、文本的語言結構及情感極性的分析,本文總結了以下8個特征?! ?.1特征定義 4.1.
6、1詞匯量 虛假評論者會大肆贊美產品,使評論冗長,而真實評論言簡意賅。故詞匯量越大,評論真實度越低,由此定義詞匯量為評論中詞匯的數量?! ?.1.2修飾度 豐富的詞匯種類可以用來表達用戶的情感,虛假評論者使用的詞匯種類少于真實評論者使用的詞匯種類。為了便于統(tǒng)計,本文定義形容詞與副詞與總詞匯量的比值為修飾度,修飾度越高,真實性越大。 4.1.3人稱代詞詞頻 第一人稱代詞可以增加評論的真實度以及親切感,在無親身體驗的虛假評論中,它被更多地使用。本文定義第一人稱代詞數量占總詞匯量的比值為人稱代詞詞頻?! ?.1.
7、4產品提及度 定義產品提及度為產品各種屬性相關的詞匯量占總詞匯量的比值。虛假評論會更多地提及產品的品牌以及相關屬性以增加評論可信度,故產品提及度越高,該評論為虛假評論可能性越大?! ?.1.5正面情感 為了強調產品的正面性,虛假評論中能表現正面情感的詞匯較多。定義正面詞匯(利用正面情感詞典)數量占總詞匯數的比值代表正面情感?! ?.1.6負面情感 與正面情感相似,虛假評論者會為了贊美產品而盡量不使用負面情感詞匯。定義負面詞匯(利用負面情感詞典)數量占總詞匯數的比值代表負面情感?! ?.1.7極端評分 虛假
8、評論者會為了提高產品的正面性而給出極端的評分(數據集中評分滿分為5分),設定5分為極端評分賦值為1,其他評分為0。 4.1.8評分偏差 虛假評論者缺少真實的用戶體驗,所給出的評分常與平均評分有較大偏差,本文認為偏差越大,該評論為虛假評論的可能性越大。定義評分偏差為用戶評分與均值的絕對值?! ?.2基于啟發(fā)式算法的特征選擇 在機器學習與數據挖掘的實際應用中,特征的數量