資源描述:
《文本分類(lèi)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、文本分類(lèi)算法研究作者:趙巖周斌陳儒華來(lái)源:《軟件導(dǎo)刊》2013年笫10期摘要摘要:文本分類(lèi)是文本數(shù)據(jù)挖掘領(lǐng)域的重要技術(shù)之一。從分類(lèi)算法対文本語(yǔ)義信息的利用程度這一角度出發(fā),將文木分類(lèi)劃分為基于詞形的算法和基于語(yǔ)義的算法兩類(lèi),對(duì)每類(lèi)算法進(jìn)行了描述,并對(duì)當(dāng)今文本數(shù)據(jù)的多樣性及文本分類(lèi)算法改進(jìn)的可選方向進(jìn)行了研究。關(guān)鍵詞關(guān)鍵詞:文木分類(lèi);機(jī)器學(xué)習(xí);語(yǔ)義信息;數(shù)據(jù)挖掘中圖分類(lèi)號(hào):TP301.6文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2013)0010005403基金項(xiàng)冃:國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)項(xiàng)目(SQ2012CB03747);國(guó)家自然科學(xué)基金重點(diǎn)課題(
2、60933005)作者簡(jiǎn)介:趙巖(1986-),男,國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院碩士研究牛,研究方向?yàn)閿?shù)據(jù)挖掘;周斌(1971?),另,陰?士,國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院研究員,研究方向?yàn)閿?shù)據(jù)挖掘、海量數(shù)據(jù)處理;陳儒華(1987?),男,國(guó)防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析。0引言文本分類(lèi)是指在帶有類(lèi)別標(biāo)簽的文本集合中,根據(jù)每個(gè)類(lèi)別的文本了集合的共同特點(diǎn),找出一個(gè)分類(lèi)模型,以便在后續(xù)過(guò)程中將未標(biāo)識(shí)文本映射到已有類(lèi)別的過(guò)程。文木分類(lèi)是--種文木處理手段,能較好地解決大量文檔信息歸類(lèi)的問(wèn)題進(jìn)而應(yīng)用到很多場(chǎng)景中,如基于受控詞典的文檔自動(dòng)索引、文檔
3、過(guò)濾、元數(shù)據(jù)的自動(dòng)生成、詞義辨別、資源層次分類(lèi)等,同時(shí),它也是很多信息管理任務(wù)的重要組成部分⑴。自動(dòng)分類(lèi)的研究可以追溯到上世紀(jì)50年代;上世紀(jì)80年代來(lái)之前,動(dòng)分類(lèi)問(wèn)題人多采用知識(shí)工程的方法,即利用專(zhuān)家規(guī)則來(lái)進(jìn)行分類(lèi);上世紀(jì)90年代以后,統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)的方法被引入到文木自動(dòng)分類(lèi)中,取得了豐碩的成果并逐漸取代了知識(shí)工程方法。文本分類(lèi)的一?般流程為文本預(yù)處理、特征抽取、構(gòu)建分類(lèi)器和分類(lèi)結(jié)果評(píng)價(jià)。U前,針對(duì)文本分類(lèi)的算法主要集中在特征抽取和分類(lèi)器構(gòu)建這兩個(gè)方面。本文主要介紹文本分類(lèi)中的幾種常用算法。對(duì)于分類(lèi)算法的分類(lèi)方式冃前沒(méi)有統(tǒng)一的結(jié)論“21,鑒于各分類(lèi)算法對(duì)文木語(yǔ)義信息
4、的利用程度不同,可以考慮將其分為基于詞形的文木分類(lèi)和基丁?語(yǔ)義的文木分類(lèi)兩大類(lèi)別。1基于詞形的文本分類(lèi)基于詞形的方法傾向于將文本視為無(wú)意義無(wú)聯(lián)系的字或詞的集合,幾乎沒(méi)有利川文本的語(yǔ)義信息。1.1貝葉斯分類(lèi)貝葉斯分類(lèi)算法以貝葉斯理論為基礎(chǔ),是一種利用先驗(yàn)概率與條件概率進(jìn)行文本分類(lèi)的并法,具有實(shí)現(xiàn)簡(jiǎn)單、準(zhǔn)確率高、速度快的特點(diǎn)。貝葉斯算法基于獨(dú)立性假設(shè),即一個(gè)屈性對(duì)給定類(lèi)的彫響?yīng)毩⒂谄渌鼘傩缘闹?。?dú)立性假設(shè)的約束過(guò)于強(qiáng),在實(shí)際應(yīng)用屮經(jīng)常是不成立的,因此在很多情況下其分類(lèi)準(zhǔn)確率并不能保證⑶。1.2決策樹(shù)木文將決策樹(shù)視為一種基于規(guī)則學(xué)習(xí)的算法,其目的是學(xué)習(xí)一系列分類(lèi)規(guī)則,即屬性與類(lèi)
5、別的關(guān)系。在決策樹(shù)算法中,分類(lèi)規(guī)則可用從根節(jié)點(diǎn)到任一葉節(jié)點(diǎn)的路徑表示,具有很強(qiáng)的可理解性和對(duì)用性。該算法涉及兩個(gè)核心問(wèn)題:決策樹(shù)的建立和決策樹(shù)的剪枝。常見(jiàn)決策樹(shù)算法包括CART、ID3、C4.5、CHAID等。其中影響最大的是ID3⑷,該算法El3Quinlan于1986年提出,算法的理論清晰、方法簡(jiǎn)單,但只対較小的數(shù)據(jù)集有效,且対噪聲敏感,在測(cè)試屬性選擇時(shí),它傾向于選擇収值較多的屬性。C4.5算法是對(duì)ID3的改進(jìn),主要解決了ID3算法選擇偏向取值較多的屬性問(wèn)題。1.3k最近鄰k最近鄰算法是一種基于實(shí)例的消極學(xué)習(xí)算法。該算法的思想是:統(tǒng)計(jì)一個(gè)樣木在特征空間屮的k個(gè)最相似的
6、樣本類(lèi)別,進(jìn)而采用加權(quán)投票的方式確定待分類(lèi)樣本的類(lèi)別。KNN分類(lèi)器只存儲(chǔ)實(shí)例,對(duì)于每個(gè)未知輸入都要遍歷訓(xùn)練樣本,因而在應(yīng)對(duì)人雖待分類(lèi)數(shù)據(jù)時(shí)其算法效率很低。1.4Rocchio算法Rocchio算法是20世紀(jì)70年代左右在Salton的SMART系統(tǒng)中引入并廣泛流傳的一種分類(lèi)算法,它通過(guò)構(gòu)造類(lèi)別的屮心向量及相應(yīng)類(lèi)域的方式進(jìn)行分類(lèi)。該方法的優(yōu)點(diǎn)是簡(jiǎn)單14直觀,缺點(diǎn)是對(duì)線性不可分的數(shù)據(jù)及含噪聲的數(shù)據(jù)分類(lèi)效果差。1.5支持向量機(jī)支持向量機(jī)(SupportVectorMachines,SVM)方法是由V.Vapnik與其領(lǐng)導(dǎo)的貝爾實(shí)驗(yàn)室小組一起開(kāi)發(fā)出來(lái)的一種機(jī)器學(xué)習(xí)技術(shù)。SVM是一
7、種線性分類(lèi)器,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,其特點(diǎn)是能夠同時(shí)最小化經(jīng)驗(yàn)誤差冃最人化兒何邊緣區(qū),最終將分類(lèi)問(wèn)題轉(zhuǎn)化為求解最優(yōu)決策超平而問(wèn)題。該方法屬于研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的統(tǒng)計(jì)學(xué)習(xí)理論范疇,對(duì)小樣本情況具有較好的適應(yīng)性,克服了“過(guò)學(xué)習(xí)”現(xiàn)象,只有相對(duì)優(yōu)良的性能指標(biāo)。影響SVM的分類(lèi)性能最重要的兩個(gè)因素是誤差懲罰參數(shù)和核函數(shù)。1.6神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是對(duì)神經(jīng)系統(tǒng)的-?種模擬。在文本分類(lèi)中,神經(jīng)網(wǎng)絡(luò)由一組神經(jīng)元組成,其輸入單元通常代表詞項(xiàng),輸出單元表示類(lèi)別或類(lèi)別興趣度,神經(jīng)元的連接權(quán)重表示條件依賴(lài)關(guān)系。對(duì)于文本分類(lèi),文檔向量權(quán)重通常