內(nèi)容文本分類中的語(yǔ)義特征提取算法研究

內(nèi)容文本分類中的語(yǔ)義特征提取算法研究

ID:33218838

大?。?.32 MB

頁(yè)數(shù):60頁(yè)

時(shí)間:2019-02-22

內(nèi)容文本分類中的語(yǔ)義特征提取算法研究_第1頁(yè)
內(nèi)容文本分類中的語(yǔ)義特征提取算法研究_第2頁(yè)
內(nèi)容文本分類中的語(yǔ)義特征提取算法研究_第3頁(yè)
內(nèi)容文本分類中的語(yǔ)義特征提取算法研究_第4頁(yè)
內(nèi)容文本分類中的語(yǔ)義特征提取算法研究_第5頁(yè)
資源描述:

《內(nèi)容文本分類中的語(yǔ)義特征提取算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)

1、分類號(hào)?????UDC173,5568密級(jí)編號(hào)??????十I初.大學(xué)CENTRALSOUTHUNIVERSITY82‘0-::?!В?、原創(chuàng)性聲明I舢llllllllllillllY1719195本人聲明,所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了論文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得中南大學(xué)或其他單位的學(xué)位或證書而使用過(guò)的材料。與我共同工作的同志對(duì)本研究所作的貢獻(xiàn)均已在論文中作了明確的說(shuō)明。作者簽名:耋婭日期:盟年上月j業(yè)日學(xué)位論文版權(quán)使用授權(quán)書本人了解中南大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)

2、校有權(quán)保留學(xué)位論文并根據(jù)國(guó)家或湖南省有關(guān)部門規(guī)定送交學(xué)位論文,允許學(xué)位論文被查閱和借閱;學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以采用復(fù)印、縮印或其它手段保存學(xué)位論文。同時(shí)授權(quán)中國(guó)科學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》,并通過(guò)網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)。作者簽名:翮簽名鮑期鋤,Q年』月坦日摘要內(nèi)容文本分類是根據(jù)給定文本的特征進(jìn)行匹配,將其判別為事先確定的若干個(gè)文本類別中的某一類或某幾類的過(guò)程。如何提取待分類數(shù)據(jù)中的語(yǔ)義特征是實(shí)現(xiàn)文本分類的關(guān)鍵技術(shù)。特征提取對(duì)于降低文本數(shù)據(jù)的處理維度,濾除數(shù)據(jù)噪聲,提高分類準(zhǔn)確率有著重要的意義。論文研究在不犧牲算法效率和精確度的前提下,如

3、何對(duì)傳統(tǒng)特征提取算法進(jìn)行改進(jìn)。在深入分析無(wú)監(jiān)督特征提取主成分分析算法和監(jiān)督的Fisher判別分析算法的特點(diǎn)的基礎(chǔ)上,提出了從數(shù)據(jù)重構(gòu)和數(shù)據(jù)識(shí)別的角度建立了特征提取中描述特征和判別特征兩個(gè)優(yōu)化思想;結(jié)合譜圖理論,研究了黎曼流形上的拉普拉斯.貝爾特拉米算子的線性近似,構(gòu)造了一個(gè)類似Fisher判別函數(shù)的非監(jiān)督判別準(zhǔn)則;在深入分析非監(jiān)督判別判別準(zhǔn)則的基礎(chǔ)上,提出了在特征提取時(shí)著重考慮文本類別特征的稀疏性和文本數(shù)據(jù)特征間具有的相關(guān)性、同義性以及多義性的特點(diǎn)對(duì)分類語(yǔ)義信息的影響,采用數(shù)據(jù)降維后保留類別語(yǔ)義信息的原則,避免僅考慮文本語(yǔ)義信息重構(gòu)造成的分類準(zhǔn)確度降低的缺點(diǎn);通過(guò)分析潛在語(yǔ)義索引特征提取算法的

4、優(yōu)點(diǎn)和不足,確定了從代數(shù)角度通過(guò)矩陣奇異值分解和廣義特征值分解獲取特征變換矩陣的方法,達(dá)到在不影響精準(zhǔn)度的基礎(chǔ)上減少特征提取的時(shí)間;通過(guò)深入研究經(jīng)典線性-N另,J算法在語(yǔ)義特征提取運(yùn)用,結(jié)合文本分類自身的特點(diǎn),明確了文本分類不同于線性判別算法的監(jiān)督聚類,從而構(gòu)造基于文本向量間的相似矩陣和密度矩陣以提供類別語(yǔ)義信息?;谝陨瞎ぷ髟砗完P(guān)鍵技術(shù),本文設(shè)計(jì)了一種判別語(yǔ)義特征提取算法DSFE。采用國(guó)際通用語(yǔ)料數(shù)據(jù)集和web網(wǎng)頁(yè)數(shù)據(jù)作為實(shí)驗(yàn)語(yǔ)料,對(duì)于所設(shè)計(jì)的算法進(jìn)行了實(shí)驗(yàn)并對(duì)實(shí)驗(yàn)結(jié)果比較,使用準(zhǔn)確率和歸一化互信息評(píng)價(jià)算法,驗(yàn)證了DSFE算法在時(shí)間復(fù)雜度、分類準(zhǔn)確性、抗噪聲能力等方面都有較好的性能。關(guān)鍵詞

5、Fisher判別分析,潛在語(yǔ)義索引,特征變換,判別語(yǔ)義特征提取ABSTRACTContenttextclassificationisgivenaccordingtothecharacteristicsoftext,thediscriminationforseveralmonthspriortothedeterminationofthetexttypeofcertainorprocess.HowtoextractthesemanticfeaturesforclassificationofdataiSthekeytechnologyoftextclassification.Thesemanticf

6、eatureextractionforreducingthetextdataprocessingdimension,filteringnoiseandimprovedataclassificationaccuracyhasimportantsignificance.Researchonprecisionandefficiencyofthealgorithmwithoutsacrificingthepremise,howtotraditionalsemanticsfeatureextractionalgorithmwasimproved.Inthisdessertation,theunsuper

7、visedfeatureextractingprincipalcomponentanalysisalgorithmandsupervisionofFisherdiscriminantanalysisalgorithmisprofoundlystudied,basedonwhich,itisdemonstratedthatfromtheangleofdatareconstructionanddata

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。