基于潛在語義分析的專利文本分類技術(shù)分析

基于潛在語義分析的專利文本分類技術(shù)分析

ID:28858776

大?。?.77 MB

頁數(shù):57頁

時間:2018-12-14

基于潛在語義分析的專利文本分類技術(shù)分析_第1頁
基于潛在語義分析的專利文本分類技術(shù)分析_第2頁
基于潛在語義分析的專利文本分類技術(shù)分析_第3頁
基于潛在語義分析的專利文本分類技術(shù)分析_第4頁
基于潛在語義分析的專利文本分類技術(shù)分析_第5頁
資源描述:

《基于潛在語義分析的專利文本分類技術(shù)分析》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、沈陽航空航天大學(xué)碩士學(xué)位論文摘要專利分類可以加快對專利文獻(xiàn)的檢索速度,方便對專利文獻(xiàn)的管理,有著十分重要的作用。近幾年,自然語言處理以及信息檢索技術(shù)的發(fā)展,為解決專利分類任務(wù)提供了強(qiáng)大的方法論武器,如何根據(jù)專利分類任務(wù)的特殊性選擇合理的解決方法成為提高分類系統(tǒng)性能的關(guān)鍵。大量研究表明,在專利分類任務(wù)中,數(shù)據(jù)稀疏問題一直是影響專利分類性能的主要障礙;除此之外,專利的類別體系是一個多層次的樹形結(jié)構(gòu),同一父節(jié)點(diǎn)下的子類樣本之間相似性較大,因此,加劇了專利的分類難度。本文針對專利的上述特點(diǎn)提出基于潛在語義分析的專利自動分類技術(shù),它利用奇異值分解,把大量共現(xiàn)或相關(guān)的特征映射到潛在語義空間的同一維上,深

2、度挖掘出原始特征一文檔矩陣的潛在關(guān)系;通過降維,把原始的高維空間投影到低維的語義空間,在保證原始特征文檔矩陣最有效的語義關(guān)系的同時,盡可能地壓縮了無效的、無關(guān)的噪聲信息,從而保證了K維空間的豐富的語義特征,是一種有效解決數(shù)據(jù)稀疏問題的手段。針對分類任務(wù)的特殊性,本文結(jié)合專利文本的類別信息還提出基于類別信息指導(dǎo)的潛在語義分析優(yōu)化方法,通過增強(qiáng)相同類內(nèi)的特征共現(xiàn)程度獲得更準(zhǔn)確的潛在語義空間,使得相同類別專利文本之間的相似性更明顯從而提高專利分類的性能。X本文基于NTCIR-8專利分類評測的平臺,在美國專利語料上實(shí)現(xiàn)基于潛在語義分析的專利自動分類系統(tǒng),并以基于共享最近鄰的專利分類系統(tǒng)為參照,針對專

3、利分類任務(wù)中的主要問題和核心技術(shù)做了相關(guān)試驗(yàn),并做了詳細(xì)的試驗(yàn)結(jié)果分析,最終實(shí)現(xiàn)了可靠的專利自動分類系統(tǒng)。關(guān)鍵詞:LSA;共享最近鄰;BM25;專利分類AbstractPatentClassificationcanquickentheretrievalspeedofpatentdocumentsandfacilitatethemanagementofthem,SOitplaysanimportantrole.Inrecentyears,thedevelopmentofNatualLanguageProcessingandInformationRetrievaltechnologyprovid

4、esnewmethodologyforpatentclassificationtask,andhowtochooseareasonableresolutionbasedontheparticularityofpatentclassificationtaskisthekeytoimprovetheperformanceofclassificationsystem.Researchhasshownthatdatasparsityisalwaystheobstacleinfluencingtheperformanceofpatentclassification;besides,theclasssy

5、stemofpatentisamultilayertreestruct,andsamplesunderthesameparentnodeareverysimilartoeachother,SOpatentclassificationbecomesmoredifficult.Aimingattheabovecharacteristicsofpatent,thispaperpresentsaPatentAutomaticClassificationTechnologybasedonLatentSemanticAnalysis(LSA).ThistechnologyusesSingularValu

6、eDecompositiontodeeplyminethelatentrelationshipbetweentheoriginalcharacteristicsandthedocumentmatrixbymappingCO-occurrenceorinterrelatedcharacteristicsintothesamesemanticspace,andprojectstheoriginalhigh—dimensionspaceintolow—dimensionsemanticspacebyreducingdimensions,ensuringthemosteffectivesemanti

7、crelationbetweentheoriginalcharacteristicsandthedocumentmatrixandcompressingunusefulandunrelatednoiseinformationasmuchaspossible,therebyensuringtheabundantsemanticcharacteristicsink—dimensionalspace,SOitist

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。