資源描述:
《基于潛在語義分析的專利文本分類技術(shù)分析》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、沈陽航空航天大學(xué)碩士學(xué)位論文摘要專利分類可以加快對專利文獻(xiàn)的檢索速度,方便對專利文獻(xiàn)的管理,有著十分重要的作用。近幾年,自然語言處理以及信息檢索技術(shù)的發(fā)展,為解決專利分類任務(wù)提供了強(qiáng)大的方法論武器,如何根據(jù)專利分類任務(wù)的特殊性選擇合理的解決方法成為提高分類系統(tǒng)性能的關(guān)鍵。大量研究表明,在專利分類任務(wù)中,數(shù)據(jù)稀疏問題一直是影響專利分類性能的主要障礙;除此之外,專利的類別體系是一個多層次的樹形結(jié)構(gòu),同一父節(jié)點(diǎn)下的子類樣本之間相似性較大,因此,加劇了專利的分類難度。本文針對專利的上述特點(diǎn)提出基于潛在語義分析的專利自動分類技術(shù),它利用奇異值分解,把大量共現(xiàn)或相關(guān)的特征映射到潛在語義空間的同一維上,深
2、度挖掘出原始特征一文檔矩陣的潛在關(guān)系;通過降維,把原始的高維空間投影到低維的語義空間,在保證原始特征文檔矩陣最有效的語義關(guān)系的同時,盡可能地壓縮了無效的、無關(guān)的噪聲信息,從而保證了K維空間的豐富的語義特征,是一種有效解決數(shù)據(jù)稀疏問題的手段。針對分類任務(wù)的特殊性,本文結(jié)合專利文本的類別信息還提出基于類別信息指導(dǎo)的潛在語義分析優(yōu)化方法,通過增強(qiáng)相同類內(nèi)的特征共現(xiàn)程度獲得更準(zhǔn)確的潛在語義空間,使得相同類別專利文本之間的相似性更明顯從而提高專利分類的性能。X本文基于NTCIR-8專利分類評測的平臺,在美國專利語料上實(shí)現(xiàn)基于潛在語義分析的專利自動分類系統(tǒng),并以基于共享最近鄰的專利分類系統(tǒng)為參照,針對專
3、利分類任務(wù)中的主要問題和核心技術(shù)做了相關(guān)試驗(yàn),并做了詳細(xì)的試驗(yàn)結(jié)果分析,最終實(shí)現(xiàn)了可靠的專利自動分類系統(tǒng)。關(guān)鍵詞:LSA;共享最近鄰;BM25;專利分類AbstractPatentClassificationcanquickentheretrievalspeedofpatentdocumentsandfacilitatethemanagementofthem,SOitplaysanimportantrole.Inrecentyears,thedevelopmentofNatualLanguageProcessingandInformationRetrievaltechnologyprovid
4、esnewmethodologyforpatentclassificationtask,andhowtochooseareasonableresolutionbasedontheparticularityofpatentclassificationtaskisthekeytoimprovetheperformanceofclassificationsystem.Researchhasshownthatdatasparsityisalwaystheobstacleinfluencingtheperformanceofpatentclassification;besides,theclasssy
5、stemofpatentisamultilayertreestruct,andsamplesunderthesameparentnodeareverysimilartoeachother,SOpatentclassificationbecomesmoredifficult.Aimingattheabovecharacteristicsofpatent,thispaperpresentsaPatentAutomaticClassificationTechnologybasedonLatentSemanticAnalysis(LSA).ThistechnologyusesSingularValu
6、eDecompositiontodeeplyminethelatentrelationshipbetweentheoriginalcharacteristicsandthedocumentmatrixbymappingCO-occurrenceorinterrelatedcharacteristicsintothesamesemanticspace,andprojectstheoriginalhigh—dimensionspaceintolow—dimensionsemanticspacebyreducingdimensions,ensuringthemosteffectivesemanti
7、crelationbetweentheoriginalcharacteristicsandthedocumentmatrixandcompressingunusefulandunrelatednoiseinformationasmuchaspossible,therebyensuringtheabundantsemanticcharacteristicsink—dimensionalspace,SOitist