資源描述:
《基于潛在語義索引的文本聚類技術(shù)分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、沈陽航空工業(yè)學院碩士學位論文摘要隨著信息技術(shù)的發(fā)展,人們需要對大量的文本資源進行有效的組織,以利于主題發(fā)現(xiàn)、信息檢索等。于是,文本聚類技術(shù)應(yīng)運而生,它是自然語言處理領(lǐng)域的重要課題。文本聚類技術(shù)的研究取得了良好的成果,同時文本聚類中存在大量同義詞、近義詞等特有的自然語言現(xiàn)象。本文利用潛在語義索引探討和研究這種語言現(xiàn)象,改善文本聚類的性能。潛在語義索引中的奇異值分解技術(shù)將原始特征空間轉(zhuǎn)化到相應(yīng)較小的潛在語義空間。本文分析了原始特征空間投影到潛在語義空間的過程,發(fā)現(xiàn)文檔集合中文檔頻率較高的特征給潛在語義空問引入一些不合理的特征傳遞關(guān)系,影響了特征與
2、特征和文檔與文檔的相似度。利用潛在語義空間中文檔內(nèi)特征與特征和文檔間特征與特征之間的傳遞關(guān)系,提出了一種潛在語義索引特征優(yōu)化技術(shù),對潛在語義空間中特征之間的傳遞關(guān)系進行選擇。實驗結(jié)果表明,該方法有效地提高了潛在語義索引的性能。在文本聚類算法的研究過程中,針對劃分聚類算法對初始點選擇敏感,易陷入局部最優(yōu)的問題。本文分析了初始點的特征,考慮將文本集合中K個文本作為不同類別的初始點使得這K個文本之問相似度和最小,提出了--哥oo基于文本最小相似度的初始中心選取方法,避免了將大類拆分成小類及邊界點作為初始點。實驗結(jié)果表明,該方法有效地減少了聚類算法的
3、迭代過程并提高了聚類性能。最后本文實現(xiàn)了一個基于潛在語義索引的文本檢索系統(tǒng),對檢索的初始結(jié)果進行特征傳遞關(guān)系選擇并通過聚類手段調(diào)整檢索結(jié)果。在NTCIR.7國際評測中IR4QA的部分語料上進行測試。實驗表明,該方法能有效地提高檢索效果。關(guān)鍵詞:文本聚類;潛在語義索引;特征傳遞關(guān)系;初始中心點選擇AbstractWiththedevelopmentofinformationtechnology,alargeamountofdocumentsourcesareneededtobeeffectivelyorganizedfortopicdiscov
4、ery,informationretrieval,etc.Tomeettheserequirements,thedocumentclusteringtechniqueemergesintime,whichisanimportantresearchtopicofnaturallanguageprocessing.Manyprogresseshavebeenmadeintheresearchofdocumentclustering.Thenaturallanguagephenomenasuchasagreatnumberofsynonymsand
5、polesemyexistindocumentclustering.LatentSemanticIndexing(LSI)isusedtodiscussandresolvethesephenomenainordertoimprovetheperformanceofdocumentclusteringinthisthesis.SingularValueDecomposition(SVD)technologyoftheLSItransformstheoriginaltermspacetothecorrespondingsmallerlatents
6、emanticspace,duringwhichthetermswithhighdocumentfrequencyintroducesomeunreasonabletermtransferrelationsthatinfluencethesimilaritybetweentermsandthesimilaritybetweendocumentsinthedocumentsets.Thisthesisproposesafeatureoptimizetechnologyinlatentsemanticindexingbymakinguseofth
7、etransferrelationoftermsinthedocumentsandbetweenthedocumentsindocumentsets.Thismethodcanchoosethetransferrelationsinlatentsemanticspace,andtheexperimentalresultsshowthatthismethodcanimprovetheperformanceofLSIeffectively.Intheresearchofdocumentclusteringalgorithm.clusteringa
8、lgorithmsbasedonpartitionaresensitivetotheinitialpointsandpronetobetrappedinlocalo