資源描述:
《基于語(yǔ)義過(guò)濾文本和文本流聚類(lèi)的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于語(yǔ)義過(guò)濾的文本和文本流聚類(lèi)研究論文題目專(zhuān)業(yè)碩士生指導(dǎo)教師計(jì)算機(jī)軟件與理論蔡嘉榮印鑒教授,劉玉葆講師摘要文本聚類(lèi)是信息索91.信息檢索以及WEB挖掘中一個(gè)重要的步驟,是數(shù)據(jù)挖掘的重要領(lǐng)域之一.在許多實(shí)際應(yīng)用中,如新聞組過(guò)濾、主題跟蹤等,文本是以連續(xù)的流數(shù)據(jù)形式出現(xiàn),這給傳統(tǒng)的基于靜態(tài)文本數(shù)據(jù)集的聚類(lèi)算法帶來(lái)巨大的挑戰(zhàn).但無(wú)論是離線靜態(tài)文本聚類(lèi)還是在線動(dòng)態(tài)文本流聚類(lèi),現(xiàn)有的算法往往因?yàn)椴荒苡行幚砦谋局袕?fù)雜的語(yǔ)義,導(dǎo)致聚類(lèi)精確度不高。具體來(lái)說(shuō),這主要是由于現(xiàn)實(shí)文本常常包含過(guò)多的“通用詞”和過(guò)少的“核心詞”而造成的。最近,信息檢索領(lǐng)域中的語(yǔ)義過(guò)濾技術(shù)被提出來(lái)解決這一問(wèn)題,
2、并取得了不錯(cuò)的效果。它運(yùn)用多詞短語(yǔ)作為主題簽名,并使用翻譯轉(zhuǎn)換模型來(lái)引入文本中沒(méi)有的核心詞,從而達(dá)到減少通用詞的影響并增強(qiáng)核心詞的作用的目的。在文本聚類(lèi)領(lǐng)域具有廣闊的應(yīng)用前景。我們對(duì)現(xiàn)有的語(yǔ)義過(guò)濾模型進(jìn)行了研究,首先針對(duì)現(xiàn)有模型通用詞削弱能力不夠強(qiáng)的問(wèn)題,提出一種改進(jìn)模型,并把該模型與基于靜態(tài)文本集的聚類(lèi)算法相結(jié)合,實(shí)驗(yàn)表明該算法能大幅度提高現(xiàn)有靜態(tài)文本聚類(lèi)算法的聚類(lèi)精確度。然后在語(yǔ)義過(guò)濾技術(shù)基礎(chǔ)上,提出了一種包含文本語(yǔ)義的聚類(lèi)信息結(jié)構(gòu)即聚類(lèi)輪廓(clusterprofile),并給出了一種有效的適用于大規(guī)模動(dòng)態(tài)文本流環(huán)境的在線聚類(lèi)算法。該算法能有效解決文本流中的語(yǔ)義問(wèn)
3、題,能極大提高語(yǔ)義文本流的聚類(lèi)精確度和穩(wěn)定性。通過(guò)多組實(shí)驗(yàn)數(shù)據(jù)比較,進(jìn)一步證明了算法的有效性和高效性。關(guān)鍵詞:語(yǔ)義過(guò)濾,文本聚類(lèi),文本流聚類(lèi)第1貞基于語(yǔ)義過(guò)濾的文本和文本流聚類(lèi)研究TitleClusteringStaticCorpusandDynamicTextStreamsbasedonSemanticSmoothingMajorComputerSoftwareandTheoryNameCaiJiarongSupervisorProf.YinJianandLect.LiuYubaoABSTRACTClusteringtextdocumentsintodifferent
4、categorygroupsis∞importantstepinindexing,retrieval,managementandminingofabundanttextdataontheWeborincor-porateinformationsystems.Manytextminingapplicationssuchasnewsgroupfiltering,topicdetection,textcrawling,anddocmnentorganizationrequirerealtimeclustering,inwhichtextdataCOme∞acontinuous
5、stream.Thispresentsmanychallengestotradi-tionaltextmining.However,nomatterstatictextordynamictextstreams,theexistingmethodsfailtogethighclusteringaccuracybecauseofthecomplexsemanticsofthetext.Inapplication,thisisbecausemostdocumentsareoftenfullofclass-independent‘'general”wordsandshortof
6、class-specific"core"words.Recently,semanticsmooth-ing,whichhasbeenwidelystudiedinthefieldofInformationRetrieval,isproposedasanefficientsolution.Context-sensitivesemanticsmoothingapproachemploysmul-tiwordphraseastopicsignatureandllsestranslationmodeltodiscountgeneralwordsandassignreasonab
7、lecountstounseenCorewords,whichmakesitpromisingfortextclustering.Basedontheresearchoftheexistingmodel,thispaperproposesanimprovedsemanticsmoothingmodelforclusteringstaticcorpus,whichovercomestherelativeweakabilitytocliscountgeneralwordsinpreviousmodel.Theexperimentsshowou