資源描述:
《共現分析在文本知識挖掘中應用的研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、摘要隨著各種文本數據源的激增和用戶對知識內容深層挖掘的需求,文本知識挖掘的研究正在興起。由于文本具有區(qū)別于一般數據庫信息資源的半結構化特性,計算機很難理解和處理,必須利用與傳統(tǒng)數據挖掘方法相異、有針對性的分析方法以獲得對文獻內容的全面而深入的理解。因此,探討共現分析的理論及其在文本知識挖掘中的具體應用有著極其重要的理論和實踐意義。首先,本文論述了文本知識挖掘的定義、一般過程、主要任務、基本方法和主要研究課題。并從理論上深入探討了共現分析方法,系統(tǒng)地總結了該方法的定義、類型、方法論基礎及一般研究流程。
2、在此基礎上,提出了共現分析將對文本知識挖掘所起的三方面作用:為文本知識挖掘的一般處理過程提供語義支持、從詞匯關聯角度發(fā)現有趣的知識模式、作為挖掘文本知識的有效手段;然后,從作為文本知識挖掘有效手段的角度出發(fā),本文研究了共現分析在基于空間分布、時間分布和內外關聯映射的文本知識挖掘中應用的思路和典型案例;提出了利用共現分析挖掘文本知識的適用范圍及一般操作流程,并對操作流程中影響分析結果的主要問題進行了深入分析;再次,以上述研究成果為方法論,以中國期刊全文數掘庫中“航空發(fā)動機”(2001--2005年)類
3、目下的1273篇學術期刊為實例,進行了文本知識挖掘的應用探索。經研究發(fā)現:在空間分布上,航空發(fā)動機領域的研究主要集中在燃燒系統(tǒng)、控制、壓氣機、噴管、渦輪幾大知識熱點,其中燃燒系統(tǒng)始終處于該領域的核心:在時問分布上,通過五年的分析數據比較得知,除燃燒系統(tǒng)之外的其它研究問題通過拓寬研究范疇、增強研究深度,都有向領域中心靠近的趨勢。另外,航空發(fā)動機領域的知識結構相對固定,在短期時間內不太可能發(fā)生太大的變化,可能出現的是研究側重點的微調;最后,本文總結了利用共現分析挖掘文本知識的新趨勢,并指出了發(fā)展的方向。
4、關鍵詞:文本挖掘共現分析知識挖掘共詞分析研究流程Abstractwiththedramaticincreaseofdatapresentedintextformatandusers’needofminingknowledgewithiniLthestudyoftext-knowledgeispoppingup.Duetothedifferencesbetweentextandordinaryrecordsfromdatabase,it'sdi伍culttousecomputertodealwitll
5、it.inordertoobtainacomprehensiveandembeddedunderstandingofcontents,WehavetofmdamethodwhichisdifferemfromtraditionaldataminingmethodandpertinenttothecharacteristicoftexLTherefore,it’sofvitalimportancetodiscussthetheoryofCo-occurrenceanalysisanditsconcre
6、teapplicationintext-knowledgemining.Firstofall,thispaperdiscussedthedefinition,ordiIlaryprocedure,basicmethodandmajorissueoftext-knowledgemining.AndthentheauthordiscussedthetheoryofCo-occurrenceanalysis,includingitsdefinition,category,methodologyandthe
7、commonannalisticprocedure.Onthebasisofallabove,thefunctionofutilizingCo-occurrenceanalysisintext-knowledgeminingwasproposed:itprovidedthecoursesoftext-knowledgeminingwithsemanticsupport,itdiscoveredinterestingknowledgepatternsfromtheassociationofterms,
8、andit.鯽fvesasaneffectivemethodtodiscovertext-knowledge。Then,baseduponthethirdfunction,theauthorbroughtforwardthewayitwasusedintext-knowledgeminingresearchfromthreeperspectives--basedonspatialdistribution,basedontemporaldistributionandba