資源描述:
《基于文本情報(bào)的數(shù)據(jù)挖掘-呂曹芳》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、第20卷第6期電腦與信息技技術(shù)術(shù)2012年Vol.1220月No.62012年12月ComputerandInformationTechnologyDec.2012文章編號(hào):1005-1228(2012)06-0032-03基于文本情報(bào)的數(shù)據(jù)挖掘呂曹芳,侯智斌(解放軍陸軍軍官學(xué)院一系,安徽合肥230031)摘要:文章介紹了適合于軍事領(lǐng)域中進(jìn)行情報(bào)數(shù)據(jù)的挖掘方法,建立了軍事情報(bào)中非結(jié)構(gòu)化文本情報(bào)數(shù)據(jù)處理方法,結(jié)合軍事情報(bào)的特點(diǎn),提出了軍事情報(bào)中數(shù)據(jù)挖掘的框架模型,探討了軍事情報(bào)挖掘中文文本的方法。實(shí)現(xiàn)了對(duì)情報(bào)文本數(shù)據(jù)的分詞、關(guān)鍵字提取、詞頻分析、關(guān)聯(lián)分析等。關(guān)鍵詞:數(shù)據(jù)挖掘;軍
2、事情報(bào);關(guān)聯(lián)分析;分類分析中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:ADataMiningRealizationTechnologyBasedonTextIntelligenceDataLVCao-fang,HOUZhi-bin(FirstDepartment,ArtilleryAcademyofPLA,Hefei230031,China)Abstract:Thispaperintroducesintelligencetextclassificationmodelinmilitary,thedataprocessingmapofunstructuredintelligencetext
3、isestablished.Dataminingmodelframeworkisestablishedfirstlybythefeatureofmilitaryintelligence.AndimplementsChinesewordsegmentationontextdata,keywordextraction,wordfrequencyanalysis,relationalanalysis.Keywords:datamining;militaryintelligence;relationalanalysis;classificationanalysis當(dāng)今,信息的實(shí)時(shí)處理
4、及其有效的利用,已經(jīng)成為關(guān)聯(lián)規(guī)則分析法,是從數(shù)據(jù)預(yù)處理之后形成的事奪取控制信息權(quán)的關(guān)鍵。而信息戰(zhàn)的成敗也將會(huì)直接務(wù)數(shù)據(jù)庫(kù)中挖掘出滿足給定條件的關(guān)聯(lián)數(shù)據(jù)。關(guān)聯(lián)規(guī)則影響戰(zhàn)爭(zhēng)的勝負(fù),信息已經(jīng)滲透到戰(zhàn)場(chǎng)的眾多領(lǐng)域,包分析法形式如“M1→M2,支持度=S%,置信度=C%”,其括有形的戰(zhàn)場(chǎng)、無(wú)形的戰(zhàn)場(chǎng)。指揮員們面對(duì)海量的數(shù)中s和c是用戶指定的支持度和置信度的閾值。據(jù),如何過(guò)濾冗余、無(wú)用的信息,及時(shí)、準(zhǔn)確的獲取有用聚類或分類分析法,是對(duì)數(shù)據(jù)進(jìn)行分類,把具有同的相關(guān)信息。并且軍事情報(bào)存在相當(dāng)數(shù)量的采用文本樣特點(diǎn)的數(shù)據(jù)歸為一類,找出類的模型,再利用這些類[4]形式表示的信息,這些文本所存放的數(shù)
5、據(jù)庫(kù),就稱為情的模型對(duì)新的數(shù)據(jù)分類分析。報(bào)數(shù)據(jù)庫(kù)或文檔數(shù)據(jù)庫(kù)。情報(bào)數(shù)據(jù)庫(kù)中所存放數(shù)據(jù)大分布與趨勢(shì)預(yù)測(cè)分析法,是從數(shù)據(jù)中發(fā)現(xiàn)潛在的都是半結(jié)構(gòu)化的數(shù)據(jù),即它們既不是完全結(jié)構(gòu)化也不數(shù)據(jù)發(fā)展的趨勢(shì),從而有利于數(shù)據(jù)的處理,彌補(bǔ)沒(méi)有或[5-6]是完全無(wú)結(jié)構(gòu)的。如何能夠快速、及時(shí)的對(duì)這些半結(jié)構(gòu)遺漏數(shù)據(jù)。化的數(shù)據(jù)進(jìn)行處理,獲取它們背后隱藏的規(guī)則。本文將2數(shù)據(jù)挖掘技術(shù)在軍事情報(bào)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)引入到軍事情報(bào)分析模塊,并運(yùn)用適合的挖掘技術(shù)對(duì)大量的情報(bào)進(jìn)行分析,將有利于軍事情數(shù)據(jù)挖掘技術(shù)可以從海量數(shù)據(jù)中提取隱含的、潛報(bào)分析處理方法的進(jìn)一步改進(jìn)。在有用知識(shí),在軍事領(lǐng)域有大量的情報(bào)是以文本的形式存
6、在。因此,將挖掘文本數(shù)據(jù)的技術(shù)應(yīng)用到軍事情報(bào)1數(shù)據(jù)挖掘技術(shù)領(lǐng)域,能夠節(jié)省指揮員分析情報(bào)的時(shí)間及減少人為分?jǐn)?shù)據(jù)挖掘(DataMining,DM)技術(shù)可以幫助用戶從析情報(bào)的誤差。龐大的的數(shù)據(jù)中獲取非顯性的、潛在的有用信息,從而2.1軍事領(lǐng)域中數(shù)據(jù)挖掘框架結(jié)構(gòu)圖[1-3][7]為用戶決策提供依據(jù)。數(shù)據(jù)挖掘的常用方法主要包數(shù)據(jù)挖掘技術(shù)主要是面向應(yīng)用的。本文結(jié)合數(shù)據(jù)括:關(guān)聯(lián)規(guī)則分析法,聚類或分類分析法,分布與趨勢(shì)挖掘技術(shù)在其他領(lǐng)域中的體系結(jié)構(gòu)特點(diǎn),給出了數(shù)據(jù)預(yù)測(cè)分析法。挖掘在軍事領(lǐng)域中的框架結(jié)構(gòu),如圖1所示。在該框架收稿日期:2012-08-22作者簡(jiǎn)介:呂曹芳(1979-),女,安徽
7、壽縣人,講師,碩士,研究方向:數(shù)據(jù)挖掘。侯智斌(1984-),山西晉中人,講師,碩士,研究方向:數(shù)據(jù)處理。第20卷第6期呂曹芳等:基于文本情報(bào)的數(shù)據(jù)挖掘·33·[10-11]結(jié)構(gòu)中主要分三大模塊:需求分析模塊、預(yù)處理和挖掘過(guò)程。模塊及應(yīng)用選擇模塊。需求分析模塊,是根據(jù)作戰(zhàn)需求文本關(guān)聯(lián)是指從文本集合中找出不同詞語(yǔ)之間的確定分析領(lǐng)域。預(yù)處理和挖掘模塊,是根據(jù)挖掘領(lǐng)域數(shù)聯(lián)系。用戶可以以關(guān)鍵字詞集合代替每個(gè)文檔進(jìn)而通過(guò)據(jù)的特點(diǎn)及選定的挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,用關(guān)鍵字自動(dòng)標(biāo)識(shí)文檔。用戶可以根據(jù)實(shí)際情況給出得