資源描述:
《基于概念格的序列模式發(fā)現(xiàn)研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于概念格的序列模式發(fā)現(xiàn)研究與實(shí)現(xiàn)摘要概念格是一種完備的數(shù)學(xué)模型,描述了概念內(nèi)涵與外延之間以及泛化與例化之間的關(guān)系,因而適用于數(shù)據(jù)和知識(shí)的表示以及包括分類、關(guān)聯(lián)、序列和聚類等多種知識(shí)發(fā)現(xiàn)問題的描述。隨著數(shù)據(jù)規(guī)模的迅速增長,概念格的分布式構(gòu)造成為重要的研究內(nèi)容。本文研究了概念格的分布式/并行構(gòu)造方法和概念格模型應(yīng)用于序列模式挖掘時(shí)的約簡算法,以提高算法的效率,使得算法適用于更大規(guī)模的數(shù)據(jù)庫。本文的主要工作如下:(1)研究了一種基于索引的概念格分布式構(gòu)造方法一一LCBI。構(gòu)造時(shí)主站點(diǎn)先將形式背景劃分并發(fā)送至從站點(diǎn),從站點(diǎn)建好子格后發(fā)送回主站點(diǎn)進(jìn)行合并。合并時(shí)主站點(diǎn)找出當(dāng)前插入概念
2、的極大相關(guān)概念后自項(xiàng)向下并行地搜索,直至找出它們兩兩間的交叉子概念。插入時(shí)只需比較極大相關(guān)概念和它們的交叉子概念,以減少比較的范圍,提高建格效率。(2)研究了一種基于概念近似度約簡的序列模式挖掘算法。該算法基于概念近似度的定義,先對(duì)交易數(shù)據(jù)庫進(jìn)行建格,再約簡滿足近似條件的概念,以減少相似的頻繁卜序列的數(shù)量,從而減少總的相似頻繁序列的數(shù)量。實(shí)驗(yàn)證明,挖掘海量數(shù)據(jù)時(shí),在允許一定誤差的前提下,該算法顯著地提高了算法的效率和挖掘結(jié)果的可理解性。(3)設(shè)計(jì)并實(shí)現(xiàn)了基于概念格的序列模式挖掘原型系統(tǒng)GCLKDD。該系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊、概念格構(gòu)造模塊、概念格約簡模塊、序列模式挖掘模塊,可
3、以完成基于概念格和約簡概念格的序列模式挖掘任務(wù),也可以作為平臺(tái)進(jìn)行相應(yīng)擴(kuò)展。關(guān)鍵詞:知識(shí)發(fā)現(xiàn);數(shù)據(jù)挖掘;概念格;分布式構(gòu)造;序列模式挖掘ResearchandImplementOilSequentialPatternMiningbasedonConceptLatticeABSTRACTConceptlatticeisaperfectmathematicalmodelwhichdescribesknowledgewiththerelationbetweentheintensionsandextensionsofconcepts,andtherelationbetweentheg
4、eneralizationandspecializationofconcepts.It’Sgoodtoshowthedataandknowledgeanddescribemanyquestionsofknowledgediscovery,suchasclassification,associationrules,sequentialpatternsandclustering.Asthesizeofdatagrowingfast,thedistributedconstructingofconceptlatticebecomesanimportantresearchsubject
5、.Inthisdissertation,thedistributed/parallelconstructionofconceptlatticeandthesubjecyaboutreductioninthesequentialpatternsminingbasedontheconceptlatticearethemostimportantstudydomains.Theoryandexperimentalresultsshowthattheyoutperfo/Tnmuchbetterthantheotherswhendealingwithdensenesscontext.Th
6、econtributionsofthedissertationareasfollows:(1)Adistributedalgorithmforconstructingconceptlatticebasedonindexwasproposed.Theconstructprocesswasfollow:first,thecontextwascuttomulti-childcontextsbyprimarystandinline,thereforetheycanbesenttosecondarystandsinline,andtheconstructedchildlatticesc
7、anbesenttoprimarystandinlinetocombine.Itcanfindoutthegreatestcorrelativeconceptsrefertotheindextable.a(chǎn)ndtheprimarystandinlinecansearchthechildnodesofthegreatestcorrelativeconceptstopdowntogetthecommonchildnodes.Itonlyneedtocomparethenewnodewiththecommonc