資源描述:
《基于xml數(shù)據(jù)的模式發(fā)現(xiàn)和存儲(chǔ)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、東南大學(xué)碩士學(xué)位論文基于XML數(shù)據(jù)的模式發(fā)現(xiàn)和存儲(chǔ)研究姓名:牛天耘申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用指導(dǎo)教師:孫志揮20040301基于XML數(shù)據(jù)的模式發(fā)現(xiàn)和存儲(chǔ)研究摘要作為一種簡(jiǎn)單的、開放的、可擴(kuò)充的自描述語言,心L不僅成為Interact,上數(shù)據(jù)表示與交換的標(biāo)準(zhǔn),而且被應(yīng)用于搜索引擎、電子商務(wù)、電子數(shù)據(jù)交換蔣很多方面,受到了廣泛的重視。xhIL文檔的模式抽取以及數(shù)據(jù)存儲(chǔ)問題,是XML相關(guān)研究工作中的重要內(nèi)容,直接影響著XML的使用效率和功能發(fā)揮。本文論述了頻繁模式挖掘工作的意義和作用,介紹了若干用于頻繁模式挖掘的算法,并在現(xiàn)有的頻繁樹結(jié)構(gòu)挖掘算法一一wL算法的基礎(chǔ)上,結(jié)合XML數(shù)
2、據(jù)模型XOEM和壓縮結(jié)構(gòu)樹的存儲(chǔ)結(jié)構(gòu).對(duì)挖掘過程中候選模式的剪枝策略進(jìn)行了改進(jìn),提出了~種高教的xML頻繁模式發(fā)現(xiàn)算法一--XFPD算法。同時(shí),本文進(jìn)一步研究了XFPD算法所產(chǎn)生頻繁模式的形式化描述工作,使得XML頻繁模式可以轉(zhuǎn)化為相應(yīng)的DTD格式,并提出了DTD到關(guān)系模式的轉(zhuǎn)換和優(yōu)化策略,用于有效的存儲(chǔ)頻繁模式數(shù)據(jù),對(duì)頻繁模式外剩余數(shù)據(jù)的存儲(chǔ)方法也進(jìn)行了相應(yīng)的討論。利用以上生成的關(guān)系模式,本文還提出了XML數(shù)據(jù)自動(dòng)導(dǎo)入方法,以實(shí)現(xiàn)XML到關(guān)系數(shù)據(jù)庫的有效存儲(chǔ)。本文從理論和實(shí)驗(yàn)兩方面證明了在挖掘XIIIL頻繁模式時(shí)。XFPD算法比wL算法具有更加良好的性能,并通過一個(gè)原型系統(tǒng)的實(shí)現(xiàn),
3、驗(yàn)證了本文提出的XML數(shù)據(jù)存儲(chǔ)方法的有效性和可行性。關(guān)鍵詞:XML,DTD,頻繁模式挖掘,數(shù)據(jù)存儲(chǔ),關(guān)系數(shù)據(jù)庫,關(guān)系模式東南大學(xué)碩士學(xué)位論文AbstractAsakindofsimple,openandextensibleself-describinglanguage,XMLisnOtonlyanemergingInternetstandardfordatarepresentationandexchange,butalsoappliedtoIntematsearchengines,electroniccommerce,EDI,etc.Sosuchattentionhasbeenpai
4、dtoXML.HowtoextractschemafromXMLdocumentsandstoreXMLdataisanessentialprobleminXML-relatedresearch,whichdirectlyaffectstheefficiencyandfunctionofXMLdocuments.Inthispaper,wediscussthemeaningoffrequentpaRemminingtasks,andintroduceaseriesoffrequentpattemminingalgorithms.Basedontheexistingfrequenttr
5、eestructureminingalgorithm--WL,wepresenttheXMLdatamodelXOEMandcompressedstructuretree,improvethepruningstrategiesofcandidatesandthenbringforwardaneffectivealgorithmforXMLfrequentpatterndiscovery--XFPD.Afterthat,wefurtherresearchontheformalizationoffrequentpatternsproducedbyXFPD,whichtransformsX
6、MLfrequentpatternstocorrespondingDTDs.ThemappingandoptimizingstrategiesforthegenerationofrelationalschemafromDTDareintroducedtostorefrequentpatterndata.Theproblemofhowtostoreoverflowdataoutoffrequentpatternsisalsodiscussed.Usingtherelationalschemasgeneratedasabove,wepresenttheautomaticimporting
7、methodofXMLdataandimplementefficientstorageofXMLdatainrelationaldatabases.ThispaperprovesthatXFPDhasbetterperformancethanWLintheworkofminingXMLfrequentpatternstheoreticallyandexperimentally,andgivesaproofofthevalidityandfeasibilit