資源描述:
《基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、華東師范大學(xué)碩士學(xué)位論文基于XML和Web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究姓名:曹春靜申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:王新偉20071001論文摘要近十幾年來(lái),隨著Intemet的迅速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)越來(lái)越趨于龐大。怎樣能夠有效地利用這些復(fù)雜而無(wú)章的Web數(shù)據(jù)、從中發(fā)掘出有價(jià)值的信息成了現(xiàn)今的研究熱點(diǎn)。隨著XML的不斷發(fā)展,互聯(lián)網(wǎng)上越來(lái)越多的信息都開始使用XML表示。XML以其可擴(kuò)展、平臺(tái)獨(dú)立、靈活、規(guī)范和簡(jiǎn)單等特點(diǎn)以及強(qiáng)大的數(shù)據(jù)表達(dá)能力,在網(wǎng)絡(luò)和其他領(lǐng)域的數(shù)據(jù)表示和交換方面都扮演著越來(lái)越重要的角
2、色。因此,人們迫切地需要尋找一些有效的方法從這些大量的XML數(shù)據(jù)中提取一些潛在的、有價(jià)值的信息和知識(shí)。但是Web上的XML數(shù)據(jù)非常復(fù)雜,沒(méi)有特定的模型描述數(shù)據(jù),是半結(jié)構(gòu)化的甚至是無(wú)結(jié)構(gòu)的數(shù)據(jù)。所以,面向XML的數(shù)據(jù)挖掘技術(shù)有著不同于傳統(tǒng)數(shù)據(jù)庫(kù)上的數(shù)據(jù)挖掘技術(shù)的特點(diǎn)。它對(duì)半結(jié)構(gòu)化數(shù)據(jù)的集成和組織,對(duì)挖掘算法的性能都提出了新的挑戰(zhàn)。本文根據(jù)Web上XML數(shù)據(jù)的半結(jié)構(gòu)化的特點(diǎn)以及XML查詢語(yǔ)言XQuery、.NETDOM對(duì)XML操作的支持,針對(duì)如何直接從XML數(shù)據(jù)中提取有價(jià)值的關(guān)聯(lián)規(guī)則進(jìn)行了探索性研究。論文首先對(duì)
3、XQuery實(shí)現(xiàn)的Apriod算法作了比較深入的研究,針對(duì)Apriori算法不適應(yīng)挖掘結(jié)構(gòu)復(fù)雜不規(guī)則的XML文檔數(shù)據(jù)和挖掘大規(guī)模的XML文檔數(shù)據(jù)效率不高的局限分別作了相應(yīng)地改進(jìn)。實(shí)驗(yàn)表明,改進(jìn)后的算法能夠有效地從XML數(shù)據(jù)中抽取關(guān)聯(lián)規(guī)則。其次,論文也重點(diǎn)探討了如何使用.NETDOM對(duì)XML數(shù)據(jù)進(jìn)行直接關(guān)聯(lián)規(guī)則挖掘。.NETDOM采用面向?qū)ο髾C(jī)制將對(duì)XML的操作封裝成類庫(kù),用其實(shí)現(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法更符合人類的思維方式,更容易理解。而且,.NETDOM實(shí)現(xiàn)的算法的可視化更強(qiáng),算法編譯執(zhí)行,速度更快。此外,論文
4、從電子商務(wù)網(wǎng)站的購(gòu)物籃數(shù)據(jù)中抽取了一部分典型的挖掘數(shù)據(jù),構(gòu)造了具體的實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)的結(jié)果對(duì)上述兩種算法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,在不同的環(huán)境需求下,兩種算法有著各自的強(qiáng)勢(shì)和劣勢(shì),從而可以指導(dǎo)人們?cè)谖磥?lái)XML的關(guān)聯(lián)規(guī)則挖掘過(guò)程中,應(yīng)該根據(jù)不同的需求和挖掘環(huán)境選擇不同的挖掘方法,才能使數(shù)據(jù)挖掘的效率和性能得到優(yōu)化。最后,本文提出了一個(gè)基于XML和關(guān)聯(lián)規(guī)則挖掘的Web挖掘系統(tǒng)的五層架構(gòu)模型,對(duì)該模型的各個(gè)功能模塊進(jìn)行了詳細(xì)地介紹。并且根據(jù)該模型,設(shè)計(jì)了一個(gè)面向電子商務(wù)網(wǎng)站的基于XML的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)
5、模塊。該模塊能夠處理多種數(shù)據(jù)源,支持多種關(guān)聯(lián)規(guī)則挖掘算法以及挖掘結(jié)果的可視化表達(dá),具有綜合性和可擴(kuò)展性的特點(diǎn)。關(guān)鍵字l關(guān)聯(lián)規(guī)則,XML,XQuery,Apriod算法,.NETDOM,Web挖掘基于XML和Web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究ABSTRACTIntheRecentyears,becauseofthefastdevelopmentofInternet,moreandmoredatahasbeengeneratedontheWeb.Howtomakegreatuseofthenewknowledgean
6、dimprovetheutilityoftheinformationbecomesabigchallenge.AlongwiththeimprovementoftheXMLtechnology,moreandmoreWebdatabegantoberepresentedusingXML.XMLisplayinganincreasinglyimportantroleintheexchangeandrepresentofawidevarietyofdataontheWebandelsewhereduetoits
7、expansibility,platform—independence,flexibility,simpleness,standardizationandpowerfulabilityforrepresentingdata.So.therehavebeenincreasingdemandsforefficientmethodsthatcanextractrulesandpaffemsfromXMLdata.HoweveEtheXMLdataontheWebistoocomplexandsemi-struct
8、uredwithnocertaindescdptionpaffern.Thus,wecannotdirectlyapplytoXMLdatawiththetraditionaldataminingmethodsforrelationaldatabases.Hence,itisagreatchallengetodevelopefficientandscalablemethodsforXMLdatamining.Ba