基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究

ID:32966155

大小:2.40 MB

頁(yè)數(shù):82頁(yè)

時(shí)間:2019-02-18

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第1頁(yè)
基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第2頁(yè)
基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第3頁(yè)
基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第4頁(yè)
基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第5頁(yè)
資源描述:

《基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、華東師范大學(xué)碩士學(xué)位論文基于XML和Web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究姓名:曹春靜申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:王新偉20071001論文摘要近十幾年來(lái),隨著Intemet的迅速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)越來(lái)越趨于龐大。怎樣能夠有效地利用這些復(fù)雜而無(wú)章的Web數(shù)據(jù)、從中發(fā)掘出有價(jià)值的信息成了現(xiàn)今的研究熱點(diǎn)。隨著XML的不斷發(fā)展,互聯(lián)網(wǎng)上越來(lái)越多的信息都開始使用XML表示。XML以其可擴(kuò)展、平臺(tái)獨(dú)立、靈活、規(guī)范和簡(jiǎn)單等特點(diǎn)以及強(qiáng)大的數(shù)據(jù)表達(dá)能力,在網(wǎng)絡(luò)和其他領(lǐng)域的數(shù)據(jù)表示和交換方面都扮演著越來(lái)越重要的角

2、色。因此,人們迫切地需要尋找一些有效的方法從這些大量的XML數(shù)據(jù)中提取一些潛在的、有價(jià)值的信息和知識(shí)。但是Web上的XML數(shù)據(jù)非常復(fù)雜,沒(méi)有特定的模型描述數(shù)據(jù),是半結(jié)構(gòu)化的甚至是無(wú)結(jié)構(gòu)的數(shù)據(jù)。所以,面向XML的數(shù)據(jù)挖掘技術(shù)有著不同于傳統(tǒng)數(shù)據(jù)庫(kù)上的數(shù)據(jù)挖掘技術(shù)的特點(diǎn)。它對(duì)半結(jié)構(gòu)化數(shù)據(jù)的集成和組織,對(duì)挖掘算法的性能都提出了新的挑戰(zhàn)。本文根據(jù)Web上XML數(shù)據(jù)的半結(jié)構(gòu)化的特點(diǎn)以及XML查詢語(yǔ)言XQuery、.NETDOM對(duì)XML操作的支持,針對(duì)如何直接從XML數(shù)據(jù)中提取有價(jià)值的關(guān)聯(lián)規(guī)則進(jìn)行了探索性研究。論文首先對(duì)

3、XQuery實(shí)現(xiàn)的Apriod算法作了比較深入的研究,針對(duì)Apriori算法不適應(yīng)挖掘結(jié)構(gòu)復(fù)雜不規(guī)則的XML文檔數(shù)據(jù)和挖掘大規(guī)模的XML文檔數(shù)據(jù)效率不高的局限分別作了相應(yīng)地改進(jìn)。實(shí)驗(yàn)表明,改進(jìn)后的算法能夠有效地從XML數(shù)據(jù)中抽取關(guān)聯(lián)規(guī)則。其次,論文也重點(diǎn)探討了如何使用.NETDOM對(duì)XML數(shù)據(jù)進(jìn)行直接關(guān)聯(lián)規(guī)則挖掘。.NETDOM采用面向?qū)ο髾C(jī)制將對(duì)XML的操作封裝成類庫(kù),用其實(shí)現(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法更符合人類的思維方式,更容易理解。而且,.NETDOM實(shí)現(xiàn)的算法的可視化更強(qiáng),算法編譯執(zhí)行,速度更快。此外,論文

4、從電子商務(wù)網(wǎng)站的購(gòu)物籃數(shù)據(jù)中抽取了一部分典型的挖掘數(shù)據(jù),構(gòu)造了具體的實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)的結(jié)果對(duì)上述兩種算法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,在不同的環(huán)境需求下,兩種算法有著各自的強(qiáng)勢(shì)和劣勢(shì),從而可以指導(dǎo)人們?cè)谖磥?lái)XML的關(guān)聯(lián)規(guī)則挖掘過(guò)程中,應(yīng)該根據(jù)不同的需求和挖掘環(huán)境選擇不同的挖掘方法,才能使數(shù)據(jù)挖掘的效率和性能得到優(yōu)化。最后,本文提出了一個(gè)基于XML和關(guān)聯(lián)規(guī)則挖掘的Web挖掘系統(tǒng)的五層架構(gòu)模型,對(duì)該模型的各個(gè)功能模塊進(jìn)行了詳細(xì)地介紹。并且根據(jù)該模型,設(shè)計(jì)了一個(gè)面向電子商務(wù)網(wǎng)站的基于XML的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)

5、模塊。該模塊能夠處理多種數(shù)據(jù)源,支持多種關(guān)聯(lián)規(guī)則挖掘算法以及挖掘結(jié)果的可視化表達(dá),具有綜合性和可擴(kuò)展性的特點(diǎn)。關(guān)鍵字l關(guān)聯(lián)規(guī)則,XML,XQuery,Apriod算法,.NETDOM,Web挖掘基于XML和Web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究ABSTRACTIntheRecentyears,becauseofthefastdevelopmentofInternet,moreandmoredatahasbeengeneratedontheWeb.Howtomakegreatuseofthenewknowledgean

6、dimprovetheutilityoftheinformationbecomesabigchallenge.AlongwiththeimprovementoftheXMLtechnology,moreandmoreWebdatabegantoberepresentedusingXML.XMLisplayinganincreasinglyimportantroleintheexchangeandrepresentofawidevarietyofdataontheWebandelsewhereduetoits

7、expansibility,platform—independence,flexibility,simpleness,standardizationandpowerfulabilityforrepresentingdata.So.therehavebeenincreasingdemandsforefficientmethodsthatcanextractrulesandpaffemsfromXMLdata.HoweveEtheXMLdataontheWebistoocomplexandsemi-struct

8、uredwithnocertaindescdptionpaffern.Thus,wecannotdirectlyapplytoXMLdatawiththetraditionaldataminingmethodsforrelationaldatabases.Hence,itisagreatchallengetodevelopefficientandscalablemethodsforXMLdatamining.Ba

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。