基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究

ID：32966155

大小：2.40 MB

頁(yè)數(shù)：82頁(yè)

時(shí)間：2019-02-18

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第1頁(yè)

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第2頁(yè)

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第3頁(yè)

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第4頁(yè)

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究_第5頁(yè)

資源描述：

《基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、華東師范大學(xué)碩士學(xué)位論文基于XML和Web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究姓名：曹春靜申請(qǐng)學(xué)位級(jí)別：碩士專業(yè)：計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師：王新偉20071001論文摘要近十幾年來(lái)，隨著Intemet的迅速發(fā)展，互聯(lián)網(wǎng)上的數(shù)據(jù)越來(lái)越趨于龐大。怎樣能夠有效地利用這些復(fù)雜而無(wú)章的Web數(shù)據(jù)、從中發(fā)掘出有價(jià)值的信息成了現(xiàn)今的研究熱點(diǎn)。隨著XML的不斷發(fā)展，互聯(lián)網(wǎng)上越來(lái)越多的信息都開始使用XML表示。XML以其可擴(kuò)展、平臺(tái)獨(dú)立、靈活、規(guī)范和簡(jiǎn)單等特點(diǎn)以及強(qiáng)大的數(shù)據(jù)表達(dá)能力，在網(wǎng)絡(luò)和其他領(lǐng)域的數(shù)據(jù)表示和交換方面都扮演著越來(lái)越重要的角

2、色。因此，人們迫切地需要尋找一些有效的方法從這些大量的XML數(shù)據(jù)中提取一些潛在的、有價(jià)值的信息和知識(shí)。但是Web上的XML數(shù)據(jù)非常復(fù)雜，沒(méi)有特定的模型描述數(shù)據(jù)，是半結(jié)構(gòu)化的甚至是無(wú)結(jié)構(gòu)的數(shù)據(jù)。所以，面向XML的數(shù)據(jù)挖掘技術(shù)有著不同于傳統(tǒng)數(shù)據(jù)庫(kù)上的數(shù)據(jù)挖掘技術(shù)的特點(diǎn)。它對(duì)半結(jié)構(gòu)化數(shù)據(jù)的集成和組織，對(duì)挖掘算法的性能都提出了新的挑戰(zhàn)。本文根據(jù)Web上XML數(shù)據(jù)的半結(jié)構(gòu)化的特點(diǎn)以及XML查詢語(yǔ)言XQuery、．NETDOM對(duì)XML操作的支持，針對(duì)如何直接從XML數(shù)據(jù)中提取有價(jià)值的關(guān)聯(lián)規(guī)則進(jìn)行了探索性研究。論文首先對(duì)

3、XQuery實(shí)現(xiàn)的Apriod算法作了比較深入的研究，針對(duì)Apriori算法不適應(yīng)挖掘結(jié)構(gòu)復(fù)雜不規(guī)則的XML文檔數(shù)據(jù)和挖掘大規(guī)模的XML文檔數(shù)據(jù)效率不高的局限分別作了相應(yīng)地改進(jìn)。實(shí)驗(yàn)表明，改進(jìn)后的算法能夠有效地從XML數(shù)據(jù)中抽取關(guān)聯(lián)規(guī)則。其次，論文也重點(diǎn)探討了如何使用．NETDOM對(duì)XML數(shù)據(jù)進(jìn)行直接關(guān)聯(lián)規(guī)則挖掘。．NETDOM采用面向?qū)ο髾C(jī)制將對(duì)XML的操作封裝成類庫(kù)，用其實(shí)現(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法更符合人類的思維方式，更容易理解。而且，．NETDOM實(shí)現(xiàn)的算法的可視化更強(qiáng)，算法編譯執(zhí)行，速度更快。此外，論文

4、從電子商務(wù)網(wǎng)站的購(gòu)物籃數(shù)據(jù)中抽取了一部分典型的挖掘數(shù)據(jù)，構(gòu)造了具體的實(shí)驗(yàn)，根據(jù)實(shí)驗(yàn)的結(jié)果對(duì)上述兩種算法的優(yōu)缺點(diǎn)進(jìn)行了對(duì)比分析。實(shí)驗(yàn)結(jié)果表明，在不同的環(huán)境需求下，兩種算法有著各自的強(qiáng)勢(shì)和劣勢(shì)，從而可以指導(dǎo)人們?cè)谖磥?lái)XML的關(guān)聯(lián)規(guī)則挖掘過(guò)程中，應(yīng)該根據(jù)不同的需求和挖掘環(huán)境選擇不同的挖掘方法，才能使數(shù)據(jù)挖掘的效率和性能得到優(yōu)化。最后，本文提出了一個(gè)基于XML和關(guān)聯(lián)規(guī)則挖掘的Web挖掘系統(tǒng)的五層架構(gòu)模型，對(duì)該模型的各個(gè)功能模塊進(jìn)行了詳細(xì)地介紹。并且根據(jù)該模型，設(shè)計(jì)了一個(gè)面向電子商務(wù)網(wǎng)站的基于XML的關(guān)聯(lián)規(guī)則挖掘系統(tǒng)

5、模塊。該模塊能夠處理多種數(shù)據(jù)源，支持多種關(guān)聯(lián)規(guī)則挖掘算法以及挖掘結(jié)果的可視化表達(dá)，具有綜合性和可擴(kuò)展性的特點(diǎn)。關(guān)鍵字l關(guān)聯(lián)規(guī)則，XML，XQuery，Apriod算法，．NETDOM，Web挖掘基于XML和Web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究ABSTRACTIntheRecentyears，becauseofthefastdevelopmentofInternet，moreandmoredatahasbeengeneratedontheWeb．Howtomakegreatuseofthenewknowledgean

6、dimprovetheutilityoftheinformationbecomesabigchallenge．AlongwiththeimprovementoftheXMLtechnology,moreandmoreWebdatabegantoberepresentedusingXML．XMLisplayinganincreasinglyimportantroleintheexchangeandrepresentofawidevarietyofdataontheWebandelsewhereduetoits

7、expansibility,platform—independence，flexibility,simpleness，standardizationandpowerfulabilityforrepresentingdata．So．therehavebeenincreasingdemandsforefficientmethodsthatcanextractrulesandpaffemsfromXMLdata．HoweveEtheXMLdataontheWebistoocomplexandsemi-struct

8、uredwithnocertaindescdptionpaffern．Thus，wecannotdirectlyapplytoXMLdatawiththetraditionaldataminingmethodsforrelationaldatabases．Hence，itisagreatchallengetodevelopefficientandscalablemethodsforXMLdatamining．Ba

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 82



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究

基于xml和web數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究

相關(guān)文章

相關(guān)標(biāo)簽