試析基于xml的web文本數(shù)據(jù)挖掘研究

ID：34817918

大?。?.02 MB

頁數(shù)：62頁

時間：2019-03-11

資源描述：

《試析基于xml的web文本數(shù)據(jù)挖掘研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、西南大學(xué)碩士學(xué)位論文基于XML的Web文本數(shù)據(jù)挖掘研究姓名：王禮剛申請學(xué)位級別：碩士專業(yè)：農(nóng)業(yè)機械化工程指導(dǎo)教師：左源瑞;楊國才20070501摘要基于XML的Web文本數(shù)據(jù)挖掘研究農(nóng)業(yè)機械化工程專業(yè)碩士研究生王禮剛指導(dǎo)教師左源瑞副教授楊國才教授摘要網(wǎng)絡(luò)技術(shù)已經(jīng)滲透到了社會生活的方方面面，隨著lmemet在世界范圍內(nèi)的迅速發(fā)展，越來越多的數(shù)據(jù)庫和信息系統(tǒng)不斷加入網(wǎng)絡(luò)。使得Interact發(fā)展為當(dāng)今世界上fJ類最全、規(guī)模最大的信息庫。伴隨計算能力的增長及大規(guī)模數(shù)據(jù)存儲技術(shù)的成熟，面對Internet的信息快速增長，目前我們面臨的情況是一方面用戶對快速、準(zhǔn)確地獲得所需要

2、的信息的渴望，另一方面是Imernet上信息量的巨大以及信息內(nèi)容結(jié)構(gòu)的復(fù)雜性，使得處理這些信息具有很多凼難。為了解決這個矛盾，Web數(shù)據(jù)挖掘成為解決這個問題的一個有效手段之一。目前，Web數(shù)據(jù)挖掘的研究正處在不斷發(fā)展的階段，需要在理論、實現(xiàn)方法與技術(shù)上進行大鼙的研究。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)針對的主要都是結(jié)構(gòu)化數(shù)據(jù)，尤其是關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫。Web數(shù)據(jù)挖掘面對的是Web上的數(shù)據(jù)，而Web是一個無集中控制、無統(tǒng)一結(jié)構(gòu)、無完整性約束、無事務(wù)管理、無標(biāo)準(zhǔn)查詢語言和數(shù)據(jù)模型、可無限擴充的松散的分布式信息系統(tǒng)。在此基礎(chǔ)上進行數(shù)據(jù)挖掘存在很多困難。XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的

3、難題帶來了一個新的機會。本文就是提出利用XML技術(shù)來解決Web數(shù)據(jù)挖掘面臨的問題。本文對基于XML的Web文本數(shù)據(jù)抽取技術(shù)進行Web文本數(shù)據(jù)挖掘作了深入的研究。本文首先介紹了數(shù)據(jù)挖掘的一些相關(guān)理論，并介紹了國內(nèi)外有關(guān)數(shù)據(jù)挖掘發(fā)展情況。在論述了數(shù)據(jù)挖掘技術(shù)理論之后，研究了數(shù)據(jù)挖掘技術(shù)在Web上的應(yīng)用即Web數(shù)據(jù)挖抽I}，其中，闡述了XML的產(chǎn)生與發(fā)展、特點以及相關(guān)的技術(shù)規(guī)范。在Web上的半結(jié)構(gòu)化數(shù)據(jù)處理上。利用XML技術(shù)將進行文本數(shù)據(jù)的數(shù)據(jù)抽取，建立了一個基于XML的Web文本數(shù)據(jù)挖掘模型，從而幫助人們更有效地從Web上獲取知識。Web文本預(yù)處理的結(jié)果對Web文本數(shù)據(jù)

4、挖掘的質(zhì)量和效率有著很重要的影響，因此，Web文本預(yù)處理階段是至關(guān)重要的．需要進行詳細而完善的研究。論文對Web文本預(yù)處理的過程和方法進行了深入的研究，提出用XML技術(shù)將Web頁面上的信息進行結(jié)構(gòu)化，進而再將這些Web文本表示成計算機能夠處理的形式，提取出對文本挖掘有朋的信息，縮減數(shù)據(jù)量，從而實現(xiàn)Web文本數(shù)據(jù)的抽取，并為Web文本數(shù)據(jù)挖掘打下了堅實的基礎(chǔ)。本文構(gòu)建的基于XML的Web文本挖掘模型主要包含了Web文本預(yù)處理和Web文本數(shù)據(jù)挖掘的功能，它的優(yōu)點在于它利用XML技術(shù)得到能夠準(zhǔn)確表達文本內(nèi)容集合，使Web文本數(shù)據(jù)挖掘處理的數(shù)據(jù)更加精煉。同時本文也探索了實現(xiàn)

5、了XML到數(shù)據(jù)庫模式的轉(zhuǎn)化過程，從而也就把基于XML的Web數(shù)據(jù)挖掘與傳統(tǒng)的基于關(guān)系數(shù)據(jù)模式的數(shù)據(jù)挖掘算法建立了聯(lián)系。最后，文中通過一個具體的實例主要驗證了利用XML實現(xiàn)Web文本數(shù)據(jù)抽取的有效性。關(guān)鍵詞：數(shù)據(jù)挖掘XMLWeb文本數(shù)據(jù)抽取AbstractThenetworktechnologyhaspenetratedinallsidesofthesociety．WiththerapiddevelopmentofInternetallovertheworld，moreandmoredatabaseandinformationsystememerged，whichma

6、keIntemetbecomethelargestdatabaseintermsofitsvarietyandsize．Thegrowthofcomputingcapabilityandthedevelopmentoflargescaledatastoringtechnologydrivepeopletoaffrontdifficultsituation．Ononehand，usersyearnfurnecessaryinformationquicklyandappropriately．Ontheotherhand，thehugeinformationandcomp

7、lexityoftheinformationmakeinformationhandlingalittlebitdifficult．Inordertosolvetheproblem,WebDataMiningisoneoftheeffectivewaysoftheproblemsolving．Atpresent，researchofWebDataMining，whichneedsdeeperstudytheoretically,realisticallyandtechnically,isstillunderinvestigation．Thefocusoftradi

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 62



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

試析基于xml的web文本數(shù)據(jù)挖掘研究

試析基于xml的web文本數(shù)據(jù)挖掘研究

相關(guān)文章

相關(guān)標(biāo)簽