試析基于xml的web文本數(shù)據(jù)挖掘研究

試析基于xml的web文本數(shù)據(jù)挖掘研究

ID:34817918

大?。?.02 MB

頁數(shù):62頁

時間:2019-03-11

試析基于xml的web文本數(shù)據(jù)挖掘研究_第1頁
試析基于xml的web文本數(shù)據(jù)挖掘研究_第2頁
試析基于xml的web文本數(shù)據(jù)挖掘研究_第3頁
試析基于xml的web文本數(shù)據(jù)挖掘研究_第4頁
試析基于xml的web文本數(shù)據(jù)挖掘研究_第5頁
資源描述:

《試析基于xml的web文本數(shù)據(jù)挖掘研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、西南大學(xué)碩士學(xué)位論文基于XML的Web文本數(shù)據(jù)挖掘研究姓名:王禮剛申請學(xué)位級別:碩士專業(yè):農(nóng)業(yè)機械化工程指導(dǎo)教師:左源瑞;楊國才20070501摘要基于XML的Web文本數(shù)據(jù)挖掘研究農(nóng)業(yè)機械化工程專業(yè)碩士研究生王禮剛指導(dǎo)教師左源瑞副教授楊國才教授摘要網(wǎng)絡(luò)技術(shù)已經(jīng)滲透到了社會生活的方方面面,隨著lmemet在世界范圍內(nèi)的迅速發(fā)展,越來越多的數(shù)據(jù)庫和信息系統(tǒng)不斷加入網(wǎng)絡(luò)。使得Interact發(fā)展為當(dāng)今世界上fJ類最全、規(guī)模最大的信息庫。伴隨計算能力的增長及大規(guī)模數(shù)據(jù)存儲技術(shù)的成熟,面對Internet的信息快速增長,目前我們面臨的情況是一方面用戶對快速、準(zhǔn)確地獲得所需要

2、的信息的渴望,另一方面是Imernet上信息量的巨大以及信息內(nèi)容結(jié)構(gòu)的復(fù)雜性,使得處理這些信息具有很多凼難。為了解決這個矛盾,Web數(shù)據(jù)挖掘成為解決這個問題的一個有效手段之一。目前,Web數(shù)據(jù)挖掘的研究正處在不斷發(fā)展的階段,需要在理論、實現(xiàn)方法與技術(shù)上進行大鼙的研究。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)針對的主要都是結(jié)構(gòu)化數(shù)據(jù),尤其是關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫。Web數(shù)據(jù)挖掘面對的是Web上的數(shù)據(jù),而Web是一個無集中控制、無統(tǒng)一結(jié)構(gòu)、無完整性約束、無事務(wù)管理、無標(biāo)準(zhǔn)查詢語言和數(shù)據(jù)模型、可無限擴充的松散的分布式信息系統(tǒng)。在此基礎(chǔ)上進行數(shù)據(jù)挖掘存在很多困難。XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的

3、難題帶來了一個新的機會。本文就是提出利用XML技術(shù)來解決Web數(shù)據(jù)挖掘面臨的問題。本文對基于XML的Web文本數(shù)據(jù)抽取技術(shù)進行Web文本數(shù)據(jù)挖掘作了深入的研究。本文首先介紹了數(shù)據(jù)挖掘的一些相關(guān)理論,并介紹了國內(nèi)外有關(guān)數(shù)據(jù)挖掘發(fā)展情況。在論述了數(shù)據(jù)挖掘技術(shù)理論之后,研究了數(shù)據(jù)挖掘技術(shù)在Web上的應(yīng)用即Web數(shù)據(jù)挖抽I},其中,闡述了XML的產(chǎn)生與發(fā)展、特點以及相關(guān)的技術(shù)規(guī)范。在Web上的半結(jié)構(gòu)化數(shù)據(jù)處理上。利用XML技術(shù)將進行文本數(shù)據(jù)的數(shù)據(jù)抽取,建立了一個基于XML的Web文本數(shù)據(jù)挖掘模型,從而幫助人們更有效地從Web上獲取知識。Web文本預(yù)處理的結(jié)果對Web文本數(shù)據(jù)

4、挖掘的質(zhì)量和效率有著很重要的影響,因此,Web文本預(yù)處理階段是至關(guān)重要的.需要進行詳細而完善的研究。論文對Web文本預(yù)處理的過程和方法進行了深入的研究,提出用XML技術(shù)將Web頁面上的信息進行結(jié)構(gòu)化,進而再將這些Web文本表示成計算機能夠處理的形式,提取出對文本挖掘有朋的信息,縮減數(shù)據(jù)量,從而實現(xiàn)Web文本數(shù)據(jù)的抽取,并為Web文本數(shù)據(jù)挖掘打下了堅實的基礎(chǔ)。本文構(gòu)建的基于XML的Web文本挖掘模型主要包含了Web文本預(yù)處理和Web文本數(shù)據(jù)挖掘的功能,它的優(yōu)點在于它利用XML技術(shù)得到能夠準(zhǔn)確表達文本內(nèi)容集合,使Web文本數(shù)據(jù)挖掘處理的數(shù)據(jù)更加精煉。同時本文也探索了實現(xiàn)

5、了XML到數(shù)據(jù)庫模式的轉(zhuǎn)化過程,從而也就把基于XML的Web數(shù)據(jù)挖掘與傳統(tǒng)的基于關(guān)系數(shù)據(jù)模式的數(shù)據(jù)挖掘算法建立了聯(lián)系。最后,文中通過一個具體的實例主要驗證了利用XML實現(xiàn)Web文本數(shù)據(jù)抽取的有效性。關(guān)鍵詞:數(shù)據(jù)挖掘XMLWeb文本數(shù)據(jù)抽取AbstractThenetworktechnologyhaspenetratedinallsidesofthesociety.WiththerapiddevelopmentofInternetallovertheworld,moreandmoredatabaseandinformationsystememerged,whichma

6、keIntemetbecomethelargestdatabaseintermsofitsvarietyandsize.Thegrowthofcomputingcapabilityandthedevelopmentoflargescaledatastoringtechnologydrivepeopletoaffrontdifficultsituation.Ononehand,usersyearnfurnecessaryinformationquicklyandappropriately.Ontheotherhand,thehugeinformationandcomp

7、lexityoftheinformationmakeinformationhandlingalittlebitdifficult.Inordertosolvetheproblem,WebDataMiningisoneoftheeffectivewaysoftheproblemsolving.Atpresent,researchofWebDataMining,whichneedsdeeperstudytheoretically,realisticallyandtechnically,isstillunderinvestigation.Thefocusoftradi

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。