xml與web數(shù)據(jù)挖掘

xml與web數(shù)據(jù)挖掘

ID:34408941

大?。?9.12 KB

頁數(shù):3頁

時間:2019-03-05

xml與web數(shù)據(jù)挖掘_第1頁
xml與web數(shù)據(jù)挖掘_第2頁
xml與web數(shù)據(jù)挖掘_第3頁
資源描述:

《xml與web數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、2005/21 總第329期商業(yè)研究COMMERCIALRESEARCH文章編號:1001-148X(2005)21-0206-03XML與Web數(shù)據(jù)挖掘謝蘭云(東北財經(jīng)大學(xué)經(jīng)濟信息系,遼寧大連 116023)摘要:互聯(lián)網(wǎng)時代,絕大多數(shù)信息都來自于Internet,數(shù)據(jù)挖掘的對象將更側(cè)重于Web數(shù)據(jù)挖掘,但是Web頁面上的信息并不適合進行數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘存在的種種問題,而XML的出現(xiàn)為解決這些問題提供了契機。關(guān)鍵詞:Web數(shù)據(jù)挖掘;XML;數(shù)據(jù)庫中圖分類號:F224133    文獻標(biāo)識碼:AXMLandWebDataMiningXI

2、ELan2yun(DepartmentofEconomicInformation,DongbeiUniversityofFinanceandEconomy,Dalian,Liaoning116023,China)Abstract:Ininternetera,alargeamountofinformationcomesfrominternetinwhichtheemphasisiswebdatamining1Buttherestillexistsomeproblemsinwebdatamining1However,XMLcanbeusedtos

3、olvetheseproblemsinpractice.Keywords:webdatamining;XML;database的Web頁面中,而Web頁面缺乏統(tǒng)一的結(jié)構(gòu),所以一、引言面向Web的數(shù)據(jù)挖掘目前所面臨的主要問題包括如隨著信息技術(shù)的迅猛發(fā)展,計算機在各行各業(yè)都下幾個方面:得到了廣泛的應(yīng)用,特別是在一些如銀行、保險等較(一)異構(gòu)數(shù)據(jù)庫環(huán)境早進行信息化的金融行業(yè),其數(shù)據(jù)庫或數(shù)據(jù)倉庫中積從數(shù)據(jù)庫研究的角度出發(fā),Web網(wǎng)站上的信息也累了大量的數(shù)據(jù),如何對這些數(shù)據(jù)進行利用,挖掘出可以看作是一個數(shù)據(jù)庫,是一個更大更復(fù)雜的數(shù)據(jù)知識,提煉成資源,并

4、最終創(chuàng)造出效益,是決策支持庫,Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)系統(tǒng)的重要工作。在進行決策支持過程中運用較多的源都是異構(gòu)的,因而每一站點之間的信息和組織都不數(shù)據(jù)分析工具就是數(shù)據(jù)挖掘技術(shù),特別是在電子商務(wù)一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。如果時代,絕大多數(shù)信息都來自于電子商務(wù)平臺,即In2想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,首先,必須研究站ternet,數(shù)據(jù)挖掘的對象將更側(cè)重于Web數(shù)據(jù)挖掘,點之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點的數(shù)據(jù)但Web頁面上的信息并不適合進行數(shù)據(jù)挖掘,解決都集成起來,提供給用戶一個統(tǒng)一的視圖,才有可能這一

5、問題已成為進行數(shù)據(jù)挖掘的當(dāng)務(wù)之急。從巨大的數(shù)據(jù)資源中獲取所需的東西。其次,還要解決Web上的數(shù)據(jù)查詢問題,因為如果所需的數(shù)據(jù)不二、Web數(shù)據(jù)挖掘所面臨的問題能很有效地得到,對這些數(shù)據(jù)進行分析、集成、處理所謂數(shù)據(jù)挖掘是應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫或就無從談起。數(shù)據(jù)倉庫的數(shù)據(jù)中提取人們感興趣的信息和知識,這(二)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)些知識或信息是隱含的、事先未知而潛在有用的,提Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同,傳取的知識表示為概念、規(guī)則、規(guī)律模式等形式。而統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)模型來具Web數(shù)據(jù)挖掘就是從Web文件和Web活動

6、中篩選感體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜,沒興趣的、潛在的、有用的模式和隱藏信息。Web挖掘有特定的模型描述,每一站點的數(shù)據(jù)都各自獨立設(shè)的對象,如文本、圖形、圖像等數(shù)據(jù)分散在大量不同計,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性,因而收稿日期:2005-04-05?1995-2007TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.總第329期謝蘭云:XML與Web數(shù)據(jù)挖掘·207·Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存XML格式就能被另一種數(shù)據(jù)源有效地識別。在,從而是一種非

7、完全結(jié)構(gòu)化的數(shù)據(jù),也稱為半結(jié)構(gòu)(三)數(shù)據(jù)存儲格式不受顯示格式的制約化數(shù)據(jù),半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點。一般來說,一篇文檔包括三個要素:數(shù)據(jù)、結(jié)構(gòu)(三)解決半結(jié)構(gòu)化的數(shù)據(jù)源問題以及顯示方式。對于HTML來說,顯示方式內(nèi)嵌在數(shù)Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型據(jù)中,缺乏對數(shù)據(jù)結(jié)構(gòu)的描述,對于應(yīng)用程序理解文和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。解決Web檔內(nèi)容、抽取語義信息都有諸多不便。而XML把文上的異構(gòu)數(shù)據(jù)的集成與查詢問題,就必須用一個模型檔的三要素獨立開來,分別處理。它將顯示格式從數(shù)來清晰地描述Web上的數(shù)據(jù),針對Web上的數(shù)據(jù)

8、半據(jù)內(nèi)容中獨立出來,保存在樣式單文件(StyleSheet)結(jié)構(gòu)化的特點,尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型是解決中,這樣如果需要改變文檔的顯示方式,只要修改樣問題的關(guān)鍵所

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。