基于web數(shù)據(jù)挖掘技術(shù)研究

基于web數(shù)據(jù)挖掘技術(shù)研究

ID:24592364

大?。?8.12 KB

頁數(shù):7頁

時間:2018-11-15

基于web數(shù)據(jù)挖掘技術(shù)研究_第1頁
基于web數(shù)據(jù)挖掘技術(shù)研究_第2頁
基于web數(shù)據(jù)挖掘技術(shù)研究_第3頁
基于web數(shù)據(jù)挖掘技術(shù)研究_第4頁
基于web數(shù)據(jù)挖掘技術(shù)研究_第5頁
資源描述:

《基于web數(shù)據(jù)挖掘技術(shù)研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于Web數(shù)據(jù)挖掘技術(shù)研宄摘要:基于Web的數(shù)據(jù)挖掘是采用數(shù)據(jù)挖掘技術(shù)對網(wǎng)頁資源進(jìn)行挖掘的一個熱門研宄方向,此文分析了了網(wǎng)頁數(shù)據(jù)挖掘的概念、分類、挖掘原理以及相關(guān)技術(shù)。關(guān)鍵詞:數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;分類;挖掘技術(shù)中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2015)09-0016-02Abstract:WebbaseddataminingisahotresearchdirectionofWebpageminingresourcesusingthetechnologyofdatamining,thispaperanalysestheWebpagetheconc

2、eptofdatamining,classification,miningprincipleandrelatedtechnologyKeywords:datamining;webdatamining;classification;miningtechnology互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁中數(shù)據(jù)量迅速增加,如何從這么多的網(wǎng)頁信息中獲取有用的數(shù)據(jù)已經(jīng)成功數(shù)據(jù)挖掘領(lǐng)域的一個熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進(jìn)行信息獲取的一個重要渠道,尤其大量運(yùn)用與社會和科學(xué)的方方面面。一般來說數(shù)據(jù)挖掘主要利用計(jì)算機(jī)和相關(guān)的信息技術(shù),把有用的數(shù)據(jù)從海量的網(wǎng)頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運(yùn)用

3、?;诰W(wǎng)頁的數(shù)據(jù)挖掘是一門技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁中的大量數(shù)據(jù),也就是從網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)中發(fā)現(xiàn)隱含的模式[1]。1數(shù)據(jù)挖掘的特點(diǎn)1)數(shù)據(jù)挖掘的特點(diǎn)之一就是半結(jié)構(gòu)化,這個特別算是網(wǎng)頁數(shù)據(jù)挖掘的最大特點(diǎn)[2],因?yàn)榫W(wǎng)頁上的數(shù)據(jù)分布沒有規(guī)律,非常復(fù)雜,沒有任何固定的模式能夠很好的描述它的特點(diǎn)。因此稱它為半結(jié)構(gòu)化。2)數(shù)據(jù)挖掘的特點(diǎn)之二是網(wǎng)頁中的數(shù)據(jù)比較分散,這些網(wǎng)頁數(shù)據(jù)存在世界各地的很多服務(wù)器上,因此是一種數(shù)據(jù)源分散的結(jié)構(gòu)。3)數(shù)據(jù)挖掘的特點(diǎn)之三是數(shù)據(jù)庫的結(jié)構(gòu)存在不同,因?yàn)榛ヂ?lián)網(wǎng)上的一個網(wǎng)站可以存為一個數(shù)據(jù)源,它們的結(jié)構(gòu)互不相關(guān),異構(gòu)性特點(diǎn)比較強(qiáng),由它們構(gòu)成

4、的數(shù)據(jù)庫自然而然也屬于一種異構(gòu)的形式。4)數(shù)據(jù)挖掘的特點(diǎn)之四是動態(tài)性強(qiáng),網(wǎng)站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪問的鏈接是形式變化的。2數(shù)據(jù)挖掘過程基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網(wǎng)頁上的信息是半結(jié)構(gòu)化的或非結(jié)構(gòu)化、不容易識別、變化的,正因?yàn)樗@些特點(diǎn),要想在網(wǎng)頁上開展直接數(shù)據(jù)挖掘,可謂很費(fèi)功夫,就要借助一些方法來預(yù)處理數(shù)據(jù),才能方便挖掘。通常進(jìn)行網(wǎng)頁數(shù)據(jù)挖掘可分為的如圖1所示的四個步奏。1)數(shù)據(jù)源的獲取,在網(wǎng)站的各個頁面中獲取數(shù)據(jù)信息,組成目標(biāo)數(shù)據(jù)信息源,再從這些信息源中找到相關(guān)有用的數(shù)據(jù)。這個過程的目的就是從像網(wǎng)頁文檔、email、網(wǎng)頁記錄

5、、新聞信息、各種網(wǎng)站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。2)把獲取的數(shù)據(jù)進(jìn)行加工處理,網(wǎng)頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關(guān),如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對數(shù)據(jù)源進(jìn)行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經(jīng)過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進(jìn)行下一步的分析。3)對數(shù)據(jù)經(jīng)過提純處理后,進(jìn)入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經(jīng)常會使用到一些相關(guān)的方法,例如聚類分析法、關(guān)聯(lián)規(guī)則發(fā)等挖掘方法。4)在對數(shù)據(jù)模式發(fā)現(xiàn)后,需要對這些模式進(jìn)行挖掘,也就是知識的轉(zhuǎn)換過程,把提取到的模式

6、再進(jìn)行信息轉(zhuǎn)化,轉(zhuǎn)化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。3數(shù)據(jù)挖掘分類在進(jìn)行數(shù)據(jù)挖掘的時候,針對不同的數(shù)據(jù)結(jié)構(gòu),會采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應(yīng)的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網(wǎng)頁使用挖掘、網(wǎng)頁結(jié)構(gòu)挖掘、網(wǎng)頁內(nèi)容挖[3],如圖2所示。4數(shù)據(jù)挖掘相關(guān)技術(shù)互聯(lián)網(wǎng)的發(fā)展促進(jìn)網(wǎng)頁數(shù)據(jù)挖掘得到越來越多的應(yīng)用,于是針對網(wǎng)頁挖掘的各種方法和技術(shù)不斷出現(xiàn),就這些相關(guān)的技術(shù)[4],下面分別一一介紹。4.1網(wǎng)頁內(nèi)容挖掘4.1.1網(wǎng)頁文檔挖掘網(wǎng)頁文檔挖掘就是分析網(wǎng)站上存在的數(shù)量很多的網(wǎng)頁

7、文檔采用聚類、分類、關(guān)聯(lián)處理等多種方法進(jìn)行分析,然后根據(jù)網(wǎng)頁文檔進(jìn)行預(yù)測。在Internet的文檔數(shù)據(jù)一般都是以html格式的網(wǎng)頁文檔出現(xiàn),要采集這些網(wǎng)頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進(jìn)數(shù)據(jù)庫,把這些記錄用來表示文檔內(nèi)容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式,由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對數(shù)據(jù)分析不利,因此一個好特征表示主要集中在特征集的選取方面,特征集需求好,對數(shù)據(jù)進(jìn)行分析

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。