Web數(shù)據(jù)挖掘研究

Web數(shù)據(jù)挖掘研究

ID:47630234

大小:159.59 KB

頁(yè)數(shù):17頁(yè)

時(shí)間:2019-09-27

Web數(shù)據(jù)挖掘研究_第1頁(yè)
Web數(shù)據(jù)挖掘研究_第2頁(yè)
Web數(shù)據(jù)挖掘研究_第3頁(yè)
Web數(shù)據(jù)挖掘研究_第4頁(yè)
Web數(shù)據(jù)挖掘研究_第5頁(yè)
資源描述:

《Web數(shù)據(jù)挖掘研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、押<1器喲上舅數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在學(xué)生成績(jī)管理中的應(yīng)用課程名稱數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘院(系)計(jì)算機(jī)學(xué)院軟件學(xué)院專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)老師Web挖掘研究摘要因特網(wǎng)目前是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù).Web包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源.Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的潛在的有用模式和隱藏的信息?對(duì)Web挖掘最新技術(shù)及發(fā)展方向做了金而分析,包括Web結(jié)構(gòu)挖掘、多層次Web數(shù)據(jù)倉(cāng)庫(kù)方法

2、以及WebLog挖掘等.關(guān)鍵詞數(shù)據(jù)挖掘,Web挖掘,Web倉(cāng)庫(kù)、WebLog挖掘,Web使用記錄挖掘RESEARCHONWEBMINING:ASURVEYAbstractTheWorldWideWebservesashuge,widelydistributed,globalinformationservicecenterforvariousapplications.WebcontainsarichanddynamiccollectionofhyperlinkinfonnaXionandWebpageaccessandusageinfonn

3、eition,providingrichsourcesfordatamining.ThegoalofWebminingistodiscovertheaccesspattcTnandhiddeninformationfTomthehugecollectionofdocumentsplushyperlinkinformation,accessandusageinformation.GiveninthispaperisanoverviewofWebminingtechniquesandnewtrends,mainlyinvolvingWebSt

4、ructuremining,amultilayeredWebinformationbasebui1ding,andWebLogmining.Keywordsdatamining,Webmining,Webwarehouse,WebLogmining,Webueagemining1引言60年代,大的物理流伴隨著大信息流?傳統(tǒng)的文件方式不能適應(yīng)信息處理的需求,因此出現(xiàn)了數(shù)據(jù)庫(kù)技術(shù).90年代,人類積累的數(shù)據(jù)量以高于每月15%(或每年5.3倍)的速度增加,數(shù)據(jù)海洋不能產(chǎn)生決策意志,為了進(jìn)行決策,人們不斷地?cái)U(kuò)大數(shù)據(jù)庫(kù)能力,搜集海量數(shù)據(jù),但這使得決策

5、者更難于決策,因此出現(xiàn)了數(shù)據(jù)挖掘技術(shù),以便從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)?數(shù)據(jù)挖掘技術(shù)包括特征、分類、關(guān)聯(lián)、聚類、偏塞時(shí)間序列、趨勢(shì)分析等.近年來(lái),Internet正以令人難以置信的速度在飛速發(fā)展,越來(lái)越多的機(jī)構(gòu)、

6、才

7、體和個(gè)人在Internet上發(fā)布信息、查找信息.雖然Internet上有海量的數(shù)據(jù)但由于Web是無(wú)結(jié)構(gòu)的、動(dòng)態(tài)的,并且Web頁(yè)面的復(fù)朵程度遠(yuǎn)遠(yuǎn)超過(guò)了文本文檔,人們耍想找到自己想耍的數(shù)據(jù)猶如人海撈針一般?信息檢索界開發(fā)了許多搜索引擎,但其覆蓋率有限,因此查全率低,一般的搜索引擎是基于關(guān)鍵字的查詢,命中率較低,另外不能針對(duì)特定的用戶給出特

8、殊的服務(wù),因?yàn)槊總€(gè)人感興趣的東西是不一樣的,因此不具有個(gè)性化.解決這些問(wèn)題的一個(gè)途徑,就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和Web結(jié)合起來(lái),進(jìn)行Web挖掘.Web挖掘就是從Web文檔和Web活動(dòng)川抽取感興趣的潛在的有用模式和隱藏的信息?Web挖掘可以在很多方面發(fā)揮作用,如對(duì)搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁(yè)面,Web文檔分類,WebLog挖掘,智能查詢,建立Meta-Web數(shù)據(jù)倉(cāng)庫(kù)等.萬(wàn)維網(wǎng)目前是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù).Web還包含了豐富和動(dòng)態(tài)的超鏈接信息

9、,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源?然而從以下的分析可以看岀對(duì)Web進(jìn)行有效的資源和知識(shí)發(fā)現(xiàn)具有極大的挑戰(zhàn)性.對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言Web似乎太龐大了?Web的數(shù)據(jù)量目前以兆兆字節(jié)(terabytes)ik算,而且仍然在迅速地增長(zhǎng).許多機(jī)構(gòu)和社團(tuán)都在把各自大量的可訪問(wèn)信息置于網(wǎng)上?這使得兒乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)復(fù)制、存儲(chǔ)或集成Web上的所有數(shù)據(jù)?最近,有一些工作在致力于存儲(chǔ)或集成Web上的所有數(shù)據(jù)?例如,在http://www.archive,org/indexl.html下,可訪問(wèn)到一個(gè)巨大的數(shù)

10、十兆兆字節(jié)的因特網(wǎng)存檔.(1)Web頁(yè)面的復(fù)雜性高于任何傳統(tǒng)的文木文檔.Web頁(yè)面缺乏同一的結(jié)構(gòu),它包含了遠(yuǎn)比任何一組書籍或其它文本文檔多得多的風(fēng)格和內(nèi)容.Web可以看做一個(gè)巨大的數(shù)字圖書館;

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。