資源描述:
《Web數(shù)據(jù)挖掘研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、押<1器喲上舅數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在學(xué)生成績(jī)管理中的應(yīng)用課程名稱數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘院(系)計(jì)算機(jī)學(xué)院軟件學(xué)院專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)老師Web挖掘研究摘要因特網(wǎng)目前是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù).Web包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源.Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的潛在的有用模式和隱藏的信息?對(duì)Web挖掘最新技術(shù)及發(fā)展方向做了金而分析,包括Web結(jié)構(gòu)挖掘、多層次Web數(shù)據(jù)倉(cāng)庫(kù)方法
2、以及WebLog挖掘等.關(guān)鍵詞數(shù)據(jù)挖掘,Web挖掘,Web倉(cāng)庫(kù)、WebLog挖掘,Web使用記錄挖掘RESEARCHONWEBMINING:ASURVEYAbstractTheWorldWideWebservesashuge,widelydistributed,globalinformationservicecenterforvariousapplications.WebcontainsarichanddynamiccollectionofhyperlinkinfonnaXionandWebpageaccessandusageinfonn
3、eition,providingrichsourcesfordatamining.ThegoalofWebminingistodiscovertheaccesspattcTnandhiddeninformationfTomthehugecollectionofdocumentsplushyperlinkinformation,accessandusageinformation.GiveninthispaperisanoverviewofWebminingtechniquesandnewtrends,mainlyinvolvingWebSt
4、ructuremining,amultilayeredWebinformationbasebui1ding,andWebLogmining.Keywordsdatamining,Webmining,Webwarehouse,WebLogmining,Webueagemining1引言60年代,大的物理流伴隨著大信息流?傳統(tǒng)的文件方式不能適應(yīng)信息處理的需求,因此出現(xiàn)了數(shù)據(jù)庫(kù)技術(shù).90年代,人類積累的數(shù)據(jù)量以高于每月15%(或每年5.3倍)的速度增加,數(shù)據(jù)海洋不能產(chǎn)生決策意志,為了進(jìn)行決策,人們不斷地?cái)U(kuò)大數(shù)據(jù)庫(kù)能力,搜集海量數(shù)據(jù),但這使得決策
5、者更難于決策,因此出現(xiàn)了數(shù)據(jù)挖掘技術(shù),以便從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)?數(shù)據(jù)挖掘技術(shù)包括特征、分類、關(guān)聯(lián)、聚類、偏塞時(shí)間序列、趨勢(shì)分析等.近年來(lái),Internet正以令人難以置信的速度在飛速發(fā)展,越來(lái)越多的機(jī)構(gòu)、
6、才
7、體和個(gè)人在Internet上發(fā)布信息、查找信息.雖然Internet上有海量的數(shù)據(jù)但由于Web是無(wú)結(jié)構(gòu)的、動(dòng)態(tài)的,并且Web頁(yè)面的復(fù)朵程度遠(yuǎn)遠(yuǎn)超過(guò)了文本文檔,人們耍想找到自己想耍的數(shù)據(jù)猶如人海撈針一般?信息檢索界開發(fā)了許多搜索引擎,但其覆蓋率有限,因此查全率低,一般的搜索引擎是基于關(guān)鍵字的查詢,命中率較低,另外不能針對(duì)特定的用戶給出特
8、殊的服務(wù),因?yàn)槊總€(gè)人感興趣的東西是不一樣的,因此不具有個(gè)性化.解決這些問(wèn)題的一個(gè)途徑,就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和Web結(jié)合起來(lái),進(jìn)行Web挖掘.Web挖掘就是從Web文檔和Web活動(dòng)川抽取感興趣的潛在的有用模式和隱藏的信息?Web挖掘可以在很多方面發(fā)揮作用,如對(duì)搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁(yè)面,Web文檔分類,WebLog挖掘,智能查詢,建立Meta-Web數(shù)據(jù)倉(cāng)庫(kù)等.萬(wàn)維網(wǎng)目前是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù).Web還包含了豐富和動(dòng)態(tài)的超鏈接信息
9、,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源?然而從以下的分析可以看岀對(duì)Web進(jìn)行有效的資源和知識(shí)發(fā)現(xiàn)具有極大的挑戰(zhàn)性.對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言Web似乎太龐大了?Web的數(shù)據(jù)量目前以兆兆字節(jié)(terabytes)ik算,而且仍然在迅速地增長(zhǎng).許多機(jī)構(gòu)和社團(tuán)都在把各自大量的可訪問(wèn)信息置于網(wǎng)上?這使得兒乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)復(fù)制、存儲(chǔ)或集成Web上的所有數(shù)據(jù)?最近,有一些工作在致力于存儲(chǔ)或集成Web上的所有數(shù)據(jù)?例如,在http://www.archive,org/indexl.html下,可訪問(wèn)到一個(gè)巨大的數(shù)
10、十兆兆字節(jié)的因特網(wǎng)存檔.(1)Web頁(yè)面的復(fù)雜性高于任何傳統(tǒng)的文木文檔.Web頁(yè)面缺乏同一的結(jié)構(gòu),它包含了遠(yuǎn)比任何一組書籍或其它文本文檔多得多的風(fēng)格和內(nèi)容.Web可以看做一個(gè)巨大的數(shù)字圖書館;