資源描述:
《基于web的數(shù)據(jù)挖掘研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、山東科技大學(xué)碩士學(xué)位論文基于Web的數(shù)據(jù)挖掘研究姓名:張承明申請學(xué)位級別:碩士專業(yè):計算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:孫忠林20030501聲明本人呈交給山東科技大學(xué)的這篇碩士學(xué)位論文,除了所列參考文獻(xiàn)和世所公認(rèn)的文獻(xiàn)外,全部是本人在導(dǎo)師指導(dǎo)下的研究成果。該論文尚未呈交于其他任何學(xué)術(shù)機(jī)關(guān)作鑒定。研究生姓名心啄辱閑日期:刀易.6.8AFFIRMATIONIdeclarethatmisdissertation.subminedinmlfillmentoftherequirementsfortheawardofMasterofScie
2、nce,inShandongUniVersityofSciencean1、echnology,iswhollymyownworkunlessreferencedofacknowledge.Thedocumenthasnotbeensubmittedforqualincationatanyotheracademicinstitute.Signature柵“竹Date:哆f、3東科挫大學(xué)硼}學(xué)位論立情型摘要數(shù)據(jù)挖掘技術(shù)是近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的全新的信息技術(shù).融合了數(shù)據(jù)庫、人工智能和統(tǒng)計學(xué)等多種學(xué)科
3、的知識.試圖從數(shù)據(jù)中提取出先前未知、有效和實用的知識。數(shù)據(jù)挖掘技術(shù)與統(tǒng)計學(xué)、數(shù)據(jù)庫拄術(shù)、數(shù)據(jù)庫知泌發(fā)現(xiàn)等學(xué)科與密切的聯(lián)系,也有明顯的不同。數(shù)據(jù)挖掘主要研究內(nèi)容包括廣義知識、關(guān)聯(lián)知識、分類知識、聚類知識、預(yù)測型知識和偏差型知識的內(nèi)容。使用關(guān)聯(lián)分析、分類和聚類分析、神經(jīng)網(wǎng)絡(luò)、決策樹和規(guī)則推理等技術(shù)進(jìn)行挖掘。山于web上的信息具有數(shù)量龐大、無序性強(qiáng)、重復(fù)性大的特點(diǎn).人們現(xiàn)在還不能迅速、方便地從wcb所包含的大量信息中獲取所需要的信息。web挖掘是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在web環(huán)境下的應(yīng)用.試圖從大量的web文檔集合和用戶瀏覽w曲的
4、數(shù)據(jù)信息中發(fā)現(xiàn)蘊(yùn)涵的、未知的、有潛在應(yīng)用價值的、非平凡的模式。web挖掘分為web內(nèi)容挖掘、web結(jié)構(gòu)挖掘和web使用模式挖掘。、veb使用模式挖掘是從用戶瀏覽網(wǎng)站的數(shù)據(jù)中抽取感興趣的模式,理解用戶的瀏覽興趣行為,以便進(jìn)一步改善網(wǎng)站結(jié)構(gòu)或為用戶提供個性化的服務(wù)。本文對w曲使用模式挖掘的數(shù)據(jù)采集、用戶瀏覽興趣的度量和表達(dá)兩個方面進(jìn)行了研究,主要的工作有:1.分析了現(xiàn)有web使用模式挖掘的數(shù)據(jù)采集方式,指出了當(dāng)前數(shù)據(jù)采集方式的不足。如由于HTTP協(xié)議的無狀奩連接而難以在webR志中得到準(zhǔn)確的用戶瀏覽信息。提出了一種綜合利用
5、服務(wù)器日志文件和客戶端數(shù)據(jù)獲取用戶瀏覽信息的方法。2.興趣是指個人對客觀事物的選擇性態(tài)度,準(zhǔn)確地度量用戶瀏覽興趣是web使用模式挖掘的基礎(chǔ)。本文針對、Ⅳeb使用模式挖掘領(lǐng)域,首先分析了已有的度量用戶瀏覽興趣方式的不足之處.如度量方式過于簡單而導(dǎo)致不能更好地區(qū)分用戶感興趣類與不感興趣類:沒有考慮頁面信息量對用戶瀏覽時長的影響等。在此基礎(chǔ)上,提出了一種基于用戶瀏覽行為度量用戶瀏覽興趣的方法。3.如何有效地表達(dá)用戶瀏覽興趣是web使用模式挖掘研究的方向之一。本文在分析了現(xiàn)有的表達(dá)用戶瀏覽興趣方式的基礎(chǔ)上,提出了一種基于樹形結(jié)
6、構(gòu)表達(dá)用戶瀏覽興趣的方式。本文提出的基于用戶瀏覽行為度量和表達(dá)用戶瀏覽興趣的方法改進(jìn)山東科技大學(xué)碾十篳位論文摘曼了原有的度量和表達(dá)方式在數(shù)據(jù)采集、興趣度量、興趣表達(dá)兒個方而的不足,以便更好地為進(jìn)一步的挖掘做準(zhǔn)備。關(guān)鍵詞;數(shù)據(jù)挖掘、w曲挖掘、瀏覽興趣、個性化推薦2山末科技大學(xué)頓I‘學(xué)位論文摘婪ABSTRACTDataMlnlngisfairIyanewcommunicationaltechnoIogythathasbeendevelopedw“hthetechnologyofdatabaseandArt訊cialInte
7、lligenceDataMiningt“estoextracttheunknown,effcctiveandusefulknowledgefromdataOnonehand.DataMlnlngIechn。IogyhasacloserelationshipwithDatabasetechn0109v’statisticsandKDD;Ontheotherhand,theyarequltedifferentDataMiningmainIystudiesonresearchOenerallzatiOnKnowledge,A
8、ssoclationKnowledge,ClassificationKnowIedge,CIustc“ngKnowIedge,PredictionKnowledge,andDeviationKnowIedgeInthedatamining.thetechno【ogiesofassociativeanalysis,classific