基于Web日志挖掘的用戶聚類研究.pdf

基于Web日志挖掘的用戶聚類研究.pdf

ID:57744996

大?。?.19 MB

頁數(shù):75頁

時間:2020-03-27

基于Web日志挖掘的用戶聚類研究.pdf_第1頁
基于Web日志挖掘的用戶聚類研究.pdf_第2頁
基于Web日志挖掘的用戶聚類研究.pdf_第3頁
基于Web日志挖掘的用戶聚類研究.pdf_第4頁
基于Web日志挖掘的用戶聚類研究.pdf_第5頁
資源描述:

《基于Web日志挖掘的用戶聚類研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、代號107011070110701學號0700700700070000040017040017040017040017分類號TP311TP311.13TP311.13.13.13密級公開題(((中(中中中、、、、英文英文)))目基于WebWeb日志挖掘的用戶聚類研究Web日志挖掘的用戶聚類研究ResearchResearchResearchononononUsersClusteringBasedoUsersClusteringBasedoUsersClusteringBasedonWebLogMUsersClusteringBasedonWebLogMnWebLogMin

2、nWebLogMininininging作者姓名牛曉晨指導教師姓名、、職務、職務姜建國教授學科門類工學學科、、專業(yè)、專業(yè)計算機應用技術(shù)提交論文日期二二二○○○一一年六六六月月月九九九日日日西安電子科技大學學位論文獨創(chuàng)性聲明秉承學校嚴謹?shù)膶W風和優(yōu)良的科學道德,本人聲明所呈交的論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學或其它教育機構(gòu)的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中做了明確的說明并表示了

3、謝意。申請學位論文與資料若有不實之處,本人承擔一切法律責任。本人簽名:日期西安電子科技大學關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學有關(guān)保留和使用學位論文的規(guī)定,即:研究生在校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬西安電子科技大學。學校有權(quán)保留送交論文的復印件,允許查閱和借閱論文;學??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它復制手段保存論文。同時本人保證,畢業(yè)后結(jié)合學位論文研究課題再撰寫的文章一律署名單位為西安電子科技大學。(保密的論文在解密后遵守此規(guī)定)本學位論文屬于保密,在年解密后適用本授權(quán)書。本人簽名:日期導師簽名:日期摘要隨著Interne

4、t的不斷發(fā)展,信息快速增長與人們注意力有限的矛盾在不斷增加,而Web日志挖掘正是解決這一矛盾的有效手段。日志文件記錄了用戶的地址、訪問時間、方法、網(wǎng)頁和頁面信息大小等訪問信息和交互信息。利用Web日志挖掘技術(shù)對日志文件進行挖掘可以發(fā)現(xiàn)用戶訪問網(wǎng)站的瀏覽模式及網(wǎng)站頁面之間的關(guān)系,為用戶個性化服務以及頁面改造和網(wǎng)站整體架構(gòu)優(yōu)化提供有益的指導。本文對Web日志挖掘的基本理論和挖掘中使用的模糊聚類算法進行了深入研究,對其中存在的問題提出了新的見解和改進,主要創(chuàng)新點與改進內(nèi)容如下:(1)數(shù)據(jù)預處理在Web日志挖掘過程中起著至關(guān)重要的作用,是為數(shù)據(jù)挖掘算法提供有效輸入和獲取有價值的挖

5、掘結(jié)果的前提條件。而數(shù)據(jù)預處理階段的一個關(guān)鍵問題就是如何獲取網(wǎng)站拓撲結(jié)構(gòu),本文提出了一種通過Web服務器的日志文件來獲取網(wǎng)站拓撲結(jié)構(gòu)的新方法,并通過實驗驗證了新方法的有效性和準確性。(2)用戶訪問路徑是Web用戶聚類時度量用戶興趣度的參數(shù)之一,針對目前訪問路徑興趣度表示的不足,本文結(jié)合日志記錄的特點,從參數(shù)的數(shù)學特征出發(fā),設計了一種基于二進制數(shù)表示的訪問路徑矩陣來度量用戶的興趣度,并給出了新的相異度矩陣的構(gòu)造方法。實驗表明,本文提出的訪問路徑矩陣是可行的,生成的相異度矩陣在表現(xiàn)用戶訪問路徑差異上是準確的。(3)本文研究分析了數(shù)據(jù)挖掘中的模糊C-均值聚類算法(FCM)。針對

6、算法中初始聚類中心選取的隨機性導致聚類正確性與效率下降的問題,結(jié)合相異度矩陣,提出了一種改進的模糊C-均值聚類算法對Web用戶進行聚類。通過實驗分析,驗證了改進的FCM算法的可行性和正確性。本文提出的新方法和改進的算法具有較好的實用性,下一步的研究內(nèi)容將是設計高效的基于Web日志的數(shù)據(jù)挖掘系統(tǒng),同時找出閾值與最佳聚類數(shù)之間的對應關(guān)系。關(guān)鍵詞:Web日志挖掘拓撲結(jié)構(gòu)訪問路徑矩陣Web用戶聚類模糊C均值ABSTRACTWiththedevelopmentoftheInternet,thecontradictionbetweenrapidgrowthoftheinformati

7、onandthepeople’slimitedattentionisunceasinglyincreasing,buttheweblogminingisaneffectivemeanstosolveit.Webserversregisteralogentryforeverysingleaccesstheyget,inwhichimportantinformationaboutaccessingarerecorded,includingIPaddresses,dateandtimestamp,method,URLrequeste

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。