基于web日志的用戶興趣聚類研究

ID：33618788

大小：3.99 MB

頁數(shù)：46頁

時間：2019-02-27

資源描述：

《基于web日志的用戶興趣聚類研究》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、1999年，J．Borges等人又提出了引入超鏈接概率原理，修改了傳統(tǒng)意義上對序列的界定，可以把用戶的訪問在網(wǎng)站結(jié)構(gòu)圖中記錄下來，根據(jù)訪問的條件概率判斷用戶頻繁訪問路徑【”】。CooleyRMobasherB等人首次給出Web挖掘的定義，并且給出一個關(guān)于Web訪問信息挖掘的系統(tǒng)WEBMINER。思路是：通過對Web站點的日志進(jìn)行處理，將數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)模型，然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行處理，所得出的挖掘結(jié)果也是傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果114]。BuchnerAG，MulvennaMD等人首次提出將數(shù)據(jù)挖掘技術(shù)應(yīng)

2、用于電子商務(wù)的環(huán)境下。挖掘的對象不僅包括日志和Web頁面，還包括市場數(shù)據(jù)，并給出了在電子商務(wù)環(huán)境下挖掘的一個框架【”】。Shahabi等人提出的日志挖掘系統(tǒng)依賴于客戶端的數(shù)據(jù)收集，客戶端的代理為服務(wù)器返回用戶請求的頁面的時間等數(shù)據(jù)【16】。目前，在一些國外專業(yè)研究Web數(shù)據(jù)挖掘的網(wǎng)站上已經(jīng)出現(xiàn)了幾種比較簡單的用戶訪問日志分析工具。主要是統(tǒng)計每一個頁面用戶訪問的頻率，以及用戶訪問頁面的時間分布情況，其中比較成功的Webtrend軟件已經(jīng)可以統(tǒng)計出所有類型的錯誤訪問?？傊?，Web日志挖掘方法主要有兩種：Chen等人首先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于W

3、eb服務(wù)器日志文件，以期發(fā)現(xiàn)用戶瀏覽路徑。他們提出了最大前向引用序列MFR的概念，并用它將用戶會話分割成一系列的事務(wù)，然后采用與關(guān)聯(lián)規(guī)則相似的方法挖掘頻繁訪問路徑。Han等人則根據(jù)Web日志建立數(shù)據(jù)立方體，然后對數(shù)據(jù)立方體進(jìn)行數(shù)據(jù)挖掘和OLAP。1．2．2國內(nèi)研究現(xiàn)狀國內(nèi)的很多學(xué)者在Web日志挖掘方面也開展了大量的研究工作，最先開展工作且取得成果的有：1999年，陳寧綜述了國外應(yīng)用數(shù)據(jù)挖掘技術(shù)解決Internet應(yīng)用問題的做法。同年，周斌等人介紹了采用E．OEM模型，并用5個用戶訪問路徑做訓(xùn)練數(shù)據(jù)集，嘗試著進(jìn)行了關(guān)聯(lián)規(guī)則挖掘。2000年

4、，Judy等人提出了TAM模型，對訪問某個網(wǎng)站的20個學(xué)生，進(jìn)行問卷調(diào)查，以尋找評價網(wǎng)站提供信息質(zhì)量的要素【17】。西安交通大學(xué)沈均毅教授等人提出：首先以Web站點的URL為行，以UserlD為列，建立URL．UserlD關(guān)聯(lián)矩陣，元素值為用戶的訪問次數(shù)，然后，對列向量進(jìn)行相似性分析得到相似客戶群體，對行向量進(jìn)行相似性度量獲得相關(guān)Web頁面，對相關(guān)頁面進(jìn)一步處理，以發(fā)現(xiàn)頻繁訪問路徑。并提出了Web頁面和客戶群體的模糊聚類算法。在該算法中，首先根據(jù)客戶對站點的瀏覽情況分別建立Web頁面和客戶的模糊集，在此基礎(chǔ)上根據(jù)Max．Min模糊相似矩

5、陣直接進(jìn)行聚類Il8’。國防科技大學(xué)吳泉源教授等人提出基于E．OEM模型，綜合考慮服務(wù)器的應(yīng)用邏輯設(shè)計、頁面拓?fù)浣Y(jié)構(gòu)及用戶瀏覽路徑等多個數(shù)據(jù)源，算法主要應(yīng)用于用戶訪問路徑及電子商務(wù)中潛在顧客群的挖掘。另外他們還提出了基于Bayes概率的用戶訪問路徑及其發(fā)現(xiàn)算法【19】。西安交通大學(xué)陸麗娜教授等人，采用基于事務(wù)的方法，研究Web日志挖掘預(yù)處理及用戶訪問序列模式挖掘方法，提出了一種基于擴(kuò)展有向樹模型進(jìn)行用戶瀏覽模式識別的Web日志挖掘方法【201。華中理工大學(xué)胡和平教授等人提出了應(yīng)用多維立方體挖掘Web日志的多維關(guān)聯(lián)規(guī)則的方法【2lJ。中國

6、科技大學(xué)王熙法教授等人提出基于神經(jīng)網(wǎng)絡(luò)的Web用戶行為聚類分析方法，即首先對Web服務(wù)器日志文件進(jìn)行分析，再進(jìn)行會話分析，從會話向量中找出頻繁數(shù)據(jù)集，進(jìn)行歸一化處理后生成模式向量，采用SOFM模型進(jìn)行聚類，最后生成用戶聚類【221。中國科學(xué)院計算機(jī)技術(shù)研究所高文教授等人，采用Web站點的訪問日志進(jìn)行事務(wù)識別后，根據(jù)群體用戶對Web站點的訪問順序進(jìn)行路徑聚類，最終每一個聚類集就反映出該聚類集中的全體用戶的訪問興趣，為得到這種根據(jù)用戶訪問興趣而對用戶的劃分，提出了k-path路徑聚類算法【231。中國科學(xué)院數(shù)學(xué)研究所周龍鑲教授等人，分析了W

7、eb用戶瀏覽活動規(guī)律，提出了有關(guān)WWW瀏覽路徑的一些基本概念，設(shè)計了基于用戶訪問模式的瀏覽路徑優(yōu)先算法【241。上海交通大學(xué)尤晉元教授等人引入Web頁面的內(nèi)容鏈接比和頁面的組內(nèi)鏈接度，修改了頻繁訪問頁面的支持度的計算公式，提出了基于頁面內(nèi)容和站點結(jié)構(gòu)的頁面聚類挖掘改進(jìn)算法【251。清華大學(xué)馬少平教授等人，提出了一種利用Web服務(wù)器日志文件，運(yùn)用N元(N．gram)預(yù)測模式對用戶未來可能進(jìn)行的Web訪問請求預(yù)測【261。Web數(shù)據(jù)挖掘在國內(nèi)已經(jīng)引起人們的關(guān)注，但是，大多數(shù)網(wǎng)站經(jīng)營管理者對從訪問日志中挖掘有用信息的重要性認(rèn)識不充分，網(wǎng)絡(luò)管理

8、人員還停留在關(guān)注服務(wù)器性能階段，沒有達(dá)到關(guān)注網(wǎng)站服務(wù)質(zhì)量的層次。從研究的角度，現(xiàn)有的基于W曲服務(wù)器日志數(shù)據(jù)的研究大致可以分為三個方向：分析系統(tǒng)性能，改進(jìn)系統(tǒng)設(shè)計，理解用戶意圖。由于它們針對的功能不同，采取的

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 46



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于web日志的用戶興趣聚類研究

基于web日志的用戶興趣聚類研究

相關(guān)文章

相關(guān)標(biāo)簽