基于web日志的用戶興趣聚類研究

基于web日志的用戶興趣聚類研究

ID:33618788

大小:3.99 MB

頁數(shù):46頁

時間:2019-02-27

基于web日志的用戶興趣聚類研究_第1頁
基于web日志的用戶興趣聚類研究_第2頁
基于web日志的用戶興趣聚類研究_第3頁
基于web日志的用戶興趣聚類研究_第4頁
基于web日志的用戶興趣聚類研究_第5頁
資源描述:

《基于web日志的用戶興趣聚類研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、1999年,J.Borges等人又提出了引入超鏈接概率原理,修改了傳統(tǒng)意義上對序列的界定,可以把用戶的訪問在網(wǎng)站結(jié)構(gòu)圖中記錄下來,根據(jù)訪問的條件概率判斷用戶頻繁訪問路徑【”】。CooleyRMobasherB等人首次給出Web挖掘的定義,并且給出一個關(guān)于Web訪問信息挖掘的系統(tǒng)WEBMINER。思路是:通過對Web站點的日志進(jìn)行處理,將數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)模型,然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行處理,所得出的挖掘結(jié)果也是傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果114]。BuchnerAG,MulvennaMD等人首次提出將數(shù)據(jù)挖掘技術(shù)應(yīng)

2、用于電子商務(wù)的環(huán)境下。挖掘的對象不僅包括日志和Web頁面,還包括市場數(shù)據(jù),并給出了在電子商務(wù)環(huán)境下挖掘的一個框架【”】。Shahabi等人提出的日志挖掘系統(tǒng)依賴于客戶端的數(shù)據(jù)收集,客戶端的代理為服務(wù)器返回用戶請求的頁面的時間等數(shù)據(jù)【16】。目前,在一些國外專業(yè)研究Web數(shù)據(jù)挖掘的網(wǎng)站上已經(jīng)出現(xiàn)了幾種比較簡單的用戶訪問日志分析工具。主要是統(tǒng)計每一個頁面用戶訪問的頻率,以及用戶訪問頁面的時間分布情況,其中比較成功的Webtrend軟件已經(jīng)可以統(tǒng)計出所有類型的錯誤訪問??傊?,Web日志挖掘方法主要有兩種:Chen等人首先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于W

3、eb服務(wù)器日志文件,以期發(fā)現(xiàn)用戶瀏覽路徑。他們提出了最大前向引用序列MFR的概念,并用它將用戶會話分割成一系列的事務(wù),然后采用與關(guān)聯(lián)規(guī)則相似的方法挖掘頻繁訪問路徑。Han等人則根據(jù)Web日志建立數(shù)據(jù)立方體,然后對數(shù)據(jù)立方體進(jìn)行數(shù)據(jù)挖掘和OLAP。1.2.2國內(nèi)研究現(xiàn)狀國內(nèi)的很多學(xué)者在Web日志挖掘方面也開展了大量的研究工作,最先開展工作且取得成果的有:1999年,陳寧綜述了國外應(yīng)用數(shù)據(jù)挖掘技術(shù)解決Internet應(yīng)用問題的做法。同年,周斌等人介紹了采用E.OEM模型,并用5個用戶訪問路徑做訓(xùn)練數(shù)據(jù)集,嘗試著進(jìn)行了關(guān)聯(lián)規(guī)則挖掘。2000年

4、,Judy等人提出了TAM模型,對訪問某個網(wǎng)站的20個學(xué)生,進(jìn)行問卷調(diào)查,以尋找評價網(wǎng)站提供信息質(zhì)量的要素【17】。西安交通大學(xué)沈均毅教授等人提出:首先以Web站點的URL為行,以UserlD為列,建立URL.UserlD關(guān)聯(lián)矩陣,元素值為用戶的訪問次數(shù),然后,對列向量進(jìn)行相似性分析得到相似客戶群體,對行向量進(jìn)行相似性度量獲得相關(guān)Web頁面,對相關(guān)頁面進(jìn)一步處理,以發(fā)現(xiàn)頻繁訪問路徑。并提出了Web頁面和客戶群體的模糊聚類算法。在該算法中,首先根據(jù)客戶對站點的瀏覽情況分別建立Web頁面和客戶的模糊集,在此基礎(chǔ)上根據(jù)Max.Min模糊相似矩

5、陣直接進(jìn)行聚類Il8’。國防科技大學(xué)吳泉源教授等人提出基于E.OEM模型,綜合考慮服務(wù)器的應(yīng)用邏輯設(shè)計、頁面拓?fù)浣Y(jié)構(gòu)及用戶瀏覽路徑等多個數(shù)據(jù)源,算法主要應(yīng)用于用戶訪問路徑及電子商務(wù)中潛在顧客群的挖掘。另外他們還提出了基于Bayes概率的用戶訪問路徑及其發(fā)現(xiàn)算法【19】。西安交通大學(xué)陸麗娜教授等人,采用基于事務(wù)的方法,研究Web日志挖掘預(yù)處理及用戶訪問序列模式挖掘方法,提出了一種基于擴(kuò)展有向樹模型進(jìn)行用戶瀏覽模式識別的Web日志挖掘方法【201。華中理工大學(xué)胡和平教授等人提出了應(yīng)用多維立方體挖掘Web日志的多維關(guān)聯(lián)規(guī)則的方法【2lJ。中國

6、科技大學(xué)王熙法教授等人提出基于神經(jīng)網(wǎng)絡(luò)的Web用戶行為聚類分析方法,即首先對Web服務(wù)器日志文件進(jìn)行分析,再進(jìn)行會話分析,從會話向量中找出頻繁數(shù)據(jù)集,進(jìn)行歸一化處理后生成模式向量,采用SOFM模型進(jìn)行聚類,最后生成用戶聚類【221。中國科學(xué)院計算機(jī)技術(shù)研究所高文教授等人,采用Web站點的訪問日志進(jìn)行事務(wù)識別后,根據(jù)群體用戶對Web站點的訪問順序進(jìn)行路徑聚類,最終每一個聚類集就反映出該聚類集中的全體用戶的訪問興趣,為得到這種根據(jù)用戶訪問興趣而對用戶的劃分,提出了k-path路徑聚類算法【231。中國科學(xué)院數(shù)學(xué)研究所周龍鑲教授等人,分析了W

7、eb用戶瀏覽活動規(guī)律,提出了有關(guān)WWW瀏覽路徑的一些基本概念,設(shè)計了基于用戶訪問模式的瀏覽路徑優(yōu)先算法【241。上海交通大學(xué)尤晉元教授等人引入Web頁面的內(nèi)容鏈接比和頁面的組內(nèi)鏈接度,修改了頻繁訪問頁面的支持度的計算公式,提出了基于頁面內(nèi)容和站點結(jié)構(gòu)的頁面聚類挖掘改進(jìn)算法【251。清華大學(xué)馬少平教授等人,提出了一種利用Web服務(wù)器日志文件,運(yùn)用N元(N.gram)預(yù)測模式對用戶未來可能進(jìn)行的Web訪問請求預(yù)測【261。Web數(shù)據(jù)挖掘在國內(nèi)已經(jīng)引起人們的關(guān)注,但是,大多數(shù)網(wǎng)站經(jīng)營管理者對從訪問日志中挖掘有用信息的重要性認(rèn)識不充分,網(wǎng)絡(luò)管理

8、人員還停留在關(guān)注服務(wù)器性能階段,沒有達(dá)到關(guān)注網(wǎng)站服務(wù)質(zhì)量的層次。從研究的角度,現(xiàn)有的基于W曲服務(wù)器日志數(shù)據(jù)的研究大致可以分為三個方向:分析系統(tǒng)性能,改進(jìn)系統(tǒng)設(shè)計,理解用戶意圖。由于它們針對的功能不同,采取的

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。