資源描述:
《web日志挖掘中的用戶聚類與url聚類》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、Web日志挖掘中的用戶聚類與URL聚類2007年第6期福建電腦15Web日志挖掘中的用戶聚類與URL聚類崔英敏.陳陽(1.私立華聯學院廣東廣州5106632.廣東輕工職業(yè)技術學院廣東廣州510300)【摘要】:Web挖掘是目前國內外數據挖掘研究方向的熱點,根據其挖掘出潛在而有用的信息將對網站管理者和商家起到很大的指導作用.它應用delphi7開發(fā)程序WeblogdigP,實現了web日志挖掘中的用戶聚類和url聚類,為設計和構建智能化電子商務體系打下很好的基礎.【關鍵詞】:Delphi7數據庫編程;sql查詢;數據挖掘;日志挖掘l_引言隨
2、著InterYlet的飛速發(fā)展.人們越來越多地從網上獲取信息,進行電子商務等活動.企業(yè)在互聯網上開展,傳統的市場營銷策略都紛紛轉向Internet.網上的信息資源越來越豐富,web也因此成為Intemet上存儲和發(fā)布信息最普遍的載體.人們從web上獲取信息的模式,獲取信息的類型也就反映了其興趣偏好所在.因此.用戶訪問Web的規(guī)律.成了Internet環(huán)境下各企業(yè)與組織共同關注的一大熱點.Web挖掘正是通過分析用戶訪問web的規(guī)律.確定用戶的瀏覽的生命周期.針對不同的用戶提供動態(tài)的頁面組織結構.實現部分網頁預傳導客戶端.從而提高網站的效率:
3、分析用戶訪問Web的規(guī)律也可以找出如何優(yōu)化一個網站的拓撲結構的策略.人們把數據挖掘技術應用到Web上.成為了一項非常熱門的技術一web挖掘技術.Web日志挖掘是Web挖掘的一類.它是通過挖掘Web日志記錄.來發(fā)現用戶訪問web頁面的模式.通過分析和探究web13志記錄中的規(guī)律,可以識別電子商務的潛在用戶.增強對最終用戶的因特網信息服務的質量和交付.并改進Web服務器系統的性能【】1.2.Web日志挖掘研究意義與現狀分析Web13志挖掘在新興的電子商務領域有重要意義.它通過挖掘相關的Web13志記錄.來發(fā)現用戶訪問Web頁面的模式和規(guī)律We
4、b使用記錄數據除了服務器的13志記錄外還包括代理服務器13志,瀏覽器端13志,注冊信息,用戶會話信息,交易信息,Cookie中的信息,用戶查詢,鼠標點擊流等一切用戶與站點之間可能的交互記錄.可見Web使用記錄的數據量是非常巨大的,而且數據類型也相當豐富.根據對數據源的不同處理方法.Web用法挖掘可以分為兩類.一類是將Web使用記錄的數據轉換并傳遞進傳統的關系表里.再使用數據挖掘算法對關系表中的數據進行常規(guī)挖掘:另一類是將Ⅳeb使用記錄的數據直接預處理再進行挖掘.Web用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理服務器的環(huán)境下如何標
5、識某個用戶.如何識別屬于該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質量.所以有人專門在這方面進行了研究.通常來講.經典的數據挖掘算法都可以直接用到Web用法挖掘上來.但為了提高挖掘質量.研究人員在擴展算法上進行了努力,包括復合關聯規(guī)則算法,改進的序列發(fā)現算法等.在131中.根據數據來源,數據類型,數據集合中的用戶數量,數據集合中的服務器數量等將Ⅳeb用法挖掘分為以下五類:?個性挖掘:針對單個用戶的使用記錄對該用戶進行建模.結合該用戶基本信息分析他的使用習慣,個人喜好.目的是在電子商務環(huán)境下為該用戶提供與眾不同的
6、個性化服務?系統改進:Web服務(數據庫,網絡等)的性能和其他服務質量是衡量用戶滿意度的關鍵指標.Web用法挖掘可以通過用戶的擁塞記錄發(fā)現站點的性能瓶頸.以提示站點管理者改進Web緩存策略,網絡傳輸策略,流量負載平衡機制和數據的分布策略.此外.可以通過分析網絡的非法入侵數據找到系統弱點,提高站點安全性.這在電子商務環(huán)境下尤為重要.?站點修改:站點的結構和內容是吸引用戶的關鍵.Web用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設計者提供改進的依.比如頁面連接情況應如何組織,那些頁面應能夠直接訪問等.?智能商務:用戶怎樣使用Web站點的信息
7、無疑是電子商務銷售商關心的重點.用戶一次訪問的周期可分為被吸引,駐留,購買和離開四個步驟.Ⅳeb用法挖掘可以通過分析用戶點擊流等Web13志信息挖掘用戶行為的動機.以幫助銷售商合理安排銷售策略?Web特征描述:這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況.對用戶訪問情況進行特征描述.Web日志挖掘雖然是一個很重要的研究領域.但是目前來說真正能提供有價值信息Mining系統并不多.要最終實現從沙子里選出金子的過程.它的研究還有很長的一段路走.?網絡上的銷售是一場沒有硝煙的戰(zhàn)爭.競爭非常激烈.對于商家和網站管理者來
8、說.如何留住舊的訪問用戶,吸引新用戶.則是一個關鍵.直接決定著網上商戰(zhàn)的成敗.那么如何做到這一點呢?常用的方法是:開發(fā)具有個性化的用戶界面.3.算法設計與實現這里提出的解決思路是:利用WEB服