資源描述:
《面向web的數(shù)據(jù)挖掘技術論文》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、面向Web的數(shù)據(jù)挖掘技術論文摘要隨著Inter的發(fā)展,L標記的半結構化數(shù)據(jù)。前者一般采用詞集方法,用一組組詞條來表示無結構的文本。后者主要利用傳統(tǒng)的數(shù)據(jù)挖掘技術:如關聯(lián)規(guī)則、分類算法、演繹邏輯和規(guī)則學習等。2.Web結構挖掘Web結構挖掘是從Web組織結構和鏈接關系中推導知識。挖掘頁面的結構和Web結構,可以用來指導對頁面進行分類和聚類,找到權威頁面、中心頁面,從而提高檢索的性能。同時還可以用來指導頁面采集工作,提高采集效率。Web結構挖掘可以分為Web文檔內部結構挖掘和文檔問的超鏈接結構挖掘。Web結構挖掘的基本思想是將Web看作
2、一個有向圖,他的頂點是Web頁面,頁面間的超鏈就是圖的邊。然后利用圖論對Web的拓撲結構進行分析。常見的算法有HITS(HypertextInducedTopicSearch),PageRank,發(fā)現(xiàn)虛擬社區(qū)的算法、發(fā)現(xiàn)相似頁面的算法、發(fā)現(xiàn)地理位置的算法和頁面分類算法。Web結構挖掘的算法一般可分為查詢相關算法和查詢無關算法兩類。查詢相關算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;而查詢獨立算法則為每個文檔僅進行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關算法和查詢獨立算法的代表。3.
3、Web訪問挖掘Web訪問挖掘是從服務器端記錄的用戶訪問日志或從用戶的瀏覽信息中抽取感興趣的模式,通過分析這些數(shù)據(jù)可以幫助理解用戶隱藏在數(shù)據(jù)中的行為模式,做出預測性分析,從而改進站點的結構或為用戶提供個性化的服務。Web訪問挖掘一般分為兩種:一般訪問模式跟蹤和定制使用跟蹤。一般訪問模式跟蹤通過分析Web日志來理解用戶的訪問模式和傾向;定制使用跟蹤分析單個用戶的偏好,根據(jù)其訪問模式為每個用戶定制符合其個人特色的Web站點。Web的log數(shù)據(jù)包括:senrerlog,proxyserverlog,client端的cookielog等。We
4、b使用記錄挖掘通常需要經(jīng)過三個階段:數(shù)據(jù)預處理階段(主要包括數(shù)據(jù)清洗和事物識別兩個部分):模式識別階段(采用統(tǒng)計法、機器學習等成熟技術.從Web使用記錄中挖掘知識):模式分析階段(采用合適的成熟的技術和工具進行模式的分析,從而輔助分析人員理解.使采用各種工具挖掘出的模式得到很好利用)。對Web使用記錄挖掘采用的算法有:路徑分析、關聯(lián)規(guī)則和有字模式的發(fā)現(xiàn)、聚類分類等,為了提高精度,使用記錄挖掘也用到站點結構和頁面內容等信息。四、Web數(shù)據(jù)挖掘中的關鍵技術Web數(shù)據(jù)挖掘中常用的技術有Web使用的特有的路徑分析技術,數(shù)據(jù)挖掘領域常用的關聯(lián)
5、規(guī)則、序列模式、分類聚類技術等。1.路徑分析技術用路徑分析技術進行Web數(shù)據(jù)挖掘時,最常用的是圖,因為Web可以用一個有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超連接集合,頁面定義為圖中的頂點,而頁面之間的超連接定義為圖中的有向邊。頂點v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站結構圖,從圖中確定最頻繁的訪問路徑。2.關聯(lián)規(guī)則挖掘技術關聯(lián)規(guī)則挖掘技術主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關的規(guī)則,就是要挖掘出用戶在一個訪問期間(SESSION),從服務器上訪問的頁面/文件之間的聯(lián)系,這些
6、頁面之間可能并不存在直接的參引(RIFERENCE)關系.最常用的是用APRIOR算法,從事務數(shù)據(jù)庫中挖掘出最大頻繁訪問項集,這個項集就是關聯(lián)規(guī)則挖掘出來的用戶訪問模式。3.序列模式挖掘技術序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時間序列關系的模式.它與關聯(lián)挖掘技術都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關聯(lián)挖掘技術更注重事務內的關系,序列模式技術則注重事務間的關系。4.聚類分類技術分類規(guī)則可以挖掘出某些共同的特性,這個特性可以用來對新添到數(shù)據(jù)庫里的數(shù)據(jù)項進行分類。在Web數(shù)據(jù)挖掘中,分類技術可以根據(jù)訪問這些用戶而得到的個
7、人信息或共同的訪問模式得出訪問某一服務器文件的用。特征。聚類技術則是對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。最后進行模式分析,挖掘出人們可理解的知識的模式解釋。五、Web數(shù)據(jù)挖掘的應用隨著中國經(jīng)濟的高速發(fā)展,數(shù)據(jù)挖掘將在中國形成一個產(chǎn)業(yè),目前Web數(shù)據(jù)挖掘已廣泛地應用于金融業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務以及體育事業(yè)中,基于Web的數(shù)據(jù)挖掘技術已經(jīng)成為一個熱點,下面主要介紹Web數(shù)據(jù)挖掘的三個應用前景。1.在電子商務中的應用在電子商務中,運用Web挖掘技術從服務器和瀏覽器端日志記錄中自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,對
8、此進行分析加工,通過對客戶進行分類和聚類,從中可得到商家用于向特定消費群體或個體進行定向營銷的決策信息。了解系統(tǒng)的訪問模式以及用戶的行為模式,從而做出預測性分析。同時有效地對這些Web日志進行定量分析,提示其中的關聯(lián)關系、時序關系、頁