資源描述:
《基于web日志挖掘的推薦系統(tǒng)的研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、東北師范大學(xué)碩士學(xué)位論文基于Web日志挖掘的推薦系統(tǒng)的研究與實(shí)現(xiàn)姓名:劉麗娜申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo)教師:孫鐵利20080501摘要隨著Intemet應(yīng)用的迅速發(fā)展,網(wǎng)上信息迅速增加,大量的網(wǎng)絡(luò)信息使人們找到需要的信息更困難了,此種現(xiàn)象稱為信息過載。同時(shí),Intemet上信息資源分布的廣泛性又給用戶尋找感興趣的信息增加了困難,也就是所謂的信息迷失。目前大多數(shù)搜索引擎由于缺乏主動(dòng)性,沒有考慮用戶的興趣偏好,還不能有效地解決信息過載和信息迷失的問題。W曲日志挖掘是研究用戶Wreb瀏覽行為的主要技術(shù)和工具,了解用戶的瀏覽興趣是提高W.eb服務(wù)質(zhì)
2、量和改善站點(diǎn)結(jié)構(gòu)設(shè)計(jì)的重要環(huán)節(jié)。通過分析和研究用戶訪問情況的規(guī)律,可以識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)服務(wù)器質(zhì)量,并改進(jìn)Wreb服務(wù)器系統(tǒng)的結(jié)構(gòu)和性能n‘21。W曲挖掘技術(shù)的一個(gè)重要的研究方向是w.eb用戶聚類和頁面聚類,即通過用戶對(duì)網(wǎng)站的使用信息一Web日志文件的處理和研究,得到具有相似訪闖興趣的用戶群體和用戶共同感興趣的站點(diǎn)的UI也,據(jù)此可以判別和調(diào)整站點(diǎn)的結(jié)構(gòu)并進(jìn)行個(gè)性化服務(wù)口t4
3、。而目前的研究均存在一些不足,首先在聚類的相似性度量方面,單純地以瀏覽時(shí)間或訪問次數(shù)來度量,對(duì)于W,eb站點(diǎn)這種復(fù)雜的情況而言,該聚類是不夠準(zhǔn)確的。另外,他們均采用傳統(tǒng)的聚類
4、技術(shù),即把每個(gè)對(duì)象嚴(yán)格地劃分到某個(gè)類中,不能處理類間重疊問題。在本文中,首先介紹W
5、eb日志挖掘中數(shù)據(jù)預(yù)處理過程,包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事務(wù)識(shí)別。并分析各個(gè)步驟的目的、方法,給出每個(gè)步驟的實(shí)現(xiàn)算法。然后從用戶聚類,頁面聚類和頻繁訪問路徑三方面考慮網(wǎng)絡(luò)瀏覽模式。給出一些相關(guān)定義。并在原有的聚類算法基礎(chǔ)上,提出基于向量和模糊集理論的算法,對(duì)用戶和頁面進(jìn)行有效的聚類,并產(chǎn)生頻繁訪問路徑,從而為用戶進(jìn)行個(gè)性化推薦。最后,實(shí)現(xiàn)基于Wreb同志挖掘的推薦系統(tǒng)。關(guān)鍵字:W曲日志挖掘;個(gè)性化推薦;聚類AbstractWithtllerapiddeVe
6、lopmentoftheIntemet印plications,theinfomationofIntemetpromptsincreaSes.W1lilethehuge鋤ountofinfomationonmeIntemetmakesitIlarderforpeoplefindwhattheyacquire.Suchaphenomenoncouldbecalledi—’omationoverload.Atthesametime,tlle謝dedistributionofiⅢ.omationonthemtemetmakestlleusersfindintere
7、stedonemoredimcultmatisso-calledinfomationastray.MostsearchenginespresemlyhaVenotyetsolVeproblemsincludinginfo肌ationoverloadaIldinfonnationastrayeabctivelyo麗ngtoiIl賦icientinpositivecharacteristieandlaCkfortakingusers’硫erestintoconsideration.W曲logmillingism句ortecllIlology鋤dtoolstos
8、tudyWrebbrowSerofuserStouIlderStaIldtheuser’sinterestisaIlimponalltpanofimprovingtheq砌ityofsen,icesandtlles咖cnlraldesigIlofW曲site.Tllrou曲analysisandresearchthelawofusersaCcesssitllation,callidenti黟thepotemialcustomersofe—commerceaIldeIlllancethequal岫ofservera11dimproVethestmcturea
9、ndperf.ornl鋤ce¨一1ofW曲serversystem.AnimportantresearchdirectionofW曲logmiIlingteclulolog)ristheWrebuserSclusteraIldpagescluster,Ⅱ們u曲usersprocessa11dresearchusageinfonnationofmewebsite-W曲logfile,receivedauser粵.oupsandusersinterestedinthesitefsURLwithintereStedofsimilarvis“.wKchcaIlde
10、te咖ineandadjustthegcmctureofthesi