資源描述:
《基于機器學習主題web挖掘技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、山東師范大學碩士學位論文基于機器學習的主題Web挖掘技術(shù)姓名:張娜申請學位級別:碩士專業(yè):計算機軟件與理論指導(dǎo)教師:張化祥20070427山東師范大學碩士學位論文基于機器學習的主題Web挖掘技術(shù)摘要隨著網(wǎng)絡(luò)信息資源的急劇增長,人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,獲取潛在的、有價值的信息,使之有效地在管理和決策中發(fā)揮作用。但當用戶面對這個海量、異構(gòu)、半結(jié)構(gòu)化的信息庫時,常常發(fā)現(xiàn)要查找到所、需的信息要耗費大量的時間和精力,甚至難以找到,造成了“信息過載、知識匱乏”的現(xiàn)象。主題Web挖掘是近幾年內(nèi)興起的一個被廣泛關(guān)注的研究課題。它利
2、用主題頁面在Web上的分布特點,根據(jù)用戶或系統(tǒng)定義的目標主題,以智能的方法在線爬行Web頁面,收集與目標主題相關(guān)的頁面,并對收集到的頁面進行智能分析和處理,最后將處理的頁面集合以靈活方便的檢索方式提供給用戶使用。許多項目的研究結(jié)果表明,主題Web挖掘方法能夠保持較高的主題相關(guān)度,提高查詢的精度.這為提高用戶查詢效率,提供了一個新的研究方向.一本文的貢獻和創(chuàng)新工作主要體現(xiàn)在以下幾個方面:1.~本文研究和分析了Web挖掘技術(shù)和機器學習理論。Web挖掘根據(jù)挖掘?qū)ο蟮牟煌环譃槿悾琖eb內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘.文中介紹了主題W
3、eb挖掘的理論及當前的研究現(xiàn)狀,結(jié)合主題Web頁面在網(wǎng)絡(luò)中的分布特征,闡明了進行主題Web挖掘的依據(jù)及存在的困難。機器學習是人工智能領(lǐng)域的一個重要分支,它主要研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,有目的地自動增進其性能,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能.本中主要研究了機器學習理論,對機器學習的模型、分類、及發(fā)展歷程作了介紹.同時,對機器學習在Web挖掘領(lǐng)域的應(yīng)用前景作了描述。2.Web爬蟲是一類可以通過下載Web頁面、分析頁面內(nèi)容、并跟隨其中的鏈接來遞歸遍歷Web的計算機程序。主題Web爬蟲能夠根據(jù)用戶或信
4、息檢索定義的目標主題,以智能的方式在線爬行Web,在有限的時間和空間資源條件下,收集到盡可能多的主題相關(guān)Web頁面。如何有效地控制主題爬蟲爬行策略是影響Web挖掘成功的最重要因素之一.本文結(jié)合機器學習理論,引入反例樣本學習理念,提出一種新的主題爬蟲爬行策略。實驗證明該策略能有效的提高查詢的收獲率。3.Web頁面重要性的計算是進行Web挖掘的一個重要問題.本文在原有HITS算山東師范大學碩士學位論文法的基礎(chǔ)上,加入了內(nèi)容相關(guān)度的計算,提出了一種新的計算頁面重要性的算法一囂HITS算法。4.本文設(shè)計了基于機器學習的主題Web挖掘系統(tǒng),并對各個模塊
5、的作用進行了介紹。該系統(tǒng)能夠根據(jù)用戶的查詢請求進行頁面收集,對收集到的頁面計算其重要性,最后把主題相關(guān)且重要的頁面反饋給用戶。同時,可根據(jù)用戶的反饋信息,進行進一步的系統(tǒng)調(diào)整。關(guān)鍵字:Web挖掘;機器學習;主題爬蟲;HITS分類號:TP391山東師范大學碩士學位論文TheTechnologyofTopicalWebMiningBasedonMachineLearningWiththewebinformationresourcesemergeabruptly,howtogetthosepotentialandvaluableinformatio
6、nfromnetworkhasattractedpeople’smoreandmoreattention.Confrontedwiththishuge,heterogeneousandsemi—structuralinformationrepository,Websurfersoftenhavetospendalotoftimeandeffortstofindinformationneeded,andeventhattheymayfailinmanycases;TopicalWebMiningisanewresearchdirectionin
7、recentyears,whichprovidesanewresearchdirection.Themaincontributionsofthethesiscanbesumnrizedasfollows:1.ThisarticlestudiesandanalysesWebMiningandMachineLearning.WebMiningisdividedintothreebranchesbydifferentobjects:WebContentMining、WebStructureMining、WebUsageMining.Accordin
8、gtothedistributionofthetopicWebpagesontheweb,TopicalWebMiningcollectsWebpageswhich