資源描述:
《基于機器學(xué)習(xí)的主題web挖掘技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于機器學(xué)習(xí)的主題Web挖掘技術(shù)摘要:本文研究和分析了Web挖掘技術(shù)和機器學(xué)習(xí)理論。機器學(xué)習(xí)是人工智能領(lǐng)域的一個重要分支,它主要研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,有目的地自動增進(jìn)其性能,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能.本中主要研究了機器學(xué)習(xí)理論,對機器學(xué)習(xí)的模型、分類、及發(fā)展歷程作了介紹.同時,對機器學(xué)習(xí)在Web挖掘領(lǐng)域的應(yīng)用前景作了描述。Web頁面重要性的計算是進(jìn)行Web挖掘的一個重要問題?本文在原有HITS算法的基礎(chǔ)上,加入了內(nèi)容相關(guān)度的計算,提出了一種新的計算頁面重要性的算法一HITS算法
2、。關(guān)鍵字:A:Web挖掘;B:機器學(xué)習(xí);C:H1TSTheTechnologyofTopicalWebMiningBasedonMachineLearningThisarticlestudiesandanalysesWebNliningandMachineLearning.MachineLearningisanimportantbranchofthefieldofartificialintelligence.ThispaperpresentsthemodelofMachineTxarning,classification?andthed
3、evelopmentprocessoMeanwhile,eNbchincLearninginthefieldofWebMiningapplicationisdescribed.ThecalculationofWebpage"sauthorityradioisanimportantissueforWebMining.BasedontheHITSalgorithm^wcadvanceanewalgorithmforcalculatingtheimportance——theWHITSalgorithmKeylrords:A:WebMining
4、;B:MachineLearning;A:HITS隨著網(wǎng)絡(luò)信息資源的急劇增長,人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,獲取潛在的、有價值的信息,使之有效地在管理和決策中發(fā)揮作用。但當(dāng)用戶面對這個海量、異構(gòu)、半結(jié)構(gòu)化的信息庫時,常常發(fā)現(xiàn)要查找到所需的信息要耗費大量的時間和精力,甚至難以找到,造成了“信息過載、知識匱乏”的現(xiàn)象。主題Web挖掘是近幾年內(nèi)興起的一個被廣泛關(guān)注的研究課題。它利用主題頁面在Web上的分布特點,根據(jù)用戶或系統(tǒng)定義的目標(biāo)主題,以智能的方法在線爬行Web頁面,收集與目標(biāo)主題相關(guān)的頁面,并對收集到的頁面進(jìn)行智能
5、分析和處理,最后將處理的頁面集合以靈活方便的檢索方式提供給用戶使用。許多項目的研究結(jié)果表明,主題Web挖掘方法能夠保持較高的主題相關(guān)度,提高查詢的精度.這為提高用戶查詢效率,提供了一個新的研究方向.1.緒論1?1研究背景隨著因特網(wǎng)(Internet)的迅速發(fā)展,網(wǎng)絡(luò)對我們的影響已經(jīng)越來越大,日漸成為人們獲得信息的必要途徑和重要手段.而在網(wǎng)上發(fā)展最為迅猛的WWW(WorldWideWeb)技術(shù),以其直觀、方便的使用方式和豐富的表達(dá)能力,己經(jīng)發(fā)展成為一個全球化信息發(fā)展空間。隨著信息時代的到來和發(fā)展,Web上的信息如雨后春筍般迅速增長起來。2
6、007年23口,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布'第十九次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》。報告顯示,截止到2006年12月31n,我國網(wǎng)民人數(shù)達(dá)到了13700萬人,與去年同期相比增長了23.4%,其中寬帶上網(wǎng)網(wǎng)民人數(shù)己突破一億.目前,我國網(wǎng)民數(shù)和寬居世界第二'”?然而面對這個分散無序的海量信息庫,Web用戶經(jīng)常發(fā)現(xiàn)難以找到能滿足他們需要的息,造成“信息過載,知識匱乏”的現(xiàn)狀.一方面網(wǎng)上的信息多種多樣、豐富多彩,一方面用戶卻找不到他們所需要信息?這一矛盾的主要原因是人們在如此大的信息庫里,很難用瀏覽的方式找到口己所需的信息。這
7、一現(xiàn)彖促使一種以Web搜索引擎為主的,用于提取網(wǎng)絡(luò)有效資源的信息檢索技術(shù)應(yīng)運而生了。Google,Infoseek,Baidu,AltaVista>天網(wǎng)等國內(nèi)外知名的搜索引擎正是人們?yōu)榱私鉀Q網(wǎng)上信息檢索的難題,而在信息檢索領(lǐng)域進(jìn)行大量研究后的成果。1.2Web挖掘與相關(guān)研究內(nèi)容Web挖掘si就是從Web頁面和Web用戶訪問活動屮發(fā)現(xiàn)、抽取感興趣的潛在的模式和隱藏的信息。它是以從Web上挖掘有用知識為冃標(biāo),以數(shù)據(jù)挖掘、文本挖掘、體挖掘為基礎(chǔ),并綜合運用計算機網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉儲、人工智能、信息檢索、可視化、自然語言理解等技術(shù),將傳統(tǒng)的數(shù)
8、據(jù)挖掘技術(shù)與Web結(jié)合起來的一門新興學(xué)科。介紹一下Web挖掘相關(guān)領(lǐng)域的研究,以及它們與Web挖掘的聯(lián)系。2.Web挖掘理論簡介萬維網(wǎng)作為一個巨大的、分布廣泛的全球性信息服務(wù)小心,服務(wù)內(nèi)容不僅涉及新聞、消費信