基于機器學(xué)習(xí)的主題web挖掘技術(shù)

ID：30994442

大?。?5.00 KB

頁數(shù)：4頁

時間：2019-01-05

資源描述：

《基于機器學(xué)習(xí)的主題web挖掘技術(shù)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于機器學(xué)習(xí)的主題Web挖掘技術(shù)摘要:本文研究和分析了Web挖掘技術(shù)和機器學(xué)習(xí)理論。機器學(xué)習(xí)是人工智能領(lǐng)域的一個重要分支，它主要研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，有目的地自動增進(jìn)其性能，以獲取新的知識或技能，重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能.本中主要研究了機器學(xué)習(xí)理論，對機器學(xué)習(xí)的模型、分類、及發(fā)展歷程作了介紹.同時，對機器學(xué)習(xí)在Web挖掘領(lǐng)域的應(yīng)用前景作了描述。Web頁面重要性的計算是進(jìn)行Web挖掘的一個重要問題?本文在原有HITS算法的基礎(chǔ)上，加入了內(nèi)容相關(guān)度的計算，提出了一種新的計算頁面重要性的算法一HITS算法

2、。關(guān)鍵字：A:Web挖掘；B:機器學(xué)習(xí)；C:H1TSTheTechnologyofTopicalWebMiningBasedonMachineLearningThisarticlestudiesandanalysesWebNliningandMachineLearning.MachineLearningisanimportantbranchofthefieldofartificialintelligence.ThispaperpresentsthemodelofMachineTxarning,classification?andthed

3、evelopmentprocessoMeanwhile,eNbchincLearninginthefieldofWebMiningapplicationisdescribed.ThecalculationofWebpage"sauthorityradioisanimportantissueforWebMining.BasedontheHITSalgorithm^wcadvanceanewalgorithmforcalculatingtheimportance——theWHITSalgorithmKeylrords:A:WebMining

4、;B:MachineLearning;A:HITS隨著網(wǎng)絡(luò)信息資源的急劇增長，人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中，獲取潛在的、有價值的信息，使之有效地在管理和決策中發(fā)揮作用。但當(dāng)用戶面對這個海量、異構(gòu)、半結(jié)構(gòu)化的信息庫時，常常發(fā)現(xiàn)要查找到所需的信息要耗費大量的時間和精力，甚至難以找到，造成了“信息過載、知識匱乏”的現(xiàn)象。主題Web挖掘是近幾年內(nèi)興起的一個被廣泛關(guān)注的研究課題。它利用主題頁面在Web上的分布特點，根據(jù)用戶或系統(tǒng)定義的目標(biāo)主題，以智能的方法在線爬行Web頁面，收集與目標(biāo)主題相關(guān)的頁面，并對收集到的頁面進(jìn)行智能

5、分析和處理，最后將處理的頁面集合以靈活方便的檢索方式提供給用戶使用。許多項目的研究結(jié)果表明，主題Web挖掘方法能夠保持較高的主題相關(guān)度，提高查詢的精度.這為提高用戶查詢效率，提供了一個新的研究方向.1.緒論1?1研究背景隨著因特網(wǎng)(Internet)的迅速發(fā)展，網(wǎng)絡(luò)對我們的影響已經(jīng)越來越大，日漸成為人們獲得信息的必要途徑和重要手段.而在網(wǎng)上發(fā)展最為迅猛的WWW(WorldWideWeb)技術(shù)，以其直觀、方便的使用方式和豐富的表達(dá)能力，己經(jīng)發(fā)展成為一個全球化信息發(fā)展空間。隨著信息時代的到來和發(fā)展，Web上的信息如雨后春筍般迅速增長起來。2

6、007年23口，中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布'第十九次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》。報告顯示，截止到2006年12月31n,我國網(wǎng)民人數(shù)達(dá)到了13700萬人，與去年同期相比增長了23.4%,其中寬帶上網(wǎng)網(wǎng)民人數(shù)己突破一億.目前，我國網(wǎng)民數(shù)和寬居世界第二'”?然而面對這個分散無序的海量信息庫，Web用戶經(jīng)常發(fā)現(xiàn)難以找到能滿足他們需要的息,造成“信息過載，知識匱乏”的現(xiàn)狀.一方面網(wǎng)上的信息多種多樣、豐富多彩，一方面用戶卻找不到他們所需要信息?這一矛盾的主要原因是人們在如此大的信息庫里，很難用瀏覽的方式找到口己所需的信息。這

7、一現(xiàn)彖促使一種以Web搜索引擎為主的，用于提取網(wǎng)絡(luò)有效資源的信息檢索技術(shù)應(yīng)運而生了。Google,Infoseek,Baidu,AltaVista＞天網(wǎng)等國內(nèi)外知名的搜索引擎正是人們?yōu)榱私鉀Q網(wǎng)上信息檢索的難題，而在信息檢索領(lǐng)域進(jìn)行大量研究后的成果。1.2Web挖掘與相關(guān)研究內(nèi)容Web挖掘si就是從Web頁面和Web用戶訪問活動屮發(fā)現(xiàn)、抽取感興趣的潛在的模式和隱藏的信息。它是以從Web上挖掘有用知識為冃標(biāo)，以數(shù)據(jù)挖掘、文本挖掘、體挖掘為基礎(chǔ)，并綜合運用計算機網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉儲、人工智能、信息檢索、可視化、自然語言理解等技術(shù)，將傳統(tǒng)的數(shù)

8、據(jù)挖掘技術(shù)與Web結(jié)合起來的一門新興學(xué)科。介紹一下Web挖掘相關(guān)領(lǐng)域的研究，以及它們與Web挖掘的聯(lián)系。2.Web挖掘理論簡介萬維網(wǎng)作為一個巨大的、分布廣泛的全球性信息服務(wù)小心，服務(wù)內(nèi)容不僅涉及新聞、消費信

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

基于機器學(xué)習(xí)的主題web挖掘技術(shù)

基于機器學(xué)習(xí)的主題web挖掘技術(shù)

相關(guān)文章

相關(guān)標(biāo)簽