資源描述:
《一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、上海交通大學(xué)碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)姓名:潘靜申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):@指導(dǎo)教師:饒若楠;張保穩(wěn)20041201上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)上海交通大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究工作所取得的成果除文中已經(jīng)注明引用的內(nèi)容外本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品成果對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體均已在文中以明確方式標(biāo)明本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)學(xué)位論文作者簽名潘靜日期2005年1月13日2上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于W
2、eb挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)上海交通大學(xué)學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解學(xué)校有關(guān)保留使用學(xué)位論文的規(guī)定同意學(xué)校保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版允許論文被查閱和借閱本人授權(quán)上海交通大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索可以采用影印縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文保密在年解密后適用本授權(quán)書(shū)本學(xué)位論文屬于不保密請(qǐng)?jiān)谝陨戏娇騼?nèi)打?qū)W位論文作者簽名潘靜指導(dǎo)教師簽名饒若楠日期2005年1月13日日期2005年1月13日3上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
3、摘要Internet的迅速發(fā)展使之成全球信息傳遞與共享的日益重要和最具潛力的資源人們迫切需要找到這樣的工具,能夠從Web上快速有效的發(fā)現(xiàn)資源,發(fā)現(xiàn)隱含的規(guī)律性內(nèi)容,提高在Web上檢索信息利用信息的效率本文以某單位內(nèi)部網(wǎng)站中新聞子系統(tǒng)的改造項(xiàng)目為背景該子系統(tǒng)是基于Web挖掘的信息獲取系統(tǒng)其任務(wù)就是從指定的網(wǎng)站上搜索相關(guān)文檔把符合系統(tǒng)標(biāo)準(zhǔn)的文檔存入本地?cái)?shù)據(jù)庫(kù)再把這些文檔按一定的分類方法標(biāo)識(shí)為不同的類別并為內(nèi)部員工提供查詢?yōu)g覽的服務(wù)原系統(tǒng)的實(shí)現(xiàn)方式比較簡(jiǎn)單因而導(dǎo)致所抓取Web文檔的準(zhǔn)確率較低對(duì)于所獲取文檔的分類以人工分類為主代價(jià)比較高因此提高Web文檔獲取的準(zhǔn)確率以及對(duì)文檔自動(dòng)進(jìn)行分
4、類/聚類是該子系統(tǒng)的主要目標(biāo)本文對(duì)實(shí)現(xiàn)系統(tǒng)所需要的技術(shù)進(jìn)行了深入的探討文章的主要內(nèi)容包括l簡(jiǎn)要介紹了數(shù)據(jù)挖掘和Web挖掘的歷史發(fā)展技術(shù)分類以及目前狀況l深入研究了從Internet上自動(dòng)獲取Web文檔的技術(shù)以及如何處理Web文檔的數(shù)據(jù)并對(duì)一些算法進(jìn)行改進(jìn)以符合實(shí)4上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)際系統(tǒng)的需求l研究并討論了如何在已獲取的Web文檔中進(jìn)一步進(jìn)行挖掘的相關(guān)技術(shù)包括分類/聚類的一些算法l結(jié)合實(shí)際的項(xiàng)目選擇了部分上述所研究的方法將它們應(yīng)用到系統(tǒng)的設(shè)計(jì)中并給出了部分的實(shí)現(xiàn)以及它們的實(shí)驗(yàn)結(jié)果[關(guān)鍵詞]Web文本挖掘,搜索引擎,文本預(yù)處理,
5、文本分類,文本聚類5上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)DESIGNANDREALIZATIONOFANINFORMATIONRETRIEVALSYSTEMBASEDONWEBMININGABSTRACTInternethasbecamethemostimportantandpotentialresourcefortransmissionandshareofglobalinformation.BecausetremendousandheteromorphicWebinformationcontainsalargenumberofpotentia
6、llyusefulknowledge,peopleareurgenttofindsuchtools,whichcoulddiscoverresourcesfromWebquicklyandefficientlyandcouldfindregularcontentswhichwerehiddeninthem.Withthesetools,theefficiencyofinformation,retrievationandutilizationcouldbepromoted.Thispaperisbasedonarebuiltprojectofanewssubsysteminthe
7、intranetofacompany.ThesubsystemisaretrievalinformationsystembasedonWebMining.AnditsmaintaskistosearchforrelateddocumentsfromspecifiedWebsites.Aftergettingdocumentsinaccordancewithsystemstandards,thesubsystemputsthemintodifferentclassesandthenprovid