一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)

一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)

ID:33473963

大?。?81.77 KB

頁數(shù):74頁

時(shí)間:2019-02-26

一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)_第1頁
一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)_第2頁
一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)_第3頁
一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)_第4頁
一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)_第5頁
資源描述:

《一個(gè)基于web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、上海交通大學(xué)碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)姓名:潘靜申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):@指導(dǎo)教師:饒若楠;張保穩(wěn)20041201上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)上海交通大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究工作所取得的成果除文中已經(jīng)注明引用的內(nèi)容外本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的作品成果對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體均已在文中以明確方式標(biāo)明本人完全意識(shí)到本聲明的法律結(jié)果由本人

2、承擔(dān) 學(xué)位論文作者簽名潘靜2日期2005年?。薄≡隆。保橙丈虾=煌ù髮W(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)上海交通大學(xué)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留使用學(xué)位論文的規(guī)定同意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版允許論文被查閱和借閱本人授權(quán)上海交通大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索可以采用影印縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文保密在   年解密后適用本授權(quán)書  本學(xué)位論文屬于       

3、             不保密請(qǐng)?jiān)谝陨戏娇騼?nèi)打  學(xué)位論文作者簽名 潘 靜       指導(dǎo)教師簽名饒若楠 日期2005年?。薄≡隆。保橙铡      ∪掌? 2005年?。痹隆。保橙丈虾=煌ù髮W(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)摘要Internet的迅速發(fā)展使之成全球信息傳遞與共享的日益重要和最具潛力的資源人們迫切需要找到這樣的工具, 能夠從Web 上快速有效的發(fā)現(xiàn)資源, 發(fā)現(xiàn)隱含的規(guī)律性內(nèi)容, 提高在Web上檢

4、索信息利用信息的效率 本文以某單位內(nèi)部網(wǎng)站中新聞子系統(tǒng)的改造項(xiàng)目為背景該子系統(tǒng)是基于Web挖掘的信息獲取系統(tǒng)其任務(wù)就是從指定的網(wǎng)站上搜索相關(guān)文檔把符合系統(tǒng)標(biāo)準(zhǔn)的文檔存入本地?cái)?shù)據(jù)庫再把這些文檔按一定的分類方法標(biāo)識(shí)為不同的類別并為內(nèi)部員工提供查詢?yōu)g覽的服務(wù)原系統(tǒng)的實(shí)現(xiàn)方式比較簡單因而導(dǎo)致所抓取Web文檔的準(zhǔn)確率較低對(duì)于所獲取文檔的分類以人工分類為主代價(jià)比較高因此提高Web文檔獲取的準(zhǔn)確率以及對(duì)文檔自動(dòng)進(jìn)行分類/聚類是該子系統(tǒng)的主要目標(biāo) 本文對(duì)實(shí)現(xiàn)系統(tǒng)所需要的技術(shù)進(jìn)行了深入的探討文章的主要內(nèi)容包括

5、 l簡要介紹了數(shù)據(jù)挖掘和Web挖掘的歷史發(fā)展技術(shù)分類以及目前狀況 l深入研究了從Internet上自動(dòng)獲取Web文檔的技術(shù)以及如何處理Web文檔的數(shù)據(jù)并對(duì)一些算法進(jìn)行改進(jìn)以符合實(shí)4上海交通大學(xué)工程碩士學(xué)位論文際系統(tǒng)的需求 一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)l研究并討論了如何在已獲取的Web文檔中進(jìn)一步進(jìn)行挖掘的相關(guān)技術(shù)包括分類/聚類的一些算法 l結(jié)合實(shí)際的項(xiàng)目選擇了部分上述所研究的方法將它們應(yīng)用到系統(tǒng)的設(shè)計(jì)中并給出了部分的實(shí)現(xiàn)以及它們的實(shí)驗(yàn)結(jié)果 ?。坳P(guān)鍵詞] Web文本挖掘,

6、搜索引擎,文本預(yù)處理,文本分類,文本聚類                5上海交通大學(xué)工程碩士學(xué)位論文一個(gè)基于Web挖掘的信息獲取系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)DESIGNANDREALIZATIONOFANINFORMATIONRETRIEVALSYSTEMBASEDONWEBMININGABSTRACTInternet?。瑁幔蟆。猓澹悖幔恚濉。簦瑁濉。恚铮螅簟。椋恚穑铮颍簦幔睿簟。幔睿洹。穑铮簦澹睿簦椋幔臁。颍澹螅铮酰颍悖濉。妫铮颉。簦颍幔睿螅恚椋螅螅椋铮睢。幔睿洹。螅瑁幔颍濉。铮妗。纾欤铮猓幔臁。椋睿妫铮颍?/p>

7、ation .?。拢澹悖幔酰螅濉。簦颍澹恚澹睿洌铮酰蟆。幔睿洹。瑁澹簦澹颍铮恚铮颍穑瑁椋恪。祝澹狻。椋睿妫铮颍恚幔簦椋铮睢。悖铮睿簦幔椋睿蟆。帷。欤幔颍纾濉。睿酰恚猓澹颉。铮妗。穑铮簦澹睿簦椋幔欤欤。酰螅澹妫酰臁。耄睿铮鳎欤澹洌纾?,?。穑澹铮穑欤濉。幔颍濉。酰颍纾澹睿簟。簦铩。妫椋睿洹。螅酰悖琛。簦铮铮欤?,?。鳎瑁椋悖琛。悖铮酰欤洹。洌椋螅悖铮觯澹颉。颍澹螅铮酰颍悖澹蟆。妫颍铮怼。祝澹狻。瘢酰椋悖耄欤。幔睿洹。澹妫妫椋悖椋澹睿簦欤。幔睿洹。悖铮酰欤洹。妫椋睿洹。颍澹纾酰欤幔颉。悖铮睿簦澹睿簦蟆?/p>

8、which?。鳎澹颍濉。瑁椋洌洌澹睢。椋睢。簦瑁澹怼。。祝椋簦琛。簦瑁澹螅濉。簦铮铮欤?, the?。澹妫妫椋悖椋澹睿悖。铮妗。椋睿妫铮颍恚幔簦椋铮睢?, retrievation?。幔睿洹。酰簦椋欤椋幔簦椋铮睢。悖铮酰欤洹。猓濉。穑颍铮恚铮簦澹洌。裕瑁椋蟆。穑幔穑澹颉。椋蟆。猓幔螅澹洹。铮睢。帷。颍澹猓酰椋欤簟。穑颍铮辏澹悖簟。铮妗。帷。睿澹鳎蟆。螅酰猓螅螅簦澹怼。椋睢。簦瑁濉。椋睿簦颍幔睿澹簟。铮妗。帷。悖铮恚穑幔睿。裕瑁濉。螅酰猓螅螅簦澹怼。椋蟆。帷?/p>

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。