資源描述:
《基于示例的中文web信息自動(dòng)獲取系統(tǒng)的研究與實(shí)現(xiàn)new》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、Y8:i3319學(xué)校代碼:!鰱鯉分類號(hào):——海南大學(xué)學(xué)號(hào):』4l鯉密級(jí):——碩士學(xué)位論文題目:作者:指導(dǎo)教師:專業(yè):研究方向:時(shí)間:基王丞倒的生交翹曲值息自麴菝壁苤統(tǒng)的班究皇實(shí)現(xiàn)..——毯壹。面~鏖耀紅一鐓:授.。一遵.值j復(fù)信息.丞統(tǒng)一.也鯉堡!壤.息.撿蠹.一三QQ五生.五目摘要現(xiàn)有的基于關(guān)鍵詞的搜索引擎雖然在一定程度上滿足了用戶查詢各種網(wǎng)絡(luò)信息的需要。但是沒有考慮用戶個(gè)體間的差異,無法滿足人們?nèi)找嬖鲩L(zhǎng)的個(gè)性化需求。中小型智能個(gè)性化網(wǎng)絡(luò)信息獲取系統(tǒng)憑借比搜索引擎更為優(yōu)質(zhì)的網(wǎng)絡(luò)信息獲取服務(wù)贏得了越來越多的用戶的認(rèn)同,已經(jīng)成為個(gè)性化網(wǎng)絡(luò)信息獲取技術(shù)的一個(gè)重要研究方向。但是,中小型智能個(gè)性化
2、網(wǎng)絡(luò)信息獲取系統(tǒng)在用戶個(gè)性特征提取、基于用戶興趣的Web信息采集、網(wǎng)頁過濾等方面研究的滯后制約了這類系統(tǒng)的開發(fā)和使用。為此,本文通過基于示例的中文Web信息自動(dòng)獲取系統(tǒng)的研發(fā)對(duì)這些問題展開了研究。在本文中,我們主要對(duì)中文示例Web頁面的特征抽取、待過濾Web信息源的采集、Web頁面的過濾等系統(tǒng)開發(fā)過程中面臨的技術(shù)難題進(jìn)行了研究,提出一些新的算法、機(jī)制:為了減輕用戶的使用負(fù)擔(dān),提出了一種適用于少量中文正例Web頁面的特征抽取方法,使得用戶即使只提交一至兩個(gè)示例也可完成興趣定制,增強(qiáng)了系統(tǒng)的易用性;提出了一種基于元搜索的Web頁面聚焦采集機(jī)制,能快速、有針對(duì)性地采集待過濾Web信息源,節(jié)約系統(tǒng)
3、資源和網(wǎng)絡(luò)資源:提出了一種可調(diào)節(jié)的過濾閾值設(shè)定方法,可按用戶選取的過濾精確等級(jí)向用戶推送興趣Web頁面。另外,我們改進(jìn)了基于分塊的HTML網(wǎng)頁去噪解析方法,可以有效地剔除各種頁面噪聲、解析出Web頁面的正文文本內(nèi)容;我們?cè)O(shè)計(jì)的系統(tǒng)構(gòu)架具有較好的可擴(kuò)展性、可維護(hù)性、可伸縮性以及可靠性,對(duì)其它個(gè)性化Web信息獲取系統(tǒng)的開發(fā)也具有一定的借鑒意義。最后在上述基礎(chǔ)上,我們確立了系統(tǒng)的技術(shù)方案,并據(jù)此實(shí)現(xiàn)了一個(gè)原型系統(tǒng)。我們的系統(tǒng)采用的技術(shù)方案是;采用多層客戶機(jī)/服務(wù)器體系結(jié)構(gòu),引入偽正例Web頁面并結(jié)合《人民日?qǐng)?bào)》切分標(biāo)注語料抽取用戶提交的少量示例網(wǎng)頁的特征來建立用戶興趣模板、設(shè)置過濾閾值,構(gòu)建元搜
4、索引擎獲取待過濾Web信息源,使用向量空間模型過濾出興趣網(wǎng)頁并將它們推送給用戶,根據(jù)用戶對(duì)結(jié)果的反饋?zhàn)赃m應(yīng)地修改用戶興趣模板。實(shí)驗(yàn)結(jié)果表明,較基于關(guān)鍵詞的機(jī)器人搜索引擎而言,我們的系統(tǒng)能充分考慮用戶的興趣偏好(示例),以較小的資源代價(jià)長(zhǎng)期、主動(dòng)地向用戶提供更加準(zhǔn)確的Web信息獲取服務(wù),具有一定的實(shí)用價(jià)值。關(guān)鍵詞:中文Web頁麗示例,Web信息獲取,特征抽取,信息采集,文本過濾,個(gè)性化ABSTRACTAlthoughcurrentsearchenginesbasedonkeywordssatisfytheneedofusers,networkinformationretrievalacert
5、ainextent,theydon’ttakethedifferenceofusersir曲aocount鋤dearl’tsatisfypeople’Spersonalizedneedswell.Comparingwiththesearchengines,themiddle-scaleandsmall—scalepersonalize×tWebinformation-obtainingsystemswithsomeintelligencearewinningmoreandmoreuserswiththeirhighqualityinformation-obtainingservices.A
6、ndSO,theyhavebeenanimportantresearchdirectionofthepersonalizedInteractinformation—obtainingtechnology.However,lacksofresearchesonusers’personalityfeaturesExtraction,Webcrawlingbasedonusers’interests,WebpagesfilteringandSOonarerestrictingtheirusagesanddevelopmentsnow.Thus,wegotintotheresearchonthes
7、elacksthroughthedevelopmentoftheChineseWebinformation—obtainingsystembasedonWebpageexamples.Inthispaper,wemainlyresearchedthedifficultproblemsinoursystemsuch夠featuresextractionofChineseWebpageexamples,crawlingofW