基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new

基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new

ID:33491279

大?。?.88 MB

頁數:75頁

時間:2019-02-26

基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new_第1頁
基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new_第2頁
基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new_第3頁
基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new_第4頁
基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new_第5頁
資源描述:

《基于示例的中文web信息自動獲取系統(tǒng)的研究與實現new》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫

1、Y8:i3319學校代碼:!鰱鯉分類號:——海南大學學號:』4l鯉密級:——碩士學位論文題目:作者:指導教師:專業(yè):研究方向:時間:基王丞倒的生交翹曲值息自麴菝壁苤統(tǒng)的班究皇實現..——毯壹。面~鏖耀紅一鐓:授.。一遵.值j復信息.丞統(tǒng)一.也鯉堡!壤.息.撿蠹.一三QQ五生.五目摘要現有的基于關鍵詞的搜索引擎雖然在一定程度上滿足了用戶查詢各種網絡信息的需要。但是沒有考慮用戶個體間的差異,無法滿足人們日益增長的個性化需求。中小型智能個性化網絡信息獲取系統(tǒng)憑借比搜索引擎更為優(yōu)質的網絡信息獲取服務贏得了越來越多的用戶的認同,已經成為個性化網絡信息獲取技術的一個重要研究方向。但是,中小型智能個性化

2、網絡信息獲取系統(tǒng)在用戶個性特征提取、基于用戶興趣的Web信息采集、網頁過濾等方面研究的滯后制約了這類系統(tǒng)的開發(fā)和使用。為此,本文通過基于示例的中文Web信息自動獲取系統(tǒng)的研發(fā)對這些問題展開了研究。在本文中,我們主要對中文示例Web頁面的特征抽取、待過濾Web信息源的采集、Web頁面的過濾等系統(tǒng)開發(fā)過程中面臨的技術難題進行了研究,提出一些新的算法、機制:為了減輕用戶的使用負擔,提出了一種適用于少量中文正例Web頁面的特征抽取方法,使得用戶即使只提交一至兩個示例也可完成興趣定制,增強了系統(tǒng)的易用性;提出了一種基于元搜索的Web頁面聚焦采集機制,能快速、有針對性地采集待過濾Web信息源,節(jié)約系統(tǒng)

3、資源和網絡資源:提出了一種可調節(jié)的過濾閾值設定方法,可按用戶選取的過濾精確等級向用戶推送興趣Web頁面。另外,我們改進了基于分塊的HTML網頁去噪解析方法,可以有效地剔除各種頁面噪聲、解析出Web頁面的正文文本內容;我們設計的系統(tǒng)構架具有較好的可擴展性、可維護性、可伸縮性以及可靠性,對其它個性化Web信息獲取系統(tǒng)的開發(fā)也具有一定的借鑒意義。最后在上述基礎上,我們確立了系統(tǒng)的技術方案,并據此實現了一個原型系統(tǒng)。我們的系統(tǒng)采用的技術方案是;采用多層客戶機/服務器體系結構,引入偽正例Web頁面并結合《人民日報》切分標注語料抽取用戶提交的少量示例網頁的特征來建立用戶興趣模板、設置過濾閾值,構建元搜

4、索引擎獲取待過濾Web信息源,使用向量空間模型過濾出興趣網頁并將它們推送給用戶,根據用戶對結果的反饋自適應地修改用戶興趣模板。實驗結果表明,較基于關鍵詞的機器人搜索引擎而言,我們的系統(tǒng)能充分考慮用戶的興趣偏好(示例),以較小的資源代價長期、主動地向用戶提供更加準確的Web信息獲取服務,具有一定的實用價值。關鍵詞:中文Web頁麗示例,Web信息獲取,特征抽取,信息采集,文本過濾,個性化ABSTRACTAlthoughcurrentsearchenginesbasedonkeywordssatisfytheneedofusers,networkinformationretrievalacert

5、ainextent,theydon’ttakethedifferenceofusersir曲aocount鋤dearl’tsatisfypeople’Spersonalizedneedswell.Comparingwiththesearchengines,themiddle-scaleandsmall—scalepersonalize×tWebinformation-obtainingsystemswithsomeintelligencearewinningmoreandmoreuserswiththeirhighqualityinformation-obtainingservices.A

6、ndSO,theyhavebeenanimportantresearchdirectionofthepersonalizedInteractinformation—obtainingtechnology.However,lacksofresearchesonusers’personalityfeaturesExtraction,Webcrawlingbasedonusers’interests,WebpagesfilteringandSOonarerestrictingtheirusagesanddevelopmentsnow.Thus,wegotintotheresearchonthes

7、elacksthroughthedevelopmentoftheChineseWebinformation—obtainingsystembasedonWebpageexamples.Inthispaper,wemainlyresearchedthedifficultproblemsinoursystemsuch夠featuresextractionofChineseWebpageexamples,crawlingofW

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。