資源描述:
《基于web內(nèi)容的中文文本信息過濾的研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、—--■?—';—.,-j>甘-,1子;六占iv?。壸樱蓿撸ВА?;:學(xué)校代碼—:10004國密級:公開^3膽謂胃mBEIJINGJIAOTONGUNIVERSITY碩女專業(yè)學(xué)位論文1基于Web內(nèi)容的中文文本信息過濾的j研究與實現(xiàn)—作者姓名楊立濤工程領(lǐng)域計算機技術(shù)—六,or謂㈱ig:賴!^諭^1驅(qū)《纖自麵謂^g如交道乂讓碩±專業(yè)學(xué)位論文基于Web內(nèi)容的中文文本信息過濾的研究與實現(xiàn)The民esearchandImlementationof化6Chine
2、seTextInformationpFiheringBasedonWebCon1;ent作者:楊立濤導(dǎo)師;王移芝北京交通大學(xué)2016年6月學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。特授權(quán)北京交通大學(xué)可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,提供閱覽服務(wù),并采用影印、縮印或掃描等復(fù)制手段保存、匯編W供查閱和借閱。同意學(xué)校向國家有關(guān)部口或機構(gòu)送交論文的復(fù)印件和磁盤。學(xué)??桑诪榇嬖陴^際合作關(guān)系的兄弟高校用戶提供文獻傳遞服務(wù)和交換服務(wù)。(保
3、密的學(xué)位論文在解密后適用本授權(quán)說明)學(xué)位論文作者簽名;導(dǎo)師簽名:V簽字日期:>/(年月^日簽字日期:如冷年月y日^10學(xué)校代碼:004密級:公開北京交通大學(xué)碩±專業(yè)學(xué)位論文基于Web內(nèi)容的中文文本信息過濾的研究與實現(xiàn)TheResearchandImlementationoftheChineseTextInformationpF化eringBasedonWebCon化nt作者姓名:楊立濤學(xué)號:14125209導(dǎo)師姓名:王移芝職稱;教授工程碩±專業(yè)領(lǐng)域:計算機技術(shù)
4、學(xué)位級別:碩±北京交通大學(xué)2016年6月致謝光陰似箭,歲月如歌。研究生的生活即將結(jié)束,回想起這兩年的生活,是那樣的快樂與美好。兩年的學(xué)習(xí)生活教會了我許多做人做事的道理,也使我各方面的能力得到了提升,這些收獲和進步都離不開老師的耐也教導(dǎo)和同學(xué)們的無私幫、、,。因此,在論文完成之際助更離不開家人的關(guān)屯和支持,對他們表示最衷屯的感謝和祝福。首先。本論文從選題到完成都是在王老師,要特別感謝我的導(dǎo)師王移芝教授一、的悉屯指導(dǎo)下完成的,每步都傾注了王老師的大量必血。正是她的悉也指導(dǎo)為一一直堅持不放棄。她嚴謹?shù)闹螌W(xué)態(tài)
5、我指明了前進的方向,是她每次的鼓勵讓我,度,高都將是我今后學(xué)習(xí)生活中的榜樣。,坦蕩的胸襟尚的人格一其次,他,更重要的是,感謝每位授課老師們不僅無私的傳授給我們知識。他們嚴謹?shù)闹螌W(xué)態(tài)度和高尚的人格品德教會了我們更多為人處事的道理在此,對每一位平凡卻偉大的老師表示深深的敬意巧美好的祝福。同時,,他,感謝實驗室的同學(xué)和朋友在本論文的完成過程中們提供了很多建議和幫助一。感謝研究生期間的每位同學(xué),是他們讓我的研究生生活別樣豐富多彩。在即將畢業(yè)之際,祝福他們將來的路越走越寬。一感謝我的家人直W來對我的默默支持一次跌倒時給我再次
6、,是他們在我每一奮斗的力量、,在我每次失意時給我最溫暖的安慰和關(guān)懷。他們是我不斷奮斗不斷前進的強大動力。、最后,,衷屯感謝在百忙之中評閱此稿的專家和老師感謝你們對本文提出的寶貴意見和建議。北京交通大學(xué)碩±專業(yè)學(xué)位論文摘要摘要,互聯(lián)網(wǎng)上的信息資源呈指數(shù)級増長隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展。豐富的信息資源在給用戶查詢信息、利用信息帶來方便的同時,也給用戶帶來了像信息迷向、正確信息獲取率低、垃圾信息泛濫等諸多問題。如何從海量的信息,成為目前亟待解決的問題資源中及時、準確地獲取用戶需要的信息。W一定的方法從大
7、規(guī)模的eb文本信息過濾,是指根據(jù)用戶的信息需求,利用動態(tài)信息流中篩選出用戶感興趣的文本信息,同時屏蔽掉無用信息的過程eb。W、中文文本的信息過濾涉及的技術(shù)主要有:Html頁面文本內(nèi)容的提取中文分詞、特征項提取與權(quán)重計算、、文本表示模型用戶興趣模板的構(gòu)建W及文本過濾算法等一eb。在對Web文本信息過濾進行研究的基礎(chǔ)上,本文實現(xiàn)了個W文本信息過濾系統(tǒng)模型,并通過實驗證明了該系統(tǒng)模型在過濾性能上的提升。本文主要的工作有下幾點:一(1)設(shè)計與實現(xiàn)了種多層次的Web文本信息過濾系統(tǒng)模型。該系統(tǒng)模型的過濾方法模仿人在閱讀報紙時
8、對信息的過濾過程。多層次過濾方法的原理是:在eb文本,對W進行過濾時,先采用關(guān)鍵字匹配的過濾方法對文本標題進行過濾如果通過篩選,