基于中文檢索的web聚類算法研究

基于中文檢索的web聚類算法研究

ID:35059618

大小:1.85 MB

頁數(shù):47頁

時間:2019-03-17

基于中文檢索的web聚類算法研究_第1頁
基于中文檢索的web聚類算法研究_第2頁
基于中文檢索的web聚類算法研究_第3頁
基于中文檢索的web聚類算法研究_第4頁
基于中文檢索的web聚類算法研究_第5頁
資源描述:

《基于中文檢索的web聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、分類號:TP391單位代碼:10190研究生學號:201307012密級:無碩士學位論文基于中文檢索的Web聚類算法研究ResearchonWebClusteringAlgorithmBasedonChineseRetrieval研究生姓名:田世元專業(yè):計算機科學與技術(shù)指導教師姓名:趙輝指導教師職稱:副教授2016年4月碩士學位論文長春工業(yè)大學碩士學位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的碩士學位論文,《基于中文檢索的Web聚類算法研究》是本人在指導教師的指導下,獨立進行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含

2、任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結(jié)果由本人承擔。作者簽名:年月日長春工業(yè)大學碩士學位論文版權(quán)使用授權(quán)書本學位論文作者及指導教師完全了解“長春工業(yè)大學碩士學位論文版權(quán)使用規(guī)定”,同意長春工業(yè)大學保留并向國家有關(guān)部門或機構(gòu)送交學位論文的復印件和電子版,允許論文被查閱和借閱。本人授權(quán)長春工業(yè)大學可以將本學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,也可采用影印、縮印或掃描等復制手段保存和匯編學位論文。作者簽名:年月日校內(nèi)指導教師簽名

3、:年月日碩士學位論文摘要隨著大數(shù)據(jù)時代的到來,用戶對信息搜索的精確度和效率提出了更高要求,而傳統(tǒng)的搜索引擎存在著一定的不足。聚類檢索是對搜索引擎的返回結(jié)果聚類,然后將提取的標簽和類簇呈現(xiàn)給用戶。用戶根據(jù)標簽就可以直觀地獲取檢索結(jié)果的總體信息,能夠迅速定位自己想要查找的內(nèi)容,提高了用戶的查詢效率。Carrot2是一個開源的聚類搜索引擎系統(tǒng),它采用的聚類算法在Web檢索聚類方面有很強的代表性。文章選取Carrot2采用的K-means和Lingo算法進行了深入研究,并針對算法的不足及存在問題做了一定的改進。K-means是經(jīng)典的劃分聚

4、類算法,其具有簡單易懂、運行速度快的優(yōu)點,然而也存在著一些不足,如K值的確定、初始聚類中心的選取、易受噪音點和孤立點的影響等多個方面。文章首先結(jié)合Web檢索結(jié)果的特點確定了K值并選出初始聚類中心,然后用權(quán)重法代替平均法降低了噪聲數(shù)據(jù)的影響。在經(jīng)過多次試驗后,又發(fā)現(xiàn)文檔的合理歸類問題。文章根據(jù)Web檢索結(jié)果的排名特點,改進了權(quán)值計算公式,使文檔歸入排名靠前的類簇中。如“華為”的檢索結(jié)果中,將文檔“華為手機大全”放入“手機”和“大全”的類簇中都不為錯,但歸入“手機”的類簇中顯然更加合適。Lingo算法是基于潛在語義索引的聚類算法。本文

5、分析了Lingo算法中影響聚類效果的因素,通過引入位置信息和詞長信息對其權(quán)值計算公式進行了改進,以提高聚類的準確率。實驗表明,改進后的K-means算法解決了硬聚類算法的文檔合理歸類問題,而且具有良好的聚類效果,標簽的可讀性也較高。改進的Lingo算法的準確率也有了較大提高。關(guān)鍵詞:Web檢索聚類K-meansLingo特征權(quán)值I碩士學位論文AbstractWiththeadventoftheeraofbigdata,usersputforwardhigherrequirementsoninformationsearchingac

6、curacyandefficiency,butthetraditionalsearchenginehassomedrawbacks.Clusteringsearchisthesearchenginereturnstheresultofclustering,andthenextractthelabelandclassclusterispresentedtotheuser.Accordingtothelabel,theusercanobtaintheoverallinformationoftheretrievalresultdirec

7、tly,andthenquicklylocatetheinformationofinterest,whichcanimprovetheefficiencyofthequery.Carrot2isanopensourceclusteringsearchenginesystem,whichusesclusteringalgorithmhasastrongrepresentationintheWebRetrievalClustering.Inthispaper,theK-meansandLingoalgorithmsusedinCarr

8、ot2aredeeplystudied,andsomeimprovementsaremade.ThispaperselectsK-meansalgorithmandLingoCarrot2usedtostudyandmakesomeimprovem

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。