中文信息檢索引擎中的分詞與檢索技術(shù)

中文信息檢索引擎中的分詞與檢索技術(shù)

ID:31730543

大?。?9.53 KB

頁數(shù):4頁

時間:2019-01-17

中文信息檢索引擎中的分詞與檢索技術(shù)_第1頁
中文信息檢索引擎中的分詞與檢索技術(shù)_第2頁
中文信息檢索引擎中的分詞與檢索技術(shù)_第3頁
中文信息檢索引擎中的分詞與檢索技術(shù)_第4頁
資源描述:

《中文信息檢索引擎中的分詞與檢索技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、第24卷第7期2004年7月計算機應(yīng)用ConputerApplications文章編號:1001?9081(2004)07?0128-04中文信息檢索引擎中的分詞與檢索技術(shù)吳棟,滕育平(南開大學(xué)組合數(shù)學(xué)研究中心核心數(shù)學(xué)與組合數(shù)學(xué)教育部重點實驗室,天津300071)(tcngyuping@notionsoft?com)摘要:文中論述了在開發(fā)中文信息檢索系統(tǒng)中所涉及到的兩項關(guān)鍵技術(shù),即中文分詞技術(shù)和檢索技術(shù)。針對中文分詞技術(shù),介紹了一種改進的正向最大匹配切分算法,以及為消除歧義引入的校正策略,并在此基礎(chǔ)上結(jié)合統(tǒng)計方法處理未登錄詞。針對檢索技術(shù),綜述了幾種最常用的檢索模型的

2、原理,并對每種模型的優(yōu)缺點進行了簡要分析。最后對給出的分詞算法進行了測試,測試結(jié)果表明該分詞算法準確度和效率能夠滿足實用的要求。矢鍵詞:信息檢索;搜索引擎;分詞技術(shù);檢索技術(shù)中圖分類號:TP317.2文獻標識碼:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesWUDong,TENGYiQ?ing(Lalx)ratory(fPureMathematicsandCombinatorics,CenterforCombinatorics,NankaiUniverity,Tianjin300071

3、,China)Abstract:keytechniquesinthedevelopmentofChineseInformationRetrievalSystemarcdiscussedinthispaper,i?c..Chinesewordsegmentationandsearchtechnique?ForChinesewordsegmentation,thepaperpresentsaninpiuvedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatiSticmethodfor

4、unkix)wnwordsrecognitionbasedorthepreviousmetliods?R)rsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyze、theadvantagesanddisadvantagesofeachmodelsinply?Atlast,thegivensegmentationalgorithmisevaluated,andtheresult5revealthattheveracityandefficiencyofthe

5、algorithmcansatisfytheappliedrequest.Keywords:infonnationretrieval;searchengine;wordsegmentation;searchtechnique關(guān)査網(wǎng)用戶査詢農(nóng)達式授序愴入泗分詞位*1位蜃2in)2??????何3??????圖1中文信息處理和檢索過程收稿日期:2003-12?02:修訂日期:2004-06-12作者簡介:吳棟(1980-),男,上海人,博士研究生,主要研究方向:組合數(shù)學(xué);滕育平(1980-),男,湖北孝感人,碩士研究生,主要研究方向:組合數(shù)學(xué)、計算機軟件.0引言隨著社會的

6、不斷進步,特別是在互聯(lián)網(wǎng)迅猛發(fā)展的今天,人們在不斷地接觸形形色色的信息,同時也耍對這些信息進行過濾,從而提取出對自己真正有用的內(nèi)容°為了達到這個日的、人們開發(fā)出了眾多的檢索引擎,有針對Web進行搜索的Cboglc、百度等,也有針對各行業(yè)開發(fā)的專題檢索系統(tǒng)。目前國內(nèi)的每個行業(yè)、領(lǐng)域都在飛速發(fā)展,這屮間產(chǎn)生了大量的咔文信息資源,為了能夠及時準確的獲取最新的信總沖文檢嗪引擎是必然的產(chǎn)物。中文檢索引擎與西文檢索引擎在實現(xiàn)的機制和丿京理上基本一致,但由于漢語本身的特點,必須引入對于中文語言的處理技術(shù),而中文分詞技術(shù)就是其中很關(guān)鍵的部分O1中文檢索引擎的基本原理常見的中文檢索引擎

7、主要完成兩方面的任務(wù):1)信總的規(guī)范化。將搜集來的信息按照一定的方式進行組織管理,使之成為可以高效檢索的信息庫。2)信息的檢索和表達。以索引好的信息庫作為信息宜礎(chǔ),利用信息庫已被索引的特點,實施快速檢索,同時根據(jù)用戶的需求將檢索結(jié)果進行輸出。信息的規(guī)范化包括分詞和索弓1(以及資料的搜集和罄理)、更新(維護)兩部分;信息的檢索包括搜索、結(jié)果輸岀說部分。整個信息處理和檢索過程如圖1所示。2中文分詞技術(shù)2.1漢語的特點詞是故小的、能獨立活動的、有意義的語言成分。因此,通常的檢索引擎都是以每一個獨立的詞為單位建立索引,在查詢時按照檢索詞出現(xiàn)的位置和頻率對文檔

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。