中文信息檢索引擎中的分詞與檢索技術(shù)

ID：31730543

大?。?9.53 KB

頁數(shù)：4頁

時間：2019-01-17

資源描述：

《中文信息檢索引擎中的分詞與檢索技術(shù)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、第24卷第7期2004年7月計算機應(yīng)用ConputerApplications文章編號：1001?9081(2004)07?0128-04中文信息檢索引擎中的分詞與檢索技術(shù)吳棟,滕育平(南開大學(xué)組合數(shù)學(xué)研究中心核心數(shù)學(xué)與組合數(shù)學(xué)教育部重點實驗室，天津300071)(tcngyuping@notionsoft?com)摘要:文中論述了在開發(fā)中文信息檢索系統(tǒng)中所涉及到的兩項關(guān)鍵技術(shù)，即中文分詞技術(shù)和檢索技術(shù)。針對中文分詞技術(shù)，介紹了一種改進的正向最大匹配切分算法，以及為消除歧義引入的校正策略，并在此基礎(chǔ)上結(jié)合統(tǒng)計方法處理未登錄詞。針對檢索技術(shù)，綜述了幾種最常用的檢索模型的

2、原理，并對每種模型的優(yōu)缺點進行了簡要分析。最后對給出的分詞算法進行了測試，測試結(jié)果表明該分詞算法準確度和效率能夠滿足實用的要求。矢鍵詞:信息檢索;搜索引擎;分詞技術(shù);檢索技術(shù)中圖分類號：TP317.2文獻標識碼:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesWUDong,TENGYiQ?ing(Lalx)ratory(fPureMathematicsandCombinatorics,CenterforCombinatorics,NankaiUniverity,Tianjin300071

3、,China)Abstract:keytechniquesinthedevelopmentofChineseInformationRetrievalSystemarcdiscussedinthispaper,i?c..Chinesewordsegmentationandsearchtechnique?ForChinesewordsegmentation,thepaperpresentsaninpiuvedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatiSticmethodfor

4、unkix)wnwordsrecognitionbasedorthepreviousmetliods?R)rsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyze、theadvantagesanddisadvantagesofeachmodelsinply?Atlast,thegivensegmentationalgorithmisevaluated,andtheresult5revealthattheveracityandefficiencyofthe

5、algorithmcansatisfytheappliedrequest.Keywords:infonnationretrieval;searchengine;wordsegmentation;searchtechnique關(guān)査網(wǎng)用戶査詢農(nóng)達式授序愴入泗分詞位*1位蜃2in)2??????何3??????圖1中文信息處理和檢索過程收稿日期：2003-12?02:修訂日期：2004-06-12作者簡介:吳棟(1980-),男，上海人，博士研究生，主要研究方向:組合數(shù)學(xué)；滕育平(1980-),男，湖北孝感人，碩士研究生，主要研究方向:組合數(shù)學(xué)、計算機軟件.0引言隨著社會的

6、不斷進步，特別是在互聯(lián)網(wǎng)迅猛發(fā)展的今天,人們在不斷地接觸形形色色的信息，同時也耍對這些信息進行過濾，從而提取出對自己真正有用的內(nèi)容°為了達到這個日的、人們開發(fā)出了眾多的檢索引擎，有針對Web進行搜索的Cboglc、百度等，也有針對各行業(yè)開發(fā)的專題檢索系統(tǒng)。目前國內(nèi)的每個行業(yè)、領(lǐng)域都在飛速發(fā)展，這屮間產(chǎn)生了大量的咔文信息資源，為了能夠及時準確的獲取最新的信總沖文檢嗪引擎是必然的產(chǎn)物。中文檢索引擎與西文檢索引擎在實現(xiàn)的機制和丿京理上基本一致，但由于漢語本身的特點，必須引入對于中文語言的處理技術(shù),而中文分詞技術(shù)就是其中很關(guān)鍵的部分O1中文檢索引擎的基本原理常見的中文檢索引擎

7、主要完成兩方面的任務(wù)：1）信總的規(guī)范化。將搜集來的信息按照一定的方式進行組織管理，使之成為可以高效檢索的信息庫。2）信息的檢索和表達。以索引好的信息庫作為信息宜礎(chǔ)，利用信息庫已被索引的特點,實施快速檢索，同時根據(jù)用戶的需求將檢索結(jié)果進行輸出。信息的規(guī)范化包括分詞和索弓1（以及資料的搜集和罄理）、更新（維護）兩部分；信息的檢索包括搜索、結(jié)果輸岀說部分。整個信息處理和檢索過程如圖1所示。2中文分詞技術(shù)2.1漢語的特點詞是故小的、能獨立活動的、有意義的語言成分。因此，通常的檢索引擎都是以每一個獨立的詞為單位建立索引，在查詢時按照檢索詞出現(xiàn)的位置和頻率對文檔

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

中文信息檢索引擎中的分詞與檢索技術(shù)

中文信息檢索引擎中的分詞與檢索技術(shù)

相關(guān)文章

相關(guān)標簽