資源描述:
《中文信息檢索引擎中的分詞與檢索技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、第24卷第7期2004年7月計算機應(yīng)用ConputerApplications文章編號:1001?9081(2004)07?0128-04中文信息檢索引擎中的分詞與檢索技術(shù)吳棟,滕育平(南開大學(xué)組合數(shù)學(xué)研究中心核心數(shù)學(xué)與組合數(shù)學(xué)教育部重點實驗室,天津300071)(tcngyuping@notionsoft?com)摘要:文中論述了在開發(fā)中文信息檢索系統(tǒng)中所涉及到的兩項關(guān)鍵技術(shù),即中文分詞技術(shù)和檢索技術(shù)。針對中文分詞技術(shù),介紹了一種改進的正向最大匹配切分算法,以及為消除歧義引入的校正策略,并在此基礎(chǔ)上結(jié)合統(tǒng)計方法處理未登錄詞。針對檢索技術(shù),綜述了幾種最常用的檢索模型的
2、原理,并對每種模型的優(yōu)缺點進行了簡要分析。最后對給出的分詞算法進行了測試,測試結(jié)果表明該分詞算法準確度和效率能夠滿足實用的要求。矢鍵詞:信息檢索;搜索引擎;分詞技術(shù);檢索技術(shù)中圖分類號:TP317.2文獻標識碼:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesWUDong,TENGYiQ?ing(Lalx)ratory(fPureMathematicsandCombinatorics,CenterforCombinatorics,NankaiUniverity,Tianjin300071
3、,China)Abstract:keytechniquesinthedevelopmentofChineseInformationRetrievalSystemarcdiscussedinthispaper,i?c..Chinesewordsegmentationandsearchtechnique?ForChinesewordsegmentation,thepaperpresentsaninpiuvedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatiSticmethodfor
4、unkix)wnwordsrecognitionbasedorthepreviousmetliods?R)rsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyze、theadvantagesanddisadvantagesofeachmodelsinply?Atlast,thegivensegmentationalgorithmisevaluated,andtheresult5revealthattheveracityandefficiencyofthe
5、algorithmcansatisfytheappliedrequest.Keywords:infonnationretrieval;searchengine;wordsegmentation;searchtechnique關(guān)査網(wǎng)用戶査詢農(nóng)達式授序愴入泗分詞位*1位蜃2in)2??????何3??????圖1中文信息處理和檢索過程收稿日期:2003-12?02:修訂日期:2004-06-12作者簡介:吳棟(1980-),男,上海人,博士研究生,主要研究方向:組合數(shù)學(xué);滕育平(1980-),男,湖北孝感人,碩士研究生,主要研究方向:組合數(shù)學(xué)、計算機軟件.0引言隨著社會的
6、不斷進步,特別是在互聯(lián)網(wǎng)迅猛發(fā)展的今天,人們在不斷地接觸形形色色的信息,同時也耍對這些信息進行過濾,從而提取出對自己真正有用的內(nèi)容°為了達到這個日的、人們開發(fā)出了眾多的檢索引擎,有針對Web進行搜索的Cboglc、百度等,也有針對各行業(yè)開發(fā)的專題檢索系統(tǒng)。目前國內(nèi)的每個行業(yè)、領(lǐng)域都在飛速發(fā)展,這屮間產(chǎn)生了大量的咔文信息資源,為了能夠及時準確的獲取最新的信總沖文檢嗪引擎是必然的產(chǎn)物。中文檢索引擎與西文檢索引擎在實現(xiàn)的機制和丿京理上基本一致,但由于漢語本身的特點,必須引入對于中文語言的處理技術(shù),而中文分詞技術(shù)就是其中很關(guān)鍵的部分O1中文檢索引擎的基本原理常見的中文檢索引擎
7、主要完成兩方面的任務(wù):1)信總的規(guī)范化。將搜集來的信息按照一定的方式進行組織管理,使之成為可以高效檢索的信息庫。2)信息的檢索和表達。以索引好的信息庫作為信息宜礎(chǔ),利用信息庫已被索引的特點,實施快速檢索,同時根據(jù)用戶的需求將檢索結(jié)果進行輸出。信息的規(guī)范化包括分詞和索弓1(以及資料的搜集和罄理)、更新(維護)兩部分;信息的檢索包括搜索、結(jié)果輸岀說部分。整個信息處理和檢索過程如圖1所示。2中文分詞技術(shù)2.1漢語的特點詞是故小的、能獨立活動的、有意義的語言成分。因此,通常的檢索引擎都是以每一個獨立的詞為單位建立索引,在查詢時按照檢索詞出現(xiàn)的位置和頻率對文檔