中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用

中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用

ID:38740892

大?。?8.00 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2019-06-18

中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第1頁(yè)
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第2頁(yè)
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第3頁(yè)
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第4頁(yè)
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第5頁(yè)
資源描述:

《中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、中文分詞在標(biāo)準(zhǔn)信息檢索中的應(yīng)用近年來(lái),隨著“三證合一、一照一碼”、“企業(yè)標(biāo)準(zhǔn)聲明公開”等政策的逐步落實(shí),標(biāo)準(zhǔn)專業(yè)機(jī)構(gòu)紛紛打破原有的工作模式,加大了對(duì)標(biāo)準(zhǔn)在人員、資金、科研等方面的投入,帶來(lái)了全新的標(biāo)準(zhǔn)服務(wù)模式,如浙江標(biāo)準(zhǔn)化院推出綜合性標(biāo)準(zhǔn)服務(wù)平臺(tái)和企業(yè)版標(biāo)準(zhǔn)信息管理系統(tǒng),極大地方便了標(biāo)準(zhǔn)人員的工作。在這些標(biāo)準(zhǔn)服務(wù)平臺(tái)和信息管理系統(tǒng)中,使用最多的功能是標(biāo)準(zhǔn)題錄信息的檢索,涉及中文檢索的內(nèi)容主要有標(biāo)準(zhǔn)中文名稱、摘要和全文。中文中的詞語(yǔ)是由漢字組成的最小的有意義的語(yǔ)句單位,詞語(yǔ)之間沒有明顯的區(qū)分標(biāo)記,而英文單詞之間是以空

2、格作為自然分界符?,F(xiàn)代中文里,雙音節(jié)詞語(yǔ)占的比重最大,也有單音節(jié)詞語(yǔ),如口、廠、洗、染。中文分詞是將連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞語(yǔ)序列的過(guò)程,主要應(yīng)用于智能搜索領(lǐng)域,如百度、搜狗等網(wǎng)站的搜索功能。本文介紹如何通過(guò)建立簡(jiǎn)易標(biāo)準(zhǔn)分詞詞典庫(kù),然后運(yùn)用基于該標(biāo)準(zhǔn)詞典庫(kù)的三種分詞方法對(duì)輸入的檢索語(yǔ)句進(jìn)行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱。本文選取國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)網(wǎng)站公布的4.88萬(wàn)條國(guó)家標(biāo)準(zhǔn)(含廢止)構(gòu)建標(biāo)準(zhǔn)檢索庫(kù),選取環(huán)境保護(hù)類的國(guó)家強(qiáng)制性標(biāo)準(zhǔn)166條,構(gòu)建簡(jiǎn)易標(biāo)準(zhǔn)分詞詞典庫(kù)(以下簡(jiǎn)稱標(biāo)準(zhǔn)詞典庫(kù))。分

3、詞原則主要選取雙音節(jié)詞語(yǔ),如果截取一個(gè)詞語(yǔ)影響語(yǔ)義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個(gè)詞雖然有獨(dú)立語(yǔ)義,但合在一起表達(dá)的意思更完整,類似詞語(yǔ)還有“發(fā)動(dòng)機(jī)”、“固體廢物”、“汽車壓件”等。這些國(guó)家標(biāo)準(zhǔn)中文名稱進(jìn)行人工分詞后的全部詞語(yǔ)有323個(gè),出現(xiàn)次數(shù)較多的前30個(gè)詞語(yǔ)參見表1。詞語(yǔ)次數(shù)(個(gè))詞語(yǔ)次數(shù)(個(gè))詞語(yǔ)次數(shù)(個(gè))詞語(yǔ)次數(shù)(個(gè))標(biāo)準(zhǔn)118排放98污染物93工業(yè)58水33環(huán)境28控制26限值26方法25測(cè)量23大氣17廢物17保護(hù)15汽車14原料13用作13固體廢物13進(jìn)口13鑒別11階段1

4、0噪聲10中國(guó)10危險(xiǎn)10排氣10污染8質(zhì)量8摩托車7海洋7廢7發(fā)動(dòng)機(jī)7表1標(biāo)準(zhǔn)詞典庫(kù)部分詞語(yǔ)及在166個(gè)國(guó)家標(biāo)準(zhǔn)中出現(xiàn)的次數(shù)中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法和雙向最大匹配法三種。最大匹配法是指假設(shè)分詞詞典庫(kù)中的最長(zhǎng)詞有i個(gè)漢字,取待處理檢索語(yǔ)句的前i個(gè)漢字作為匹配詞語(yǔ),在分詞詞典庫(kù)中檢索。如果能檢索到,將該i個(gè)漢字截取出來(lái),剩余漢字開始匹配。如果不能檢索到,將該匹配詞語(yǔ)的最后一個(gè)漢字去掉,對(duì)其余i-1個(gè)漢字重新在分詞詞典庫(kù)中檢索。重復(fù)以上步驟,直到該匹配詞語(yǔ)能檢索到或者只剩一個(gè)漢字。以

5、此類推,待處理檢索語(yǔ)句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語(yǔ)或漢字。正向匹配法是指從前向后匹配詞語(yǔ),逆向匹配法是指從后向前匹配詞語(yǔ),雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語(yǔ),如果匹配結(jié)果相同,采用這些分詞詞語(yǔ);如果匹配結(jié)果不相同,采用總詞語(yǔ)數(shù)最少或者優(yōu)化后的詞語(yǔ)最少的分詞詞語(yǔ)。下面,以輸入國(guó)家標(biāo)準(zhǔn)GB/T1.1-2009的中文名稱“標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”為例,說(shuō)明上述三種匹配方法的實(shí)現(xiàn)過(guò)程。標(biāo)準(zhǔn)詞典庫(kù)中的最長(zhǎng)詞是“混裝制劑類”5個(gè)漢字,最大匹配字?jǐn)?shù)就是5個(gè)漢字,每次檢索相應(yīng)

6、減少1個(gè)漢字,直到檢索完成。如果待處理中文語(yǔ)句中有空格、數(shù)字、標(biāo)點(diǎn)符號(hào)等自然分隔符,優(yōu)先截取這些符號(hào)之前的語(yǔ)句作為檢索詞語(yǔ),進(jìn)行匹配。1、正向最大匹配法的分詞過(guò)程:從前向后截取5個(gè)漢字是“標(biāo)準(zhǔn)化工作”,在標(biāo)準(zhǔn)詞典庫(kù)中檢索。能檢索到,再?gòu)牡?個(gè)漢字截取5個(gè)漢字;不能檢索到,則把“標(biāo)準(zhǔn)化工作”每次從后面減少1個(gè)漢字。第1次檢索詞:“標(biāo)準(zhǔn)化工作”,5字詞典不能檢索到;第2次檢索詞:“標(biāo)準(zhǔn)化工”,4字詞典不能檢索到;第3次檢索詞:“標(biāo)準(zhǔn)化”,3字詞典不能檢索到;第4次檢索詞:“標(biāo)準(zhǔn)”,2字詞典中能檢索到。第1次分詞完成,找

7、到詞語(yǔ)“標(biāo)準(zhǔn)”,剩余檢索語(yǔ)句“化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”。以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”。其中,“標(biāo)準(zhǔn)/第1/部分/標(biāo)準(zhǔn)”詞語(yǔ)屬于詞典詞。因?yàn)闃?biāo)準(zhǔn)詞典庫(kù)的不完善,導(dǎo)致“工作/導(dǎo)則/結(jié)構(gòu)/編寫”詞語(yǔ)沒有被截取,這類詞語(yǔ)屬于非詞典詞。2、逆向最大匹配法的分詞過(guò)程:從后向前截取5個(gè)漢字是“結(jié)構(gòu)和編寫”,在標(biāo)準(zhǔn)詞典庫(kù)中檢索。能檢索到,再?gòu)牡箶?shù)第6個(gè)漢字向前截取5個(gè)漢字;不能檢索到,則把“結(jié)構(gòu)和編寫”每次從前面減少1個(gè)漢字。第1次檢索詞:“結(jié)構(gòu)和編

8、寫”,5字詞典不能檢索到;第2次檢索詞:“構(gòu)和編寫”,4字詞典不能檢索到;第3次檢索詞:“和編寫”,3字詞典不能檢索到;第4次檢索詞:“編寫”,2字詞典不能檢索到;第5次檢索詞:“寫”,1字詞典不能檢索到;第1次分詞完成,沒有找到詞語(yǔ)。第2次分詞截取5個(gè)字符為“的結(jié)構(gòu)和編”,以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。