中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用

中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用

ID:38740892

大?。?8.00 KB

頁數(shù):6頁

時(shí)間:2019-06-18

中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第1頁
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第2頁
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第3頁
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第4頁
中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用_第5頁
資源描述:

《中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、中文分詞在標(biāo)準(zhǔn)信息檢索中的應(yīng)用近年來,隨著“三證合一、一照一碼”、“企業(yè)標(biāo)準(zhǔn)聲明公開”等政策的逐步落實(shí),標(biāo)準(zhǔn)專業(yè)機(jī)構(gòu)紛紛打破原有的工作模式,加大了對(duì)標(biāo)準(zhǔn)在人員、資金、科研等方面的投入,帶來了全新的標(biāo)準(zhǔn)服務(wù)模式,如浙江標(biāo)準(zhǔn)化院推出綜合性標(biāo)準(zhǔn)服務(wù)平臺(tái)和企業(yè)版標(biāo)準(zhǔn)信息管理系統(tǒng),極大地方便了標(biāo)準(zhǔn)人員的工作。在這些標(biāo)準(zhǔn)服務(wù)平臺(tái)和信息管理系統(tǒng)中,使用最多的功能是標(biāo)準(zhǔn)題錄信息的檢索,涉及中文檢索的內(nèi)容主要有標(biāo)準(zhǔn)中文名稱、摘要和全文。中文中的詞語是由漢字組成的最小的有意義的語句單位,詞語之間沒有明顯的區(qū)分標(biāo)記,而英文單詞之間是以空

2、格作為自然分界符?,F(xiàn)代中文里,雙音節(jié)詞語占的比重最大,也有單音節(jié)詞語,如口、廠、洗、染。中文分詞是將連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞語序列的過程,主要應(yīng)用于智能搜索領(lǐng)域,如百度、搜狗等網(wǎng)站的搜索功能。本文介紹如何通過建立簡易標(biāo)準(zhǔn)分詞詞典庫,然后運(yùn)用基于該標(biāo)準(zhǔn)詞典庫的三種分詞方法對(duì)輸入的檢索語句進(jìn)行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱。本文選取國家標(biāo)準(zhǔn)化管理委員會(huì)網(wǎng)站公布的4.88萬條國家標(biāo)準(zhǔn)(含廢止)構(gòu)建標(biāo)準(zhǔn)檢索庫,選取環(huán)境保護(hù)類的國家強(qiáng)制性標(biāo)準(zhǔn)166條,構(gòu)建簡易標(biāo)準(zhǔn)分詞詞典庫(以下簡稱標(biāo)準(zhǔn)詞典庫)。分

3、詞原則主要選取雙音節(jié)詞語,如果截取一個(gè)詞語影響語義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個(gè)詞雖然有獨(dú)立語義,但合在一起表達(dá)的意思更完整,類似詞語還有“發(fā)動(dòng)機(jī)”、“固體廢物”、“汽車壓件”等。這些國家標(biāo)準(zhǔn)中文名稱進(jìn)行人工分詞后的全部詞語有323個(gè),出現(xiàn)次數(shù)較多的前30個(gè)詞語參見表1。詞語次數(shù)(個(gè))詞語次數(shù)(個(gè))詞語次數(shù)(個(gè))詞語次數(shù)(個(gè))標(biāo)準(zhǔn)118排放98污染物93工業(yè)58水33環(huán)境28控制26限值26方法25測(cè)量23大氣17廢物17保護(hù)15汽車14原料13用作13固體廢物13進(jìn)口13鑒別11階段1

4、0噪聲10中國10危險(xiǎn)10排氣10污染8質(zhì)量8摩托車7海洋7廢7發(fā)動(dòng)機(jī)7表1標(biāo)準(zhǔn)詞典庫部分詞語及在166個(gè)國家標(biāo)準(zhǔn)中出現(xiàn)的次數(shù)中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法和雙向最大匹配法三種。最大匹配法是指假設(shè)分詞詞典庫中的最長詞有i個(gè)漢字,取待處理檢索語句的前i個(gè)漢字作為匹配詞語,在分詞詞典庫中檢索。如果能檢索到,將該i個(gè)漢字截取出來,剩余漢字開始匹配。如果不能檢索到,將該匹配詞語的最后一個(gè)漢字去掉,對(duì)其余i-1個(gè)漢字重新在分詞詞典庫中檢索。重復(fù)以上步驟,直到該匹配詞語能檢索到或者只剩一個(gè)漢字。以

5、此類推,待處理檢索語句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語或漢字。正向匹配法是指從前向后匹配詞語,逆向匹配法是指從后向前匹配詞語,雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語,如果匹配結(jié)果相同,采用這些分詞詞語;如果匹配結(jié)果不相同,采用總詞語數(shù)最少或者優(yōu)化后的詞語最少的分詞詞語。下面,以輸入國家標(biāo)準(zhǔn)GB/T1.1-2009的中文名稱“標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”為例,說明上述三種匹配方法的實(shí)現(xiàn)過程。標(biāo)準(zhǔn)詞典庫中的最長詞是“混裝制劑類”5個(gè)漢字,最大匹配字?jǐn)?shù)就是5個(gè)漢字,每次檢索相應(yīng)

6、減少1個(gè)漢字,直到檢索完成。如果待處理中文語句中有空格、數(shù)字、標(biāo)點(diǎn)符號(hào)等自然分隔符,優(yōu)先截取這些符號(hào)之前的語句作為檢索詞語,進(jìn)行匹配。1、正向最大匹配法的分詞過程:從前向后截取5個(gè)漢字是“標(biāo)準(zhǔn)化工作”,在標(biāo)準(zhǔn)詞典庫中檢索。能檢索到,再從第6個(gè)漢字截取5個(gè)漢字;不能檢索到,則把“標(biāo)準(zhǔn)化工作”每次從后面減少1個(gè)漢字。第1次檢索詞:“標(biāo)準(zhǔn)化工作”,5字詞典不能檢索到;第2次檢索詞:“標(biāo)準(zhǔn)化工”,4字詞典不能檢索到;第3次檢索詞:“標(biāo)準(zhǔn)化”,3字詞典不能檢索到;第4次檢索詞:“標(biāo)準(zhǔn)”,2字詞典中能檢索到。第1次分詞完成,找

7、到詞語“標(biāo)準(zhǔn)”,剩余檢索語句“化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”。以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”。其中,“標(biāo)準(zhǔn)/第1/部分/標(biāo)準(zhǔn)”詞語屬于詞典詞。因?yàn)闃?biāo)準(zhǔn)詞典庫的不完善,導(dǎo)致“工作/導(dǎo)則/結(jié)構(gòu)/編寫”詞語沒有被截取,這類詞語屬于非詞典詞。2、逆向最大匹配法的分詞過程:從后向前截取5個(gè)漢字是“結(jié)構(gòu)和編寫”,在標(biāo)準(zhǔn)詞典庫中檢索。能檢索到,再從倒數(shù)第6個(gè)漢字向前截取5個(gè)漢字;不能檢索到,則把“結(jié)構(gòu)和編寫”每次從前面減少1個(gè)漢字。第1次檢索詞:“結(jié)構(gòu)和編

8、寫”,5字詞典不能檢索到;第2次檢索詞:“構(gòu)和編寫”,4字詞典不能檢索到;第3次檢索詞:“和編寫”,3字詞典不能檢索到;第4次檢索詞:“編寫”,2字詞典不能檢索到;第5次檢索詞:“寫”,1字詞典不能檢索到;第1次分詞完成,沒有找到詞語。第2次分詞截取5個(gè)字符為“的結(jié)構(gòu)和編”,以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。