資源描述:
《中文分詞在標(biāo)準(zhǔn)檢索中的應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、中文分詞在標(biāo)準(zhǔn)信息檢索中的應(yīng)用近年來,隨著“三證合一、一照一碼”、“企業(yè)標(biāo)準(zhǔn)聲明公開”等政策的逐步落實(shí),標(biāo)準(zhǔn)專業(yè)機(jī)構(gòu)紛紛打破原有的工作模式,加大了對(duì)標(biāo)準(zhǔn)在人員、資金、科研等方面的投入,帶來了全新的標(biāo)準(zhǔn)服務(wù)模式,如浙江標(biāo)準(zhǔn)化院推出綜合性標(biāo)準(zhǔn)服務(wù)平臺(tái)和企業(yè)版標(biāo)準(zhǔn)信息管理系統(tǒng),極大地方便了標(biāo)準(zhǔn)人員的工作。在這些標(biāo)準(zhǔn)服務(wù)平臺(tái)和信息管理系統(tǒng)中,使用最多的功能是標(biāo)準(zhǔn)題錄信息的檢索,涉及中文檢索的內(nèi)容主要有標(biāo)準(zhǔn)中文名稱、摘要和全文。中文中的詞語是由漢字組成的最小的有意義的語句單位,詞語之間沒有明顯的區(qū)分標(biāo)記,而英文單詞之間是以空
2、格作為自然分界符?,F(xiàn)代中文里,雙音節(jié)詞語占的比重最大,也有單音節(jié)詞語,如口、廠、洗、染。中文分詞是將連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞語序列的過程,主要應(yīng)用于智能搜索領(lǐng)域,如百度、搜狗等網(wǎng)站的搜索功能。本文介紹如何通過建立簡易標(biāo)準(zhǔn)分詞詞典庫,然后運(yùn)用基于該標(biāo)準(zhǔn)詞典庫的三種分詞方法對(duì)輸入的檢索語句進(jìn)行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱。本文選取國家標(biāo)準(zhǔn)化管理委員會(huì)網(wǎng)站公布的4.88萬條國家標(biāo)準(zhǔn)(含廢止)構(gòu)建標(biāo)準(zhǔn)檢索庫,選取環(huán)境保護(hù)類的國家強(qiáng)制性標(biāo)準(zhǔn)166條,構(gòu)建簡易標(biāo)準(zhǔn)分詞詞典庫(以下簡稱標(biāo)準(zhǔn)詞典庫)。分
3、詞原則主要選取雙音節(jié)詞語,如果截取一個(gè)詞語影響語義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個(gè)詞雖然有獨(dú)立語義,但合在一起表達(dá)的意思更完整,類似詞語還有“發(fā)動(dòng)機(jī)”、“固體廢物”、“汽車壓件”等。這些國家標(biāo)準(zhǔn)中文名稱進(jìn)行人工分詞后的全部詞語有323個(gè),出現(xiàn)次數(shù)較多的前30個(gè)詞語參見表1。詞語次數(shù)(個(gè))詞語次數(shù)(個(gè))詞語次數(shù)(個(gè))詞語次數(shù)(個(gè))標(biāo)準(zhǔn)118排放98污染物93工業(yè)58水33環(huán)境28控制26限值26方法25測(cè)量23大氣17廢物17保護(hù)15汽車14原料13用作13固體廢物13進(jìn)口13鑒別11階段1
4、0噪聲10中國10危險(xiǎn)10排氣10污染8質(zhì)量8摩托車7海洋7廢7發(fā)動(dòng)機(jī)7表1標(biāo)準(zhǔn)詞典庫部分詞語及在166個(gè)國家標(biāo)準(zhǔn)中出現(xiàn)的次數(shù)中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法和雙向最大匹配法三種。最大匹配法是指假設(shè)分詞詞典庫中的最長詞有i個(gè)漢字,取待處理檢索語句的前i個(gè)漢字作為匹配詞語,在分詞詞典庫中檢索。如果能檢索到,將該i個(gè)漢字截取出來,剩余漢字開始匹配。如果不能檢索到,將該匹配詞語的最后一個(gè)漢字去掉,對(duì)其余i-1個(gè)漢字重新在分詞詞典庫中檢索。重復(fù)以上步驟,直到該匹配詞語能檢索到或者只剩一個(gè)漢字。以
5、此類推,待處理檢索語句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語或漢字。正向匹配法是指從前向后匹配詞語,逆向匹配法是指從后向前匹配詞語,雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語,如果匹配結(jié)果相同,采用這些分詞詞語;如果匹配結(jié)果不相同,采用總詞語數(shù)最少或者優(yōu)化后的詞語最少的分詞詞語。下面,以輸入國家標(biāo)準(zhǔn)GB/T1.1-2009的中文名稱“標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”為例,說明上述三種匹配方法的實(shí)現(xiàn)過程。標(biāo)準(zhǔn)詞典庫中的最長詞是“混裝制劑類”5個(gè)漢字,最大匹配字?jǐn)?shù)就是5個(gè)漢字,每次檢索相應(yīng)
6、減少1個(gè)漢字,直到檢索完成。如果待處理中文語句中有空格、數(shù)字、標(biāo)點(diǎn)符號(hào)等自然分隔符,優(yōu)先截取這些符號(hào)之前的語句作為檢索詞語,進(jìn)行匹配。1、正向最大匹配法的分詞過程:從前向后截取5個(gè)漢字是“標(biāo)準(zhǔn)化工作”,在標(biāo)準(zhǔn)詞典庫中檢索。能檢索到,再從第6個(gè)漢字截取5個(gè)漢字;不能檢索到,則把“標(biāo)準(zhǔn)化工作”每次從后面減少1個(gè)漢字。第1次檢索詞:“標(biāo)準(zhǔn)化工作”,5字詞典不能檢索到;第2次檢索詞:“標(biāo)準(zhǔn)化工”,4字詞典不能檢索到;第3次檢索詞:“標(biāo)準(zhǔn)化”,3字詞典不能檢索到;第4次檢索詞:“標(biāo)準(zhǔn)”,2字詞典中能檢索到。第1次分詞完成,找
7、到詞語“標(biāo)準(zhǔn)”,剩余檢索語句“化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”。以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”。其中,“標(biāo)準(zhǔn)/第1/部分/標(biāo)準(zhǔn)”詞語屬于詞典詞。因?yàn)闃?biāo)準(zhǔn)詞典庫的不完善,導(dǎo)致“工作/導(dǎo)則/結(jié)構(gòu)/編寫”詞語沒有被截取,這類詞語屬于非詞典詞。2、逆向最大匹配法的分詞過程:從后向前截取5個(gè)漢字是“結(jié)構(gòu)和編寫”,在標(biāo)準(zhǔn)詞典庫中檢索。能檢索到,再從倒數(shù)第6個(gè)漢字向前截取5個(gè)漢字;不能檢索到,則把“結(jié)構(gòu)和編寫”每次從前面減少1個(gè)漢字。第1次檢索詞:“結(jié)構(gòu)和編
8、寫”,5字詞典不能檢索到;第2次檢索詞:“構(gòu)和編寫”,4字詞典不能檢索到;第3次檢索詞:“和編寫”,3字詞典不能檢索到;第4次檢索詞:“編寫”,2字詞典不能檢索到;第5次檢索詞:“寫”,1字詞典不能檢索到;第1次分詞完成,沒有找到詞語。第2次分詞截取5個(gè)字符為“的結(jié)構(gòu)和編”,以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/