資源描述:
《基于條件隨機(jī)場(chǎng)的中文領(lǐng)域分詞研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、ComputerEngineeringandApplications計(jì)算機(jī)工程與應(yīng)用2016,52(15)97基于條件隨機(jī)場(chǎng)的中文領(lǐng)域分詞研究朱艷輝,劉璟,徐葉強(qiáng),田海龍,馬進(jìn)ZHUYanhui,LIUJing,XUYeqiang,TIANHailong,MAJin湖南工業(yè)大學(xué)計(jì)算機(jī)與通信學(xué)院,湖南株洲412007SchoolofComputerandCommunication,HunanUniversityofTechnology,Zhuzhou,Hunan412007,ChinaZHUYanhui,LIUJing,XUYeqiang,e
2、tal.ChinesewordsegmentationresearchbasedonConditionalRandomField.ComputerEngineeringandApplications,2016,52(15):97-100.Abstract:AccordingtotheConditionalRandomFieldforChinesewordsegmentation,thefieldishardtoadaptive.AcombinationofCRFanddomaindictionaryisproposedtoimproveth
3、efieldadaptability,andforeliminatingambiguity,thispaperusesfixedwordcollocation,verbdictionaryandwordprobabilitybytheruleofwordformation.Theexperientalresultsshowthatthisapproachimprovestheaccuracyandadaptabilityofthewordsegmentation.Fvalueofthesegmenta-tionresultsincomput
4、erandmedicalfieldsisincreasedby7.6%and8.7%.Keywords:Chinesewordsegmentation;ConditionalRandomField(CRF);domainadaption;ambiguityresolution;domainsegmentation;reversedirectionalmaximummatchmethod摘要:針對(duì)條件隨機(jī)場(chǎng)分詞不具有良好的領(lǐng)域自適應(yīng)性,提出一種條件隨機(jī)場(chǎng)與領(lǐng)域詞典相結(jié)合的方法提高領(lǐng)域自適應(yīng)性,并根據(jù)構(gòu)詞規(guī)則提出了固定詞串消解,動(dòng)詞消解,詞概率
5、消解三種方法消除歧義。實(shí)驗(yàn)結(jié)果表明,該分詞流程和方法,提高了分詞的準(zhǔn)確率和自適應(yīng)性,在計(jì)算機(jī)領(lǐng)域和醫(yī)學(xué)領(lǐng)域的分詞結(jié)果F值分別提升了7.6%和8.7%。關(guān)鍵詞:中文分詞;條件隨機(jī)場(chǎng);領(lǐng)域自適應(yīng);歧義消解;領(lǐng)域分詞;逆向最大匹配算法文獻(xiàn)標(biāo)志碼:A中圖分類(lèi)號(hào):TP391.1doi:10.3778/j.issn.1002-8331.1512-02991引言一個(gè)訓(xùn)練語(yǔ)料,選擇不同的模型來(lái)學(xué)習(xí)和解碼。文獻(xiàn)[5-6]隨著信息技術(shù)的高速發(fā)展,越來(lái)越多的人在互聯(lián)網(wǎng)建立條件隨機(jī)場(chǎng)標(biāo)記模型,分別引入字概率特征和領(lǐng)域上發(fā)表信息,也在網(wǎng)上獲取信息,海量的文本數(shù)據(jù),使
6、得知識(shí),提高了分詞的準(zhǔn)確率,但是較多的自定義特征也文本信息的挖掘成為研究熱點(diǎn)。而分詞自然是中文信會(huì)影響到建模速度。文獻(xiàn)[7]使用統(tǒng)計(jì)方法結(jié)合自學(xué)習(xí)息處理最重要的一個(gè)部分,它是信息抽取、智能問(wèn)答、文和協(xié)同學(xué)習(xí)策略,改善分詞自適應(yīng)性,但統(tǒng)計(jì)方法非常本傾向性分析和信息檢索等信息處理中最基礎(chǔ)的工作,依賴訓(xùn)練語(yǔ)料的好壞,過(guò)大的訓(xùn)練語(yǔ)料又會(huì)造成計(jì)算量分詞的效率與正確率對(duì)下一步工作的進(jìn)行都有非常大過(guò)大,效率低,而且高質(zhì)量的訓(xùn)練語(yǔ)料需要人工參與,耗的影響。費(fèi)許多的時(shí)間和精力。(3)基于統(tǒng)計(jì)與詞典相結(jié)合的方目前主要的分詞方法有三種:(1)基于詞典的分詞法,文
7、獻(xiàn)[8-9]分別引入漢語(yǔ)拼音表和詞表,文獻(xiàn)[10-11]方法,又叫機(jī)械分詞方法,它是按照一定的策略將待分將詞典作為一個(gè)內(nèi)部的訓(xùn)練語(yǔ)料,這些方法對(duì)不同領(lǐng)域[1-3]的分詞需要重新訓(xùn)練模型,并沒(méi)有解決分詞的自適應(yīng)性的詞與一個(gè)充分大的詞典中的詞條進(jìn)行匹配,詞典的方法需要高質(zhì)量的詞典支撐,對(duì)未登錄詞的識(shí)別和歧義問(wèn)題。問(wèn)題顯然是力不從心。(2)基于統(tǒng)計(jì)的分詞方法使中文本文首先通過(guò)條件隨機(jī)場(chǎng)的基本特征模板和自己[4]分詞效果有了顯著的進(jìn)步,采用已經(jīng)切分好的詞作為定義的特征得到一個(gè)初次分詞結(jié)果,之后利用領(lǐng)域詞典基金項(xiàng)目:國(guó)家自然科學(xué)基金(No.61170
8、102);國(guó)家社科基金資助項(xiàng)目(No.12BYY045);湖南省教育廳重點(diǎn)項(xiàng)目(No.15A049)。作者簡(jiǎn)介:朱艷輝(1968—),女,教授,CCF高級(jí)會(huì)員,研究領(lǐng)域?yàn)樾畔z索