資源描述:
《基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中國科學(xué)技術(shù)丈學(xué)頌i一論文摘要詞語對齊是跨語言自然語言處理領(lǐng)域的一個基本問題,許多基于雙語語料庫的應(yīng)用(如SBMT、EBMT、WSD、詞典編纂)都需要詞匯級別的對齊。以往詞語對齊方法對語言學(xué)信息在對齊中的作用的研究部不夠深入。本文重點(diǎn)研究利用由多種語言學(xué)資源或信息來改善對齊質(zhì)量。在統(tǒng)計對齊模型主要是IBM詞語對齊方法研究和實踐的基礎(chǔ)上,提出了一個最大熵詞語對齊算法。最大熵雙語詞語對齊不需要具有大規(guī)模的語言學(xué)知識。各種參數(shù)的訓(xùn)練是與具體的語言對無關(guān)的,即使對于像中文與蒙文這樣的句法結(jié)構(gòu)相差比較大的語言對之間的對齊系統(tǒng)的構(gòu)建來浼也是一樣。訓(xùn)練參數(shù)的獲取和調(diào)
2、整并不依賴具體的語言學(xué)知識。在最大熵的思想應(yīng)用于統(tǒng)計詞語對齊之后,針對不同的語言可以加入具體的調(diào)整模型,這些與具體語言有關(guān)的調(diào)整模型的加入,并不影響基礎(chǔ)的統(tǒng)計詞語對齊,所以可以通過語言學(xué)專家的對立工作來進(jìn)行,之后將這些附加的模型加入到系統(tǒng)中來。經(jīng)過500句漢蒙測試集實驗,對齊錯誤率為31.2%。為了得到蒙文詞性標(biāo)注模型,提出了改進(jìn)的基于轉(zhuǎn)換的拉丁蒙文詞性標(biāo)注方法。針對傳統(tǒng)基于轉(zhuǎn)換的詞性標(biāo)注方法中規(guī)則學(xué)習(xí)速度過慢的問題提出了一種對訓(xùn)練語料庫進(jìn)行動態(tài)劃分的算法。該算法根據(jù)規(guī)則之間的沖突和依賴關(guān)系對訓(xùn)練語科庫進(jìn)行動態(tài)劃分,減小了搜索空間。在保證拉丁蒙文詞性標(biāo)
3、注正確率的前提下提高了規(guī)則學(xué)習(xí)速度。經(jīng)過一萬拉丁蒙文句子語料庫的對比測試,發(fā)現(xiàn)該方法在規(guī)則學(xué)習(xí)中所花費(fèi)的時聞僅為原方法的32%。關(guān)鍵字:詞語對齊、最大熵、詞典模型、詞性標(biāo)注模型中國科學(xué)技術(shù)大學(xué)碩士論文AbstraetAbstractWordalignmentisabasicproblemofCross—lingualNaturalLanguageProcessing.ManyNLPtasksbasedonbilingualcorpussuchasSBMT,EBMT,WSDandAutomatedDictionaryExtractionallneedto
4、alignwords.Previouslyproposedpaynotenoughattentiontobilingualinformation.Thispaperfocusesontheuseofmultilingualresourcesorinformationtoimprovethequalityofalignment,OnthebasisofstatisticalalignmentmodelsuchasIBMwordalignmentmodel,proposeamaximumentropywordalignmentalgorithm.Maxim
5、umEntropybilingualwordalignmentdoesnotneedalarge—scalelinguisticknowledge.Thetrainingofvariousparametershasnothingtodowithaspecificlanguage.EvenillsChineseandMongolianwhichsyntacticstructureshavelargedifferencesarethesame.Theacquisitionandtheadjustmentoftrainingparametersarenotd
6、ependentonspecificlinguisticknowledge,WiththeuseofMaximumEntropyinstatisticalwordalignment,thespecificmodelCallbeadjustedtodifferentlanguages.Theaddingofthesespecificlanguage·relatedadjustingmodelsdoesnotaffectthebasisofthestatisticalwordalignment.Sothelinguisticexpertsworkfirst
7、togetmodelsandthenaddthoseadditionalmodelstothesystem.AfterexperimentonChineseandMongoliantestsetof500sentences.theAERis31.2%.TogetthePOSmodelofMongolian,animprovedTransformationBasedPartofSpeechTaggingofLatinMongolianmethodisproposed.Tosolvetheproblemofrolelearningtimecostfortr
8、aditionaltransformationbusedpartofspeechtagging