基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)

基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)

ID:32020905

大小:2.12 MB

頁數(shù):71頁

時間:2019-01-30

基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)_第1頁
基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)_第2頁
基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)_第3頁
基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)_第4頁
基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)_第5頁
資源描述:

《基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中國科學(xué)技術(shù)丈學(xué)頌i一論文摘要詞語對齊是跨語言自然語言處理領(lǐng)域的一個基本問題,許多基于雙語語料庫的應(yīng)用(如SBMT、EBMT、WSD、詞典編纂)都需要詞匯級別的對齊。以往詞語對齊方法對語言學(xué)信息在對齊中的作用的研究部不夠深入。本文重點(diǎn)研究利用由多種語言學(xué)資源或信息來改善對齊質(zhì)量。在統(tǒng)計對齊模型主要是IBM詞語對齊方法研究和實踐的基礎(chǔ)上,提出了一個最大熵詞語對齊算法。最大熵雙語詞語對齊不需要具有大規(guī)模的語言學(xué)知識。各種參數(shù)的訓(xùn)練是與具體的語言對無關(guān)的,即使對于像中文與蒙文這樣的句法結(jié)構(gòu)相差比較大的語言對之間的對齊系統(tǒng)的構(gòu)建來浼也是一樣。訓(xùn)練參數(shù)的獲取和調(diào)

2、整并不依賴具體的語言學(xué)知識。在最大熵的思想應(yīng)用于統(tǒng)計詞語對齊之后,針對不同的語言可以加入具體的調(diào)整模型,這些與具體語言有關(guān)的調(diào)整模型的加入,并不影響基礎(chǔ)的統(tǒng)計詞語對齊,所以可以通過語言學(xué)專家的對立工作來進(jìn)行,之后將這些附加的模型加入到系統(tǒng)中來。經(jīng)過500句漢蒙測試集實驗,對齊錯誤率為31.2%。為了得到蒙文詞性標(biāo)注模型,提出了改進(jìn)的基于轉(zhuǎn)換的拉丁蒙文詞性標(biāo)注方法。針對傳統(tǒng)基于轉(zhuǎn)換的詞性標(biāo)注方法中規(guī)則學(xué)習(xí)速度過慢的問題提出了一種對訓(xùn)練語料庫進(jìn)行動態(tài)劃分的算法。該算法根據(jù)規(guī)則之間的沖突和依賴關(guān)系對訓(xùn)練語科庫進(jìn)行動態(tài)劃分,減小了搜索空間。在保證拉丁蒙文詞性標(biāo)

3、注正確率的前提下提高了規(guī)則學(xué)習(xí)速度。經(jīng)過一萬拉丁蒙文句子語料庫的對比測試,發(fā)現(xiàn)該方法在規(guī)則學(xué)習(xí)中所花費(fèi)的時聞僅為原方法的32%。關(guān)鍵字:詞語對齊、最大熵、詞典模型、詞性標(biāo)注模型中國科學(xué)技術(shù)大學(xué)碩士論文AbstraetAbstractWordalignmentisabasicproblemofCross—lingualNaturalLanguageProcessing.ManyNLPtasksbasedonbilingualcorpussuchasSBMT,EBMT,WSDandAutomatedDictionaryExtractionallneedto

4、alignwords.Previouslyproposedpaynotenoughattentiontobilingualinformation.Thispaperfocusesontheuseofmultilingualresourcesorinformationtoimprovethequalityofalignment,OnthebasisofstatisticalalignmentmodelsuchasIBMwordalignmentmodel,proposeamaximumentropywordalignmentalgorithm.Maxim

5、umEntropybilingualwordalignmentdoesnotneedalarge—scalelinguisticknowledge.Thetrainingofvariousparametershasnothingtodowithaspecificlanguage.EvenillsChineseandMongolianwhichsyntacticstructureshavelargedifferencesarethesame.Theacquisitionandtheadjustmentoftrainingparametersarenotd

6、ependentonspecificlinguisticknowledge,WiththeuseofMaximumEntropyinstatisticalwordalignment,thespecificmodelCallbeadjustedtodifferentlanguages.Theaddingofthesespecificlanguage·relatedadjustingmodelsdoesnotaffectthebasisofthestatisticalwordalignment.Sothelinguisticexpertsworkfirst

7、togetmodelsandthenaddthoseadditionalmodelstothesystem.AfterexperimentonChineseandMongoliantestsetof500sentences.theAERis31.2%.TogetthePOSmodelofMongolian,animprovedTransformationBasedPartofSpeechTaggingofLatinMongolianmethodisproposed.Tosolvetheproblemofrolelearningtimecostfortr

8、aditionaltransformationbusedpartofspeechtagging

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。