基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)

ID：32020905

大小：2.12 MB

頁數(shù)：71頁

時間：2019-01-30

資源描述：

《基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中國科學(xué)技術(shù)丈學(xué)頌i一論文摘要詞語對齊是跨語言自然語言處理領(lǐng)域的一個基本問題，許多基于雙語語料庫的應(yīng)用(如SBMT、EBMT、WSD、詞典編纂)都需要詞匯級別的對齊。以往詞語對齊方法對語言學(xué)信息在對齊中的作用的研究部不夠深入。本文重點(diǎn)研究利用由多種語言學(xué)資源或信息來改善對齊質(zhì)量。在統(tǒng)計對齊模型主要是IBM詞語對齊方法研究和實踐的基礎(chǔ)上，提出了一個最大熵詞語對齊算法。最大熵雙語詞語對齊不需要具有大規(guī)模的語言學(xué)知識。各種參數(shù)的訓(xùn)練是與具體的語言對無關(guān)的，即使對于像中文與蒙文這樣的句法結(jié)構(gòu)相差比較大的語言對之間的對齊系統(tǒng)的構(gòu)建來浼也是一樣。訓(xùn)練參數(shù)的獲取和調(diào)

2、整并不依賴具體的語言學(xué)知識。在最大熵的思想應(yīng)用于統(tǒng)計詞語對齊之后，針對不同的語言可以加入具體的調(diào)整模型，這些與具體語言有關(guān)的調(diào)整模型的加入，并不影響基礎(chǔ)的統(tǒng)計詞語對齊，所以可以通過語言學(xué)專家的對立工作來進(jìn)行，之后將這些附加的模型加入到系統(tǒng)中來。經(jīng)過500句漢蒙測試集實驗，對齊錯誤率為31．2％。為了得到蒙文詞性標(biāo)注模型，提出了改進(jìn)的基于轉(zhuǎn)換的拉丁蒙文詞性標(biāo)注方法。針對傳統(tǒng)基于轉(zhuǎn)換的詞性標(biāo)注方法中規(guī)則學(xué)習(xí)速度過慢的問題提出了一種對訓(xùn)練語料庫進(jìn)行動態(tài)劃分的算法。該算法根據(jù)規(guī)則之間的沖突和依賴關(guān)系對訓(xùn)練語科庫進(jìn)行動態(tài)劃分，減小了搜索空間。在保證拉丁蒙文詞性標(biāo)

3、注正確率的前提下提高了規(guī)則學(xué)習(xí)速度。經(jīng)過一萬拉丁蒙文句子語料庫的對比測試，發(fā)現(xiàn)該方法在規(guī)則學(xué)習(xí)中所花費(fèi)的時聞僅為原方法的32％。關(guān)鍵字：詞語對齊、最大熵、詞典模型、詞性標(biāo)注模型中國科學(xué)技術(shù)大學(xué)碩士論文AbstraetAbstractWordalignmentisabasicproblemofCross—lingualNaturalLanguageProcessing．ManyNLPtasksbasedonbilingualcorpussuchasSBMT，EBMT，WSDandAutomatedDictionaryExtractionallneedto

4、alignwords．Previouslyproposedpaynotenoughattentiontobilingualinformation．Thispaperfocusesontheuseofmultilingualresourcesorinformationtoimprovethequalityofalignment，OnthebasisofstatisticalalignmentmodelsuchasIBMwordalignmentmodel，proposeamaximumentropywordalignmentalgorithm．Maxim

5、umEntropybilingualwordalignmentdoesnotneedalarge—scalelinguisticknowledge．Thetrainingofvariousparametershasnothingtodowithaspecificlanguage．EvenillsChineseandMongolianwhichsyntacticstructureshavelargedifferencesarethesame．Theacquisitionandtheadjustmentoftrainingparametersarenotd

6、ependentonspecificlinguisticknowledge，WiththeuseofMaximumEntropyinstatisticalwordalignment，thespecificmodelCallbeadjustedtodifferentlanguages．Theaddingofthesespecificlanguage·relatedadjustingmodelsdoesnotaffectthebasisofthestatisticalwordalignment．Sothelinguisticexpertsworkfirst

7、togetmodelsandthenaddthoseadditionalmodelstothesystem．AfterexperimentonChineseandMongoliantestsetof500sentences．theAERis31．2％．TogetthePOSmodelofMongolian,animprovedTransformationBasedPartofSpeechTaggingofLatinMongolianmethodisproposed．Tosolvetheproblemofrolelearningtimecostfortr

8、aditionaltransformationbusedpartofspeechtagging

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 71



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)

基于農(nóng)業(yè)知識處理平臺漢蒙詞語對齊技術(shù)

相關(guān)文章

相關(guān)標(biāo)簽