資源描述:
《中文成分句法分析關(guān)鍵技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、萬方數(shù)據(jù)分類號UDC作者姓名:指導(dǎo)教師:申請學(xué)位級別:學(xué)科專業(yè)名稱:論文提交日期:學(xué)位授予日期:評閱人:密級學(xué)位論文中文成分句法分析關(guān)鍵技術(shù)研究劉卓張俐副教授東北大學(xué)信息科學(xué)與工程學(xué)院碩士學(xué)科類別:專業(yè)學(xué)位計(jì)算機(jī)技術(shù)2014年6月論文答辯日期:2014年6月2014年7月答辯委員會(huì)主席:楊曉春胡明涵、戰(zhàn)學(xué)剛東北大學(xué)2014年6月萬方數(shù)據(jù)AThesisinComputerTechnologyStudyonChineseConstituentParsingByLiuZhuoSupervisor:Associat
2、eProfessorZhangLiNortheasternUniversityJune2014萬方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:勻努\日期:加,午午6目學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:即學(xué)校有權(quán)
3、保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時(shí)間為作者獲得學(xué)位后:半年囪一年口一年半口兩年口學(xué)位論文作者簽名:鶿每簽字日期:加f乍斗6『9I導(dǎo)師簽名:簽字日期:飄加,爭肇掃’同萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要中文成分句法分析關(guān)鍵技術(shù)研究摘要成分句法分析(又被稱作短語結(jié)構(gòu)句法分析)是自然語言處理的核心任務(wù)之一,被廣泛應(yīng)用于包括統(tǒng)計(jì)機(jī)器翻譯(StatisticalMachineTran
4、slation)、語義角色標(biāo)注(SemanticRoleLabeling)、問答系統(tǒng)(QuestionAnswering)、信息抽取(InformationExtraction)在內(nèi)的多種自然語言處理任務(wù)。由于人工標(biāo)注句法數(shù)據(jù)(在句法分析領(lǐng)域,這類數(shù)據(jù)的集合通常被稱作樹庫)的出現(xiàn),數(shù)據(jù)驅(qū)動(dòng)的句法分析方法成為當(dāng)前句法分析研究的主流方法。但主流的成分句法分析器雖然能獲得較好的性能,它們的速度卻是非常慢的,這些速度較慢的句法分析模型不能滿足實(shí)際應(yīng)用的需求。為此,本文研究并構(gòu)建了一個(gè)高效的中文成分句法分析模型,該模
5、型基于移進(jìn).規(guī)約算法,其主要的優(yōu)勢在于其能夠快速的進(jìn)行句法分析,同時(shí)保證較好的性能,此外,本文還在基準(zhǔn)系統(tǒng)的基礎(chǔ)上對模型進(jìn)行了幾點(diǎn)改進(jìn)。本文的主要內(nèi)容如下:首先,研究并構(gòu)建了中文成分句法分析基準(zhǔn)系統(tǒng)。系統(tǒng)基于移進(jìn).規(guī)約算法,它是一個(gè)自底向上的句法分析算法,將成分句法分析過程轉(zhuǎn)化成一個(gè)最優(yōu)動(dòng)作序列的搜索過程。該算法是一個(gè)線性的算法,所以能夠高效率的完成句法分析任務(wù)。在訓(xùn)練過程中選擇感知機(jī)模型,對算法進(jìn)行建模,在解碼模塊使用柱搜索技術(shù),既保證了算法的線性時(shí)間復(fù)雜度,又提高了算法的準(zhǔn)確性。本文之后的研究以及改進(jìn)的
6、方法都將在這個(gè)基準(zhǔn)系統(tǒng)上展開。其次,研究了提高中文成分句法分析性能的方法。通過對基準(zhǔn)系統(tǒng)實(shí)驗(yàn)結(jié)果的分析提出了兩種方法來改進(jìn)分析模型:第一種是通過使用更豐富的句法分析特征來改進(jìn)句法分析模型;另一種是使用基于半指導(dǎo)的方法,擴(kuò)大訓(xùn)練集規(guī)模,提高句法分析動(dòng)作判斷的準(zhǔn)確率,改進(jìn)基準(zhǔn)系統(tǒng)的性能。本文的貢獻(xiàn)度主要表現(xiàn)在:研究并構(gòu)建了一個(gè)高效的成分句法分析系統(tǒng),在實(shí)驗(yàn)中可以達(dá)到每秒80句以上的分析速度。提出了兩種改進(jìn)句法分析模型的方法,并通過驗(yàn)證了這兩種方法對句法分析性能的改進(jìn)作用。最終的實(shí)驗(yàn)表明,本文提出的方法能夠有效的
7、改進(jìn)成分句法分析模型的性能。在使用賓州大學(xué)中文樹庫標(biāo)準(zhǔn)測試集的條件下,算法獲得的最高F1值為84.55%。關(guān)鍵詞:自然語言處理;成分句法分析;移進(jìn).規(guī)約;感知機(jī)模型;柱搜索;半指導(dǎo).II.萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要..III..萬方數(shù)據(jù)StudyonChineseConstituentParsingAbstractConstituentparsing(alsoknownasphrase—structureparsing)isoneofthecoretasksofnaturallanguageproce
8、ssing,whichisoftenusedinmanyotherniptasks,suchasStatisticalMachineTranslation,SemanticRoleLabeling,QuestionAnsweringandInformationExtraction.Sincethereleaseofhuman-labeledcorpus(calledtreebankinparsing),data-