資源描述:
《基于關(guān)系線索挖掘與聯(lián)合學(xué)習(xí)的隱式篇章關(guān)系分類方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、學(xué)校代碼:1肥85學(xué)號(hào);2M342巧007襄1牡考SOOCHOWUNIVERSITY■OMWKlwKKm基于關(guān)系線索挖掘與聯(lián)合學(xué)習(xí)的隱式篇章關(guān)系分類方法研究Research〇打民elatio打alClueMiningandsacked’LearningfbrImplicitDiscourseRelationClassificatio打研究生姓名朱珊珊It指導(dǎo)教師姓名朱巧明洪宇專業(yè)名稱計(jì)算機(jī)科學(xué)與技術(shù)研究方向自然語(yǔ)言處理
2、所在院部計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院論文提交日期20化年5月。蘇州大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明本人鄭重聲明:所提交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)法明引用的內(nèi)容外,本論文不含其他個(gè)人或集體己經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不含為獲得蘇州大學(xué)或其它教育機(jī)構(gòu)的學(xué)位巧書(shū)而使用過(guò)的材料。對(duì)本文的研究作出重要貢獻(xiàn)的個(gè)人和集體,均已在文中W明確方式標(biāo)明。本人承擔(dān)本聲明的法律責(zé)任。\?>I’論文作者簽名:■!柵嘗日期IL29:2Q5.蘇州大學(xué)學(xué)位論文使用授權(quán)
3、聲明本人完全了解蘇州大學(xué)關(guān)于收集、保存和使用學(xué)位論文的規(guī)定,質(zhì)即論:文學(xué)位論文著作權(quán)歸屬蘇州大學(xué)。本學(xué)位論文電子文擋的內(nèi)容巧紙的內(nèi)容相一致。蘇州大學(xué)有權(quán)向國(guó)家圖書(shū)館、中圃社科院文獻(xiàn)信息情報(bào)中必、中國(guó)科學(xué)技術(shù)信息研究所(含萬(wàn)方數(shù)據(jù)電子出販社)、中國(guó)學(xué)術(shù)期刊(光盤(pán)版)電子雜志社送交本學(xué)位論文的復(fù)印件和電子保文檔,允許論文被查閥和借閱,可采用影印、縮印或其他復(fù)制手段據(jù)存和匯編學(xué)位論文,可將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)庫(kù)進(jìn)行檢索。涉密論文口本學(xué)位論文屬在V■非涉密論文口年__
4、月解密后適用本規(guī)定。"論文作者簽名:聲被過(guò)期;7辦導(dǎo)師簽?名:日期:方奪1t'?.基于關(guān)系線索挖掘與聯(lián)合學(xué)習(xí)的隱式篇章關(guān)系分類方法研究中文摘要篇章分析旨在研究自然語(yǔ)言文本的內(nèi)在結(jié)構(gòu)并理解文本論述單元間的語(yǔ)義邏輯關(guān)系。在篇章分析領(lǐng)域,篇章是指由一組語(yǔ)義上連貫且結(jié)構(gòu)上銜接的論元,經(jīng)過(guò)結(jié)構(gòu)化組織形成的自然語(yǔ)言文本。篇章關(guān)系分類研究作為篇章結(jié)構(gòu)分析領(lǐng)域的一個(gè)重要研究子任務(wù),旨在自動(dòng)識(shí)別和判定同一篇章內(nèi)毗連的兩個(gè)論元之間的結(jié)構(gòu)連接關(guān)系。賓州篇章樹(shù)庫(kù)(PennDiscourseTreeBank,簡(jiǎn)稱PDTB)
5、根據(jù)論元之間是否存在連接詞,將篇章關(guān)系分成顯式篇章關(guān)系和隱式篇章關(guān)系。前人研究已證明,顯式篇章關(guān)系較易判定,實(shí)驗(yàn)性能已達(dá)93.09%;相對(duì)而言,隱式篇章關(guān)系由于缺少連接詞(如“但是”,“因?yàn)椤钡龋┑戎庇^推理線索,推理難度較大。本文針對(duì)隱式篇章關(guān)系分類任務(wù)中缺少顯式關(guān)系分類線索的難點(diǎn)以及無(wú)法充分發(fā)揮多種分類方法優(yōu)勢(shì)的缺陷進(jìn)行研究,論文的主要內(nèi)容歸納為以下三個(gè)方面:?基于外聯(lián)關(guān)系的隱式篇章關(guān)系推理方法研究該研究的主要核心出發(fā)點(diǎn)是:兩兩“論元”之間的關(guān)系主要由其各自的“外聯(lián)”成分觸發(fā)。在此基礎(chǔ)上,本文提出一種基于“外聯(lián)”關(guān)系的隱式
6、篇章關(guān)系推理方法。該方法繼承“顯式指導(dǎo)隱式”的關(guān)系推理模式,針對(duì)每個(gè)待測(cè)“論元對(duì)”,在大規(guī)模外部數(shù)據(jù)資源中挖掘與其內(nèi)容近似的顯式“參考對(duì)”,借助“參考對(duì)”的顯式關(guān)系推理隱式關(guān)系。特別地,該方法側(cè)重挖掘“論元對(duì)”中能夠協(xié)同觸發(fā)篇章關(guān)系的文字片段(即“外聯(lián)”成分),以“外聯(lián)”成分間的關(guān)系為參考,推理“論元對(duì)”整體的篇章關(guān)系。?面向數(shù)據(jù)不平衡問(wèn)題的隱式篇章關(guān)系樣本集擴(kuò)展方法研究由于受到篇章關(guān)系類別不平衡的影響,特定篇章關(guān)系類型的訓(xùn)練樣本較為稀疏,導(dǎo)致分類模型訓(xùn)練不充分;相反,某些篇章關(guān)系類別的樣本數(shù)量較為飽和,分類模型I容易產(chǎn)生過(guò)
7、擬合。針對(duì)上述問(wèn)題,本文借助“論元”向量?jī)?yōu)化論元的表示形式,從外部數(shù)據(jù)資源中挖掘有效的篇章關(guān)系樣本,對(duì)隱式訓(xùn)練樣本集進(jìn)行擴(kuò)展,增加關(guān)系分類線索,解決分類任務(wù)中篇章關(guān)系類別分布不平衡以及人工標(biāo)注的隱式訓(xùn)練樣本數(shù)量有限這兩個(gè)問(wèn)題。在此基礎(chǔ)上,抽取“論元”中有效的語(yǔ)言學(xué)特征,訓(xùn)練獲得隱式篇章關(guān)系分類模型,檢驗(yàn)訓(xùn)練樣本擴(kuò)展對(duì)單一分類性能以及整體分類性能的影響。?基于Stacking組合學(xué)習(xí)的隱式篇章關(guān)系分類優(yōu)化方法研究研究任務(wù)2)中通過(guò)對(duì)訓(xùn)練樣本進(jìn)行擴(kuò)展實(shí)現(xiàn)隱式篇章關(guān)系分類,有效提升了分類器在各個(gè)篇章關(guān)系上的分類性能。但是,由于在分
8、類模型學(xué)習(xí)過(guò)程中,使用不同的訓(xùn)練語(yǔ)料、分類算法和分類特征,單一學(xué)習(xí)器在各種篇章關(guān)系類別上表現(xiàn)出不同的分類適用性,隱式篇章關(guān)系的分類性能各有優(yōu)勢(shì),截止到目前為止,這些單一學(xué)習(xí)器的分類優(yōu)勢(shì)尚未融合到同一模型下得以充分發(fā)揮。因此,本文嘗試提出一種基于Stacking組合學(xué)習(xí)的關(guān)系分類優(yōu)化方法,將