資源描述:
《基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、廈門大學(xué)學(xué)位論文原創(chuàng)性聲明本人呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下,獨(dú)立完成的研究成果。本人在論文寫作中參考其他個(gè)人或集體已經(jīng)發(fā)表的研究成果,均在文中以適當(dāng)方式明確標(biāo)明,并符合法律規(guī)范和《廈門大學(xué)研究生學(xué)術(shù)活動(dòng)規(guī)范(試行)》。另外,該學(xué)位論文為()課題(組)的研究成果,獲得()課題(組)經(jīng)費(fèi)或?qū)嶒?yàn)室的資助,在()實(shí)驗(yàn)室完成。(請(qǐng)?jiān)谝陨侠ㄌ?hào)內(nèi)填寫課題或課題組負(fù)責(zé)人或?qū)嶒?yàn)室名稱,未有此項(xiàng)聲明內(nèi)容的,可以不作特別聲明。)聲明人(簽名):支砌2z/e.年5月仔日IIIIIIIIIIIIIIIIIIIU廈門大學(xué)學(xué)位論文著作權(quán)使用聲明Y2536749本人同意廈門大學(xué)根據(jù)《中華人民共和
2、國(guó)學(xué)位條例暫行實(shí)施辦法》等規(guī)定保留和使用此學(xué)位論文,并向主管部門或其指定機(jī)構(gòu)送交學(xué)位論文(包括紙質(zhì)版和電子版),允許學(xué)位論文進(jìn)入廈門大學(xué)圖書館及其數(shù)據(jù)庫(kù)被查閱、借閱。本人同意廈門大學(xué)將學(xué)位論文加入全國(guó)博士、碩士學(xué)位論文共建單位數(shù)據(jù)庫(kù)進(jìn)行檢索,將學(xué)位論文的標(biāo)題和摘要匯編出版,采用影印、縮印或者其它方式合理復(fù)制學(xué)位論文。本學(xué)位論文屬于:()1.經(jīng)廈門大學(xué)保密委員會(huì)審查核定的保密學(xué)位論文,于年月日解密,解密后適用上述授權(quán)。()2.不保密,適用上述授權(quán)。(請(qǐng)?jiān)谝陨舷鄳?yīng)括號(hào)內(nèi)打“√”或填上相應(yīng)內(nèi)容。保密學(xué)位論文應(yīng)是已經(jīng)廈門大學(xué)保密委員會(huì)審定過的學(xué)位論文,未經(jīng)廈門大學(xué)保密委員會(huì)審
3、定的學(xué)位論文均為公開學(xué)位論文。此聲明欄不填寫的,默認(rèn)為公開學(xué)位論文,均適用上述授權(quán)。)聲明人(簽名):劉初診f瞄手玉目f蓄日摘要篇章關(guān)系自動(dòng)識(shí)別是自然語言處理領(lǐng)域一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),該任務(wù)通過挖掘自然語言文本之間的結(jié)構(gòu)信息、語義信息和詞信息等來識(shí)別文本單元之間的邏輯關(guān)系,對(duì)自動(dòng)問答系統(tǒng)、機(jī)器自動(dòng)文摘、文本蘊(yùn)含等都具有十分重要的實(shí)踐和指導(dǎo)意義。根據(jù)文本單元中是否存在連接詞可將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系兩種。顯式篇章關(guān)系僅僅根據(jù)連接詞就可以輕易分辨出文本之間的關(guān)系,而隱式篇章關(guān)系由于連接詞的缺失使得其自動(dòng)識(shí)別成為一個(gè)難點(diǎn)。目前,隱式篇章關(guān)系識(shí)別主要采用有
4、監(jiān)督機(jī)器學(xué)習(xí)的方法,對(duì)候選關(guān)系實(shí)例的表示也處于探索階段。然而有監(jiān)督學(xué)習(xí)需要大量的人工標(biāo)注數(shù)據(jù)來增強(qiáng)模型的可靠性和健壯性,考慮到人工標(biāo)注數(shù)據(jù)難度大、代價(jià)高的困境,本文首次提出基于自訓(xùn)練和互訓(xùn)練的半監(jiān)督策略來識(shí)別隱式篇章關(guān)系,并對(duì)候選關(guān)系實(shí)例的表示進(jìn)行了進(jìn)一步探索。本文研究?jī)?nèi)容主要包括三部分:(1)用ThePennDiscourseTreebank(PDTB)2.0作為研究載體,提取First—Last.First3、InquirerTags、產(chǎn)生式規(guī)則、依賴式規(guī)則、詞的極性,動(dòng)詞特征、情態(tài)動(dòng)詞、實(shí)體特征、一元詞對(duì)特征共9種特征以及特征之間的組合來表示候選關(guān)系實(shí)例。(2)
5、用有監(jiān)督的方法對(duì)隱式篇章關(guān)系進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明,結(jié)構(gòu)信息和語義信息相結(jié)合能取得比單一特征更好的效果。我們的結(jié)果比baseline提高了一到兩個(gè)百分點(diǎn)。(3)根據(jù)有監(jiān)督的實(shí)驗(yàn)結(jié)果,選取效果最好的組合特征構(gòu)建基于自訓(xùn)練和互訓(xùn)練的半監(jiān)督模型,利用少量標(biāo)注數(shù)據(jù)和大量的無標(biāo)注數(shù)據(jù)來識(shí)別隱式篇章關(guān)系,并對(duì)不同大小的標(biāo)注數(shù)據(jù)集下的有監(jiān)督模型、自訓(xùn)練模型、互訓(xùn)練模型的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。結(jié)論表明,少量標(biāo)注數(shù)據(jù)的情況F,半監(jiān)督策略能取得更好的效果。關(guān)鍵詞:隱式篇章關(guān)系識(shí)別;半監(jiān)督;PDTBAbstractIntheareaofNatureLanguageProcessing(NLP)
6、,itisadifficulttaskfordiscourserelationidentification.Itaimstoidentifyandlabeltherelationsthatholdbetweenarbitraryspansoftext(clauses,sentences,orparagraphs).Thistaskiscrucialforunderstandingagiventext,especiallyhelpfulfornumerousnaturallanguageprocessingapplications,e.g.,textsummarizat
7、ion,questionansweringandtextualentailment.Generally,discourserelationsmarkedbyexplicitconnectivesintextaredefinedasexplicitdiscourserelations,otherwisewhensuchconnectivesareabsenttheyaredefinedasimplicitdiscourserelations.Thepresenceofdiscourseconnectivesbetweentextualunitscang