基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究

基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究

ID:34114624

大?。?.58 MB

頁(yè)數(shù):64頁(yè)

時(shí)間:2019-03-03

基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究_第1頁(yè)
基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究_第2頁(yè)
基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究_第3頁(yè)
基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究_第4頁(yè)
基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究_第5頁(yè)
資源描述:

《基于半監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系識(shí)別與研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、廈門大學(xué)學(xué)位論文原創(chuàng)性聲明本人呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下,獨(dú)立完成的研究成果。本人在論文寫作中參考其他個(gè)人或集體已經(jīng)發(fā)表的研究成果,均在文中以適當(dāng)方式明確標(biāo)明,并符合法律規(guī)范和《廈門大學(xué)研究生學(xué)術(shù)活動(dòng)規(guī)范(試行)》。另外,該學(xué)位論文為()課題(組)的研究成果,獲得()課題(組)經(jīng)費(fèi)或?qū)嶒?yàn)室的資助,在()實(shí)驗(yàn)室完成。(請(qǐng)?jiān)谝陨侠ㄌ?hào)內(nèi)填寫課題或課題組負(fù)責(zé)人或?qū)嶒?yàn)室名稱,未有此項(xiàng)聲明內(nèi)容的,可以不作特別聲明。)聲明人(簽名):支砌2z/e.年5月仔日IIIIIIIIIIIIIIIIIIIU廈門大學(xué)學(xué)位論文著作權(quán)使用聲明Y2536749本人同意廈門大學(xué)根據(jù)《中華人民共和

2、國(guó)學(xué)位條例暫行實(shí)施辦法》等規(guī)定保留和使用此學(xué)位論文,并向主管部門或其指定機(jī)構(gòu)送交學(xué)位論文(包括紙質(zhì)版和電子版),允許學(xué)位論文進(jìn)入廈門大學(xué)圖書館及其數(shù)據(jù)庫(kù)被查閱、借閱。本人同意廈門大學(xué)將學(xué)位論文加入全國(guó)博士、碩士學(xué)位論文共建單位數(shù)據(jù)庫(kù)進(jìn)行檢索,將學(xué)位論文的標(biāo)題和摘要匯編出版,采用影印、縮印或者其它方式合理復(fù)制學(xué)位論文。本學(xué)位論文屬于:()1.經(jīng)廈門大學(xué)保密委員會(huì)審查核定的保密學(xué)位論文,于年月日解密,解密后適用上述授權(quán)。()2.不保密,適用上述授權(quán)。(請(qǐng)?jiān)谝陨舷鄳?yīng)括號(hào)內(nèi)打“√”或填上相應(yīng)內(nèi)容。保密學(xué)位論文應(yīng)是已經(jīng)廈門大學(xué)保密委員會(huì)審定過的學(xué)位論文,未經(jīng)廈門大學(xué)保密委員會(huì)審

3、定的學(xué)位論文均為公開學(xué)位論文。此聲明欄不填寫的,默認(rèn)為公開學(xué)位論文,均適用上述授權(quán)。)聲明人(簽名):劉初診f瞄手玉目f蓄日摘要篇章關(guān)系自動(dòng)識(shí)別是自然語言處理領(lǐng)域一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),該任務(wù)通過挖掘自然語言文本之間的結(jié)構(gòu)信息、語義信息和詞信息等來識(shí)別文本單元之間的邏輯關(guān)系,對(duì)自動(dòng)問答系統(tǒng)、機(jī)器自動(dòng)文摘、文本蘊(yùn)含等都具有十分重要的實(shí)踐和指導(dǎo)意義。根據(jù)文本單元中是否存在連接詞可將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系兩種。顯式篇章關(guān)系僅僅根據(jù)連接詞就可以輕易分辨出文本之間的關(guān)系,而隱式篇章關(guān)系由于連接詞的缺失使得其自動(dòng)識(shí)別成為一個(gè)難點(diǎn)。目前,隱式篇章關(guān)系識(shí)別主要采用有

4、監(jiān)督機(jī)器學(xué)習(xí)的方法,對(duì)候選關(guān)系實(shí)例的表示也處于探索階段。然而有監(jiān)督學(xué)習(xí)需要大量的人工標(biāo)注數(shù)據(jù)來增強(qiáng)模型的可靠性和健壯性,考慮到人工標(biāo)注數(shù)據(jù)難度大、代價(jià)高的困境,本文首次提出基于自訓(xùn)練和互訓(xùn)練的半監(jiān)督策略來識(shí)別隱式篇章關(guān)系,并對(duì)候選關(guān)系實(shí)例的表示進(jìn)行了進(jìn)一步探索。本文研究?jī)?nèi)容主要包括三部分:(1)用ThePennDiscourseTreebank(PDTB)2.0作為研究載體,提取First—Last.First3、InquirerTags、產(chǎn)生式規(guī)則、依賴式規(guī)則、詞的極性,動(dòng)詞特征、情態(tài)動(dòng)詞、實(shí)體特征、一元詞對(duì)特征共9種特征以及特征之間的組合來表示候選關(guān)系實(shí)例。(2)

5、用有監(jiān)督的方法對(duì)隱式篇章關(guān)系進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明,結(jié)構(gòu)信息和語義信息相結(jié)合能取得比單一特征更好的效果。我們的結(jié)果比baseline提高了一到兩個(gè)百分點(diǎn)。(3)根據(jù)有監(jiān)督的實(shí)驗(yàn)結(jié)果,選取效果最好的組合特征構(gòu)建基于自訓(xùn)練和互訓(xùn)練的半監(jiān)督模型,利用少量標(biāo)注數(shù)據(jù)和大量的無標(biāo)注數(shù)據(jù)來識(shí)別隱式篇章關(guān)系,并對(duì)不同大小的標(biāo)注數(shù)據(jù)集下的有監(jiān)督模型、自訓(xùn)練模型、互訓(xùn)練模型的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。結(jié)論表明,少量標(biāo)注數(shù)據(jù)的情況F,半監(jiān)督策略能取得更好的效果。關(guān)鍵詞:隱式篇章關(guān)系識(shí)別;半監(jiān)督;PDTBAbstractIntheareaofNatureLanguageProcessing(NLP)

6、,itisadifficulttaskfordiscourserelationidentification.Itaimstoidentifyandlabeltherelationsthatholdbetweenarbitraryspansoftext(clauses,sentences,orparagraphs).Thistaskiscrucialforunderstandingagiventext,especiallyhelpfulfornumerousnaturallanguageprocessingapplications,e.g.,textsummarizat

7、ion,questionansweringandtextualentailment.Generally,discourserelationsmarkedbyexplicitconnectivesintextaredefinedasexplicitdiscourserelations,otherwisewhensuchconnectivesareabsenttheyaredefinedasimplicitdiscourserelations.Thepresenceofdiscourseconnectivesbetweentextualunitscang

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。