資源描述:
《中文詞性標(biāo)注中異構(gòu)數(shù)據(jù)問題研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、萬方數(shù)據(jù)復(fù)旦大學(xué)碩_上研宄生學(xué)位論文中文詞性標(biāo)注巾異構(gòu)數(shù)據(jù)問題研究指導(dǎo)小組成員名單黃萱菁教授邱錫鵬副教授張奇副教授周雅倩講師萬方數(shù)據(jù)復(fù)旦大學(xué)碩士研究生學(xué)位論文中文詞性標(biāo)注中異構(gòu)數(shù)據(jù)問題研宄目錄I嘲罌目勇毛????????.????????????????????????????.????????????I第一章緒論????????????????????????????????11.1簡介(背景和研究意義】?????????????????????????11.2相關(guān)工作??????????????????????????????一31.2.1混合文本與詞級別特征????????
2、????????????????61.2。2多語料訓(xùn)練與多任務(wù)學(xué)習(xí)???????????????????????71.3主要貢獻(xiàn)??????????????????????????????一91.4章節(jié)安排??????????????????????????????.10第二章中英文混合文本詞性標(biāo)注???????????????????????122.1簡介??????????????????????????????????????????..122.2算法??????????????????????????????????????????一132.2.1動態(tài)特征????????
3、??????????????????????142.2.2利用動態(tài)特征進(jìn)行標(biāo)注???????????????????????.152.2_3訓(xùn)練算法?????????????????????????????.162.3實驗分析??????????????????????????????.182.3.1純中文詞性標(biāo)注??????????????????????????.182.3.2中英文混合文本詞性標(biāo)注??????????????????????一192.3.3真實中英文混合文本數(shù)據(jù)實驗????????????????????..24第三章基于異構(gòu)訓(xùn)練語料的詞性標(biāo)注???????
4、??????????????273.1簡介????????????????????????????????273.2算法????????????????????????????.??????????????.283.2.1建立詞性標(biāo)簽間的映射函數(shù)?????????????????????..283.2.2基于多任務(wù)學(xué)習(xí)的異構(gòu)數(shù)據(jù)聯(lián)合標(biāo)注?????????????????..303.2.3異構(gòu)數(shù)據(jù)的模型訓(xùn)練????????????????????????.323.2.4分析?????.???????.?????????.???????????????????..353.3實驗分析?
5、?????????????????????????????353.3.1數(shù)據(jù)集和實驗設(shè)置?????????????????????????.35萬方數(shù)據(jù)復(fù)旦大學(xué)碩士研究生學(xué)位論文中文詞性標(biāo)注中異構(gòu)數(shù)據(jù)問題研宄3.3.2實驗結(jié)果????????3.3.3實驗分析????????3.4本章小結(jié)?????????第四章總結(jié)與展望???????一4.6總結(jié)??????????????.4.7未來工作?????????參考文獻(xiàn)????????????一碩士期間發(fā)表的論文???????一致謝??????????????一????????????37????????????38????????
6、????39....................................40???????????..41....................................43.....................。..............47...................................48萬方數(shù)據(jù)復(fù)旦大學(xué)碩士研究生學(xué)位論文中文詞性標(biāo)注中異構(gòu)數(shù)據(jù)問題研究摘要本文主要研究中文詞性標(biāo)注中異構(gòu)數(shù)據(jù)問題。中文分詞和詞性標(biāo)注是中文自然語言處理的基礎(chǔ)任務(wù),句法分析和語義分析建立在這些基礎(chǔ)任務(wù)之上,大量的系統(tǒng)也依賴于這些基礎(chǔ)任務(wù)的效果,比如對
7、話系統(tǒng)和檢索系統(tǒng)中會用到分詞算法,信息抽取、關(guān)鍵詞提取等算法常利用詞性標(biāo)注的結(jié)果。隨著研究人員的增加、工業(yè)界的發(fā)展以及互聯(lián)網(wǎng)的普及,出現(xiàn)了大量的異構(gòu)數(shù)據(jù)和語料。本文主要從兩個方面研究這些異構(gòu)數(shù)據(jù):目標(biāo)數(shù)據(jù)的異構(gòu)問題和訓(xùn)練語料數(shù)據(jù)的異構(gòu)問題。目標(biāo)數(shù)據(jù)的異構(gòu)問題在詞性標(biāo)注任務(wù)中的主要體現(xiàn)在于標(biāo)注對象是異構(gòu)的?,F(xiàn)今,互聯(lián)網(wǎng)絡(luò)的流行、各國文化的融合等因素使得中文文章和對話中常常摻有少量的外文比如英文單詞,尤其在電子郵件和互聯(lián)網(wǎng)的博客與社交網(wǎng)絡(luò)中。因此,分析研究中英文混合文本就成為了一個重