資源描述:
《基于GRU神經(jīng)網(wǎng)絡(luò)結(jié)合CRF的中文分詞研究分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、工程碩士研究生學(xué)位論文基于GRU神經(jīng)網(wǎng)絡(luò)結(jié)合CRF的中文分詞研究分析作者姓名慕容偉波工程領(lǐng)域軟件工程校內(nèi)指導(dǎo)教師張平健教授校外指導(dǎo)教師潘勇高級工程師所在學(xué)院軟件學(xué)院論文提交日期20180521AResearchonChineseWordSegmentationBasedonGRUNeuralNetworkCombinedwithCRFADissertationSubmittedfortheDegreeofMasterCandidate:MurongWeiboSupervisor:Prof.ZhangPingjianSouthChinaUniversityof
2、TechnologyGuangzhou,China分類號:TP3學(xué)校代號:10561學(xué)號:201520210056華南理工大學(xué)碩士學(xué)位論文基于GRU神經(jīng)網(wǎng)絡(luò)結(jié)合CRF的中文分詞研究分析作者姓名:慕容偉波指導(dǎo)教師姓名、職稱:張平健教授;潘勇高級工程師申請學(xué)位級別:工程碩士工程領(lǐng)域名稱:軟件工程論文形式:?產(chǎn)品研發(fā)?工程設(shè)計?應(yīng)用研究?工程/項目管理?調(diào)研報告研究方向:自然語言處理論文提交日期:2018年5月21日論文答辯日期:2018年5月26日學(xué)位授予單位:華南理工大學(xué)學(xué)位授予日期:年月日答辯委員會成員:主席:黃敏委員:張平健、陳虎、湯佑德、徐迪威摘要分詞是
3、中文自然語言處理中的關(guān)鍵技術(shù)。將中文分詞問題轉(zhuǎn)化為字標(biāo)注問題,以便套用機器學(xué)習(xí)的方法去解決,是較為有效的一種思路。然而,基于傳統(tǒng)機器學(xué)習(xí)方法進行分詞,需要人為的在中文文本中提取特征,存在信息提取不充分、詞庫維度高、且利用CPU訓(xùn)練模型時間長的缺點。近年,深度學(xué)習(xí)模型被引進來解決中文分詞問題,比較典型的是可以處理長距離依賴信息的長短記憶神經(jīng)網(wǎng)絡(luò)。但是,在基于序列標(biāo)注的中文分詞問題上,長短記憶神經(jīng)網(wǎng)絡(luò)提取中文詞語局部約束信息的能力較弱,而且存在著訓(xùn)練時間較長的問題,為了解決以上兩方面的問題,本文提出了基于長短記憶神經(jīng)網(wǎng)絡(luò)后接CRF層的中文分詞模型。本文通過對一般
4、的LSTM神經(jīng)網(wǎng)絡(luò)中文分詞模型、基于GRU神經(jīng)網(wǎng)絡(luò)的中文分詞模型及結(jié)合了CRF的GRU神經(jīng)網(wǎng)絡(luò)的中文分詞模型的效率和效果進行對比,實驗結(jié)果表明,結(jié)合了CRF的GRU神經(jīng)網(wǎng)絡(luò)中文分詞模型在保證效率的基礎(chǔ)上,分詞效果也得到了明顯的提升。關(guān)鍵字:中文分詞長短記憶神經(jīng)網(wǎng)絡(luò)門循環(huán)單元神經(jīng)網(wǎng)絡(luò)線性條件隨機場IAbstractSegmentationisakeytechnologyinChinesenaturallanguageprocessing.TheproblemoftranslatingChinesewordsegmentationintowordtaggingi
5、samoreeffectivewaytosolveitbyapplyingmachinelearningmethods.However,segmentationbasedonthetraditionalmachinelearningmethodneedsartificiallyextractingfeaturesinChinesetexts,hasthedisadvantagesofinsufficientinformationextraction,highvocabularydimension,andlongtrainingtimeusingCPUs.In
6、recentyears,thedeeplearningmodelhasbeenintroducedtosolvetheproblemofChinesewordsegmentation.Thetypicallong-termandshort-termmemoryneuralnetworkcanhandlelong-distancedependentinformation.However,ontheproblemofChinesewordsegmentationbasedonsequenceannotation,theabilityofshortandlongm
7、emoryneuralnetworkstoextractlocalconstraintsofChinesewordsisweak,andthereisaproblemoflongtrainingtime.Inordertosolvetheabovetwoproblems,thispaperproposesamethodbasedonlengthandshortness.TheneuralnetworkisfollowedbytheChinesewordsegmentationmodeloftheCRFlayer.Thispapercomparestheeff
8、iciencyandeffectivenessoft