資源描述:
《基于統(tǒng)一模型的中文社交媒體命名實體識別的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、武漢郵電科學(xué)研究院碩士學(xué)位論文基于統(tǒng)一模型的中文社交媒體命名實體識別的研究ResearchonNamedEntityRecognitionforChineseSocialMediaBaseonUnifiedModel專業(yè):信號與信息處理研究方向:自然語言處理導(dǎo)師:彭艷兵研究生:黃鵬學(xué)號:20150016二〇一八年一月武漢郵電科學(xué)研究院碩士學(xué)位論文摘要隨著信息時代的發(fā)展,人們迫切須要從海量的文本信息中快速讀懂信息,命名實體識別技術(shù)運用而生。命名實體識別是指從文本中篩選和識別出人名、機構(gòu)名、地名等專有名稱和有意義的時間、日期等數(shù)量短語并加以歸類。對很多文本挖掘任務(wù)來說,命名實
2、體識別系統(tǒng)是重要的組成部分,研究命名實體識別模型來提升識別效果的方法具有學(xué)術(shù)和應(yīng)用價值,意義重大。本文針對在海量未標注的中文社交媒體文本情形下如何提高其命名實體識別的效果問題,提出了一種對中文社交媒體命名實體識別的統(tǒng)一識別模型(UNER,UnifiedmodelofNamedEntityRecognition)。統(tǒng)一識別模型算法通過權(quán)重將一個跨領(lǐng)域?qū)W習(xí)模型和一個半監(jiān)督學(xué)習(xí)模型融合組成??珙I(lǐng)域?qū)W習(xí)需要確定通用領(lǐng)域和目標領(lǐng)域之間句子的相似度,運用學(xué)習(xí)率函數(shù)來自動調(diào)整不同領(lǐng)域句子的學(xué)習(xí)率,結(jié)合轉(zhuǎn)移概率算法,從而實現(xiàn)輔助領(lǐng)域和目標領(lǐng)域之間域的相適應(yīng),提高跨領(lǐng)域?qū)W習(xí)模型的泛化能力。
3、而半監(jiān)督模型將主動學(xué)習(xí)與自學(xué)習(xí)相結(jié)合的中文命名實體識別方法,采用置信度函數(shù)來調(diào)整學(xué)習(xí)率的方式,不斷迭代地從目標域內(nèi)未標注的語料中提取樣本,添加到訓(xùn)練集進行訓(xùn)練,從而選出命名實體。通過主動學(xué)習(xí)目標域內(nèi)未標注的信息,極大地降低了人工標注語料的工作量,使得主動學(xué)習(xí)在海量數(shù)據(jù)上具有可操作性。實驗結(jié)果表明:統(tǒng)一識別模型改善了中文社交媒體命名實體識別的效果。統(tǒng)一識別模型融合了跨領(lǐng)域?qū)W習(xí)模型和半監(jiān)督學(xué)習(xí)模型,統(tǒng)一識別模型大大減小人工標注語料的工作和提高了中文社交媒體的命名實體識別效果。關(guān)鍵詞:命名實體識別統(tǒng)一識別模型跨領(lǐng)域?qū)W習(xí)相似度半監(jiān)督學(xué)習(xí)置信度I武漢郵電科學(xué)研究院碩士學(xué)位論文Abs
4、tractWiththedevelopmentofinformationage,peopleurgentlyneedtoquicklyunderstandtheinformationfromthevastamountofinformationtexts,Namedentityrecognitiontechnologyisborn.NamedEntityRecognition(NER)referstotheclassificationandidentificationofquantitativephrasessuchasthename,organizationname,pl
5、acename,andmeaningfultimeanddatefromthetexts.Formanytextminingtasks,NERsystemisanimportantcomponent,theresearchofNERmodeltoenhancetherecognitioneffecthasacademicandpracticalvalue.ThispaperfocusesonhowtoimprovetheeffectofNERundertheconditionofmassiveunlabeledtexts.ThispaperproposeaUNER(uni
6、fiedmodelofNER)inChineseSocial,Theunifiedmodelconsistsofacross-domainlearningmodelandasemi-supervisedlearningmodelwithbyweight.Cross-domainlearningneedstodeterminethesimilaritybetweensentencesinthecommondomainandthetargetdomain.Thelearningratefunctionisusedtoautomaticallyadjustthelearning
7、rateofsentencesindifferentfields.Combinedwithtransferprobabilityalgorithm,soastoachievetheadaptationbetweentheauxiliaryareaandthetargetarea,Improvethegeneralizationofcross-domainlearningmodel.Thesemi-supervisedlearningmodelcombinesself-trainandautonomouslearningforC