資源描述:
《基于循環(huán)神經(jīng)網(wǎng)絡(luò)的中文人名識別的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、乂連殘^義聾DALIANUNIVERSITYOFTECHNOLOGY損±韋恆巧又MASTER八LDISSERTATIONiHE基于循環(huán)神經(jīng)網(wǎng)絡(luò)的中文人名識別的研究計算機應用技術(shù)作者姓名塗齊蜂指導教師12〇66答辯曰期__丄__年____與碩±學位論文基于循環(huán)神經(jīng)網(wǎng)絡(luò)的中文人名識別的研究TheResearchonChinesePersonalNameRecognitionBasedonRecurrentNeuralNetworks作者姓
2、名;徐新峰學科、專業(yè);計算機應用技術(shù)1:2130973學號指導教師:黃德根教授完成日期:2016年6月7日乂遠巧主乂聲DalianUniversitofTechnoloygy大連理工大學學位論文獨創(chuàng)性聲明作者鄭重聲明:所呈交的學位論文,是本人在導師的指導下進行研究工作所取得的成果。盡我所知,除文中己經(jīng)注明引用內(nèi)容和致謝的地方外,本論文不包含其他個人或集體已經(jīng)發(fā)表的研究成果,也不包含其他已申請學位或其他用途使用過的成果一。與我同工作的同志對本研究所做的貢獻均包在
3、論文中做了明確的說明并表示了謝意。若有不實之處,本人愿意承擔相關(guān)法律責任。學位論文題目:若手j盾壞神給闊給涂i韋文人么折別的研瞻:游曰期:如//年曰((月/2作者簽養(yǎng)部奪大連理王大學碩±學位論文摘要中文人名識別任務是中文信息處理領(lǐng)域中的基礎(chǔ)任務,其性能的好壞將直接影響到其他任務的性能。中文人名的隨意性使其在未登錄詞中占有較大的比重,解決未登錄詞識別問題首先要解決人名識別問題。因此,解決中文人名識別問題具有重要的意義。現(xiàn)有基于統(tǒng)計的中文人名識別方法存在特征選取復雜和人工干預等問題,針對這些
4、一RN問題,本文提出了種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(ecurrentNeuraletworks的中文人名識別方)法,該方法僅采用詞向量作為模型的特征且無需人工干預,有效降低了特征選取的復雜性和人工干預對實驗造成的影響,。此外詞向量可W通過大量未標注的中文數(shù)據(jù)訓練獲得,然后將蘊含豐富語義信息的詞向量作為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的輸入,可W使模型學習到更多的信息,提升模型的性能。:模型構(gòu)建階段和后處理階段本文將模型分為兩個階段。在模型構(gòu)建階段,我們將重點放在詞向量的優(yōu)化策略上,。針對詞向量的優(yōu)化問題本文提出了H種策略:(
5、1)將word2vec訓練得到的詞向量替換循環(huán)神經(jīng)網(wǎng)絡(luò)模型的隨機初始詞向量(2)對詞向量訓練語料進行數(shù)詞泛化操作(3)改進word2vec模型,將特征信息融入詞向量實驗結(jié)果表明,通過詞向量的優(yōu)化操作,中文人名識別模型的F值提高了2.23%。在后處理階段;,通過上下文規(guī)則對候選人名進行過濾采用基于篇章的全局擴散操作召回在某一位置由于信息不足識別不出而在其他位置能夠被識別的人名;使用基于篇章的局部擴散操作識別篇章信息中有名無姓或者有姓無名的人名,。實驗結(jié)果表明通過規(guī)則過濾和擴散操作,中文人名識別模型的F值提高
6、了4.74%。關(guān)鍵詞:中文人名識別詞向量環(huán)神經(jīng)網(wǎng)絡(luò)擴散操作;;循;--I大連理工大學碩±學位論文The民esearch0打ChinesePersonalName民econitionBasedong民ecu*rrentNeuialNetworksAbstractThetaskofChinesepersonalnamesrecognitionisfundamentalin化eChineseinformationrocessingwhoseerformance
7、will(ikectlaffect化eo化ertasks.Chineseersonalnamesp,pypaccountforalareroortionoftheunknownwordbecauseofrandomnessandonfwegpplyi*so*lve也eroblemofnamesieconition技istlcanwesolvetheroblemofunknow打wordspgy,p*nrecontonTherefoieIts
8、snfcant化solve化erolemoesenameeo打al打amesgii.iiiibfChirs.,gppTheexistingChinesepersonalnamesKcogn