基于條件隨機(jī)場的中文人名性別識別研究

基于條件隨機(jī)場的中文人名性別識別研究

ID:20634751

大小:112.40 KB

頁數(shù):6頁

時間:2018-10-14

基于條件隨機(jī)場的中文人名性別識別研究_第1頁
基于條件隨機(jī)場的中文人名性別識別研究_第2頁
基于條件隨機(jī)場的中文人名性別識別研究_第3頁
基于條件隨機(jī)場的中文人名性別識別研究_第4頁
基于條件隨機(jī)場的中文人名性別識別研究_第5頁
資源描述:

《基于條件隨機(jī)場的中文人名性別識別研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于條件隨機(jī)場的中文人名性別識別研究*越曉凡牛承志2,劉永革1(1.安陽師范學(xué)院計算機(jī)與信息工程學(xué)院,河南安陽455002;2.鄭州大學(xué)第一附屬醫(yī)院信息科,河南鄭州455000)E-mail:zxfanfan922@tom.com摘要:中國人名性別的自動識別可以應(yīng)用在自然語言處理領(lǐng)域,是命名實體識別的一個具體應(yīng)川。文章根據(jù)人名的結(jié)構(gòu)和用字信息,構(gòu)建人名標(biāo)注集,選擇6組特征模板集,利用條件隨機(jī)場進(jìn)行模型訓(xùn)練,在231337個人名數(shù)據(jù)庫中經(jīng)過封W測試,正確率可以達(dá)到90%以上。實驗證明:在人名庫屮識別性別,名字用字的作用要島于姓氏用字,且從機(jī)器學(xué)習(xí)的角度來說性別差異可以體現(xiàn)在人名用字屮。關(guān)

2、鍵字:性別識別;中文人名要素;命名實體識別;特征選擇;條件隨機(jī)場中圖分類號:TP391文獻(xiàn)標(biāo)識碼:八CRFs-basedapproachtogenderrecognitionofChinesenameZHAOXiao-fan1,NIUCheng-zhi2,LIUYong-ge1(1.SchoolofComputerandInformationEngineering,AnyangNormalUniversity,AnyangHenan455(X)2;2.TheInformationDepartmentoftheFirstAffiliatedHospitalofZhengzhouUniver

3、sity,Zhengzhou455(XX))E-mail:zxfanfan922@tom.comAbstract:GenderrecognitionofpersonnamecanbeusedinnaturallanguageprocessingwhichisaspecificapplicationofNamedEntityRecognition.GenderrecognitionmethodmakesuseofthestructureandvocabularyinformationofChinesepersonalname.TheexperimentonthebasisofCRFsisd

4、esignedbyconstructingpersonnameannotationsetandselectingsuitablefeaturemodelusingNLPtechnology.Throughtheclosedteston231337personnames90.08%accuracyisgot.Theexperimentprovesthattheeffectofthelastnameingenderrecognitionishighertotheroleofthefirstnameandgenderdifferencescanbefoundfromthenamesbasedo

5、nmachinelearningKeywords:genderrecognition;Chinesenameelement;NamedEntityRecognition;featureselection;conditionalrandomfieldso引言目前命名實體識別(NamedEntityRecognition,NER)仍然是屮文信息處理的難點和熱點,對未登錄詞的處理,其結(jié)果往往很難滿足需求。人名的出現(xiàn)是影響未登錄詞識別正確率的關(guān)鍵。在《人民日報》1998年1月的語料庫(共計2305896字)中,平均每100個字包含未登錄詞1.192個(不計數(shù)詞、時間詞),其巾61.34%的未登錄

6、詞是人名。人名作為一個符號,對單個的個體應(yīng)該具有很高的辨識度。按照日常生活的經(jīng)驗和人們的習(xí)慣,起名用字往往與性別相關(guān)。文獻(xiàn)丨51對7萬屮國人名的90個常用尾字進(jìn)行非參數(shù)基金項目:由國家自然科學(xué)基金(60875081)河南省教冇廳髙等學(xué)校青年骨干教師項目(2009GGJS-108)支持。作蕎簡介:趙曉凡(1981-),女,河南安陽人,講師,碩士,研宄方向為ft然語言處理,漢語分詞,信息基于條件隨機(jī)場的中文人名性別識別研究*越曉凡牛承志2,劉永革1(1.安陽師范學(xué)院計算機(jī)與信息工程學(xué)院,河南安陽455002;2.鄭州大學(xué)第一附屬醫(yī)院信息科,河南鄭州455000)E-mail:zxfanfa

7、n922@tom.com摘要:中國人名性別的自動識別可以應(yīng)用在自然語言處理領(lǐng)域,是命名實體識別的一個具體應(yīng)川。文章根據(jù)人名的結(jié)構(gòu)和用字信息,構(gòu)建人名標(biāo)注集,選擇6組特征模板集,利用條件隨機(jī)場進(jìn)行模型訓(xùn)練,在231337個人名數(shù)據(jù)庫中經(jīng)過封W測試,正確率可以達(dá)到90%以上。實驗證明:在人名庫屮識別性別,名字用字的作用要島于姓氏用字,且從機(jī)器學(xué)習(xí)的角度來說性別差異可以體現(xiàn)在人名用字屮。關(guān)鍵字:性別識別;中文人名要素;命名實體識別;特征選

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。