資源描述:
《基于條件隨機(jī)場的中文人名性別識別研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于條件隨機(jī)場的中文人名性別識別研究*越曉凡牛承志2,劉永革1(1.安陽師范學(xué)院計算機(jī)與信息工程學(xué)院,河南安陽455002;2.鄭州大學(xué)第一附屬醫(yī)院信息科,河南鄭州455000)E-mail:zxfanfan922@tom.com摘要:中國人名性別的自動識別可以應(yīng)用在自然語言處理領(lǐng)域,是命名實體識別的一個具體應(yīng)川。文章根據(jù)人名的結(jié)構(gòu)和用字信息,構(gòu)建人名標(biāo)注集,選擇6組特征模板集,利用條件隨機(jī)場進(jìn)行模型訓(xùn)練,在231337個人名數(shù)據(jù)庫中經(jīng)過封W測試,正確率可以達(dá)到90%以上。實驗證明:在人名庫屮識別性別,名字用字的作用要島于姓氏用字,且從機(jī)器學(xué)習(xí)的角度來說性別差異可以體現(xiàn)在人名用字屮。關(guān)
2、鍵字:性別識別;中文人名要素;命名實體識別;特征選擇;條件隨機(jī)場中圖分類號:TP391文獻(xiàn)標(biāo)識碼:八CRFs-basedapproachtogenderrecognitionofChinesenameZHAOXiao-fan1,NIUCheng-zhi2,LIUYong-ge1(1.SchoolofComputerandInformationEngineering,AnyangNormalUniversity,AnyangHenan455(X)2;2.TheInformationDepartmentoftheFirstAffiliatedHospitalofZhengzhouUniver
3、sity,Zhengzhou455(XX))E-mail:zxfanfan922@tom.comAbstract:GenderrecognitionofpersonnamecanbeusedinnaturallanguageprocessingwhichisaspecificapplicationofNamedEntityRecognition.GenderrecognitionmethodmakesuseofthestructureandvocabularyinformationofChinesepersonalname.TheexperimentonthebasisofCRFsisd
4、esignedbyconstructingpersonnameannotationsetandselectingsuitablefeaturemodelusingNLPtechnology.Throughtheclosedteston231337personnames90.08%accuracyisgot.Theexperimentprovesthattheeffectofthelastnameingenderrecognitionishighertotheroleofthefirstnameandgenderdifferencescanbefoundfromthenamesbasedo
5、nmachinelearningKeywords:genderrecognition;Chinesenameelement;NamedEntityRecognition;featureselection;conditionalrandomfieldso引言目前命名實體識別(NamedEntityRecognition,NER)仍然是屮文信息處理的難點和熱點,對未登錄詞的處理,其結(jié)果往往很難滿足需求。人名的出現(xiàn)是影響未登錄詞識別正確率的關(guān)鍵。在《人民日報》1998年1月的語料庫(共計2305896字)中,平均每100個字包含未登錄詞1.192個(不計數(shù)詞、時間詞),其巾61.34%的未登錄
6、詞是人名。人名作為一個符號,對單個的個體應(yīng)該具有很高的辨識度。按照日常生活的經(jīng)驗和人們的習(xí)慣,起名用字往往與性別相關(guān)。文獻(xiàn)丨51對7萬屮國人名的90個常用尾字進(jìn)行非參數(shù)基金項目:由國家自然科學(xué)基金(60875081)河南省教冇廳髙等學(xué)校青年骨干教師項目(2009GGJS-108)支持。作蕎簡介:趙曉凡(1981-),女,河南安陽人,講師,碩士,研宄方向為ft然語言處理,漢語分詞,信息基于條件隨機(jī)場的中文人名性別識別研究*越曉凡牛承志2,劉永革1(1.安陽師范學(xué)院計算機(jī)與信息工程學(xué)院,河南安陽455002;2.鄭州大學(xué)第一附屬醫(yī)院信息科,河南鄭州455000)E-mail:zxfanfa
7、n922@tom.com摘要:中國人名性別的自動識別可以應(yīng)用在自然語言處理領(lǐng)域,是命名實體識別的一個具體應(yīng)川。文章根據(jù)人名的結(jié)構(gòu)和用字信息,構(gòu)建人名標(biāo)注集,選擇6組特征模板集,利用條件隨機(jī)場進(jìn)行模型訓(xùn)練,在231337個人名數(shù)據(jù)庫中經(jīng)過封W測試,正確率可以達(dá)到90%以上。實驗證明:在人名庫屮識別性別,名字用字的作用要島于姓氏用字,且從機(jī)器學(xué)習(xí)的角度來說性別差異可以體現(xiàn)在人名用字屮。關(guān)鍵字:性別識別;中文人名要素;命名實體識別;特征選