基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別

ID：33362091

大小：1.95 MB

頁數(shù)：71頁

時間：2019-02-25

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別_第1頁

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別_第2頁

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別_第3頁

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別_第4頁

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別_第5頁

資源描述：

《基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、摘要計算語言學(xué)所研究的命名實(shí)體是指句子中有確定含義的名詞。由于命名實(shí)體包含了文本中重要的信息，命名實(shí)體識別是信息抽取研究中最有意義的研究內(nèi)容之一。另外，文本中頻繁出現(xiàn)的命名實(shí)體，也是制約分詞精度提高的最主要原因。其識別的好壞將直接影響分詞精度以及其后的詞性標(biāo)洼和句法分板的精度，命名實(shí)體的自動識別也是漢語分詞的關(guān)鍵問題和熱點(diǎn)問題。因此研究命名實(shí)體自動識別具有重要的理論意義和實(shí)際意義。在漢語文本處理中通常關(guān)注的命名實(shí)體可以分為7個類別：“人名”，“地名”，“機(jī)構(gòu)名”，“日期”，“時間”，“貨幣”，“百分比”。且前命名實(shí)體識剮主要使用兩種方

2、法：基于統(tǒng)計的方法和基于規(guī)則的方法。前者利用統(tǒng)計的方法從真實(shí)的文本自動抽取命名實(shí)體的構(gòu)成規(guī)律。通過調(diào)練的語言模型自動識剮命名實(shí)體；后者主要利用語言學(xué)家的理性知識，通過語言學(xué)家書寫的規(guī)則識別命名實(shí)體。本文運(yùn)用統(tǒng)計與規(guī)則相結(jié)合韻方法，一方預(yù)利用了較大規(guī)模的語料庫來謝練，統(tǒng)計命名實(shí)體的用字用詞規(guī)律。另一方面，從已經(jīng)標(biāo)注的語料庫中提取了大量用于識別的規(guī)則，最終成功的實(shí)現(xiàn)了這些命名實(shí)體釣識黝，識翳的精度比單純基于統(tǒng)訐的方法和單純基于規(guī)則的方法都有所提高，具體地，本文的工作主要集中在以下幾個方面：1．漢字編碼轉(zhuǎn)換。漢字編碼是漢語文本進(jìn)入計算機(jī)處理

3、的第一步。漢語由于存在簡體、繁體兩種體統(tǒng)，編碼比較復(fù)雜，編碼的格式并不統(tǒng)一。本文研究并實(shí)現(xiàn)了漢語不同編碼體統(tǒng)之前的轉(zhuǎn)換，支持當(dāng)前所有主要漢語編碼間的轉(zhuǎn)換并實(shí)現(xiàn)了多種漢字符號集的共存。為后面的文本預(yù)處理和命名實(shí)體識別提供了基礎(chǔ)。2．非漢字符號和數(shù)字識別。非漢字符號和數(shù)字是文本中比較容易識別的部分，可以在命名實(shí)體識別之前進(jìn)行處理。本文首先對不同格式、不同內(nèi)容的文本進(jìn)行了分旬處理，然后對文本中的非漢字符號，如百分比、金額、阿拉伯?dāng)?shù)字等，以及漢字?jǐn)?shù)字進(jìn)行了識別。3．基于評價函數(shù)的人名地名識別。本文通過對大規(guī)模標(biāo)注語料進(jìn)行訓(xùn)練，統(tǒng)計出入名、地名

4、的用字、用詞和上下文特性，用基于統(tǒng)計的評價函數(shù)對侯選人．I．基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)伴識別名、地名進(jìn)行打分，通過運(yùn)用動態(tài)規(guī)劃方法識剮出人名、地名在文本中可能出現(xiàn)的位置。4．基于決策樹的命名實(shí)體識別。引入機(jī)器學(xué)習(xí)的方法，設(shè)計了一種基于決策樹的識別模型，結(jié)合了命名實(shí)體句法組成的基本結(jié)構(gòu)特征和上下文特征，該方法不依賴于分詞系統(tǒng)，可以對分詞過后韻語料進(jìn)行處理，同時也對其它命名實(shí)體進(jìn)行了識別。5．基于模板匹配的機(jī)構(gòu)名識別。通過真實(shí)語料中獲取的大量機(jī)構(gòu)名，對機(jī)構(gòu)名的組成進(jìn)行了深入的剖析，總結(jié)出識別機(jī)構(gòu)名的模板，提出了一種基于模板匹配的漢語機(jī)

5、構(gòu)名識別方法。6．介紹集成基于多種策略的命名實(shí)體識別技術(shù)的兩個系統(tǒng)，并分別給出若干示例，說明命名實(shí)體識別在其中的作用。目前的實(shí)驗(yàn)結(jié)果表明，本文所采用的統(tǒng)計與規(guī)則結(jié)合的方法，獲得了比較理想的識別精度，所做的命名實(shí)體識別覆蓋了命名實(shí)體的所有類別，并考慮到了漢語文本的預(yù)處理中存在的問題。所做工作具有一定的研究意義和實(shí)用價值。關(guān)鍵詞：命名實(shí)體識別，統(tǒng)計，機(jī)器學(xué)習(xí)，規(guī)則，文本預(yù)處理AbstractNamedEntity(NE)Recognition(NER)istoelassifyeverywordinadocumentintosomepred

6、efinedcategories．Inthetaxonomyofcomputationallinguisticstasks，itfa／Isunderthedomainof‘‘informationextraction”，whichextractsspecifickindsofinformationfromdocument．inotherhand，Namedentityrecognition’sresultisdecisivetoprecisionofthelattersegmentation，tagging，parsing．Inone

7、word，theresearchandapplicationofNERareofgreattheoreticalandpracticalsignificance．TheNEtaskistoidentifyallnamedlocations，namedpersons，namedorganizations，dates，times，monetaryamounts，andpercentagesintext．statisticsandrules．Therearetwotypicallypreviousapproachesusedinthista

8、sk．OneisNERbasedstatistics．whichautoextractNEinformationfromrealcontextandthenuseittotrainsystem．TheotherisNER

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 71



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別

基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別

相關(guān)文章

相關(guān)標(biāo)簽