基于主動學(xué)習(xí)的中文分詞方法研究.pdf

基于主動學(xué)習(xí)的中文分詞方法研究.pdf

ID:50412874

大?。?.54 MB

頁數(shù):54頁

時間:2020-03-05

基于主動學(xué)習(xí)的中文分詞方法研究.pdf_第1頁
基于主動學(xué)習(xí)的中文分詞方法研究.pdf_第2頁
基于主動學(xué)習(xí)的中文分詞方法研究.pdf_第3頁
基于主動學(xué)習(xí)的中文分詞方法研究.pdf_第4頁
基于主動學(xué)習(xí)的中文分詞方法研究.pdf_第5頁
資源描述:

《基于主動學(xué)習(xí)的中文分詞方法研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、.‘去?\V,?韋轉(zhuǎn)— ̄——_'?---:??-六-10293公巧:、單位代碼:密級:V-—三r之峽乂節(jié)'崇細VM脅雀^據(jù)寫皮垂'i.碩女#像儉;f屬撫ij'.苗非繁iRi査芒]攀,''..^K:.參;kHW與、|《祭簡/式烏.一-1‘-々?叩一’■-.t,乂.V、..請啦聲。:<*<-、.—占論文題目:基于主動學(xué)習(xí)的中義分詞方法石開究'.?,?、?。墸牎ⅲ??‘''-:-r.令,葦輪:V、.、導(dǎo)‘'一':

2、涕叫鄉(xiāng).餅;;V;.‘'.->:':v巧;20431;V,>、/;號10111T學(xué)\’'’?'II’:‘尸\’一冷V話’I嗦:、姓一;s名梁喜濤\氣'’^^^■導(dǎo)師一^於^;..義讀帶4獻學(xué)科專業(yè)計算化應(yīng)用技術(shù)__1;'、處理硏究方向智能信肩■丟丟.編藏違軒?工學(xué)碩擊.;:^申請學(xué)位類別_{聾茜::鱗夢>文2015/3/2論文提交日期’.'、J減c,.在/心..:’’‘...產(chǎn)r.皆聲!喔妾;起‘--'鑽;,叛;詔店縱古

3、f的Vv;'、'立^'C屯淨(jìng)姆J.哨.-;一真苗為吃:ChineseWordSegmentationBasedonActiveLearningThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByLiangxitaoSupervisor:Prof.GuLeiMarch2015摘要中文分詞是中文信息處理領(lǐng)域內(nèi)的一個重要課題,傳統(tǒng)的分詞方法多基于統(tǒng)計模型,盡管可以取得不錯的效果,但是統(tǒng)計模

4、型依賴大量有標(biāo)注樣本,具有人工標(biāo)注樣本代價高的缺點。主動學(xué)習(xí)方法在解決分詞問題時會根據(jù)處理進程,選擇最合適的少量的樣本進行人工標(biāo)注,從而達到通過使用大量無標(biāo)注樣本來提高分詞效果的目的。因此,本文將主要研究基于主動學(xué)習(xí)的中文分詞方法。本文首先介紹了中文分詞的研究背景、研究意義和常用的分詞方法。接下來介紹了條件隨機場模型和主動學(xué)習(xí)方法,并對如何把條件隨機場模型和主動學(xué)習(xí)方法引入到分詞領(lǐng)域中做了闡述。最后重點介紹了本文提出的三種基于主動學(xué)習(xí)的中文分詞方法:1.提出了基于委員會投票的主動學(xué)習(xí)分詞方法。該方法的核心思想是通過集成學(xué)習(xí)方法來幫助構(gòu)建

5、委員會,選擇委員會投票分歧度最大的樣本作為最有價值的樣本進行人工標(biāo)注。2.提出了一種基于分層選擇策略的主動學(xué)習(xí)分詞方法。該方法的主要特點是在不確定性選擇方法基礎(chǔ)上,把分詞過程中的專有字符與其它漢字字符分開分別進行樣例選擇,另外該方法還可以通過計算實例間的差異性來解決重復(fù)標(biāo)注問題。3.提出了一種基于鄰域規(guī)則的主動學(xué)習(xí)分詞方法。該方法的與眾不同之處是利用未標(biāo)注樣本的鄰域集合熵值來進行樣例挑選,并且利用計算未標(biāo)注樣本同訓(xùn)練集合的歐氏距離來增加樣本集合的多樣性。關(guān)鍵詞:自然語言處理,中文分詞,主動學(xué)習(xí),選擇策略IAbstractChinesew

6、ordsegmentation(CWS)isanimportanttaskinChineselanguageprocessing.Mostoftraditionalsegmentationmethodsarebasedondictionaryandstatisticalmodel,buttheyallneedalargenumberoflabeledsamples.Activelearningcanusetheselectionstrategytochoosesomemostvaluablesamplesfromabundantunla

7、beledsamplesinthetrainingprocess,andemploythesechosensamplestoimprovetheperformanceofChinesewordsegmentation.SoactivelearningisstudiedandsomeChinesewordsegmentationalgorithmsareproposedinthisdissertation.Inthisdissertation,firstly,theresearchbackgroundandmethodsofCWSisin

8、troduced.Secondly,someactivelearningschemesarereviewedandsometheoreticalresearchissuesandapplicationsat

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。