基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究

基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究

ID:33392622

大?。?.29 MB

頁(yè)數(shù):60頁(yè)

時(shí)間:2019-02-25

基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究_第1頁(yè)
基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究_第2頁(yè)
基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究_第3頁(yè)
基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究_第4頁(yè)
基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究_第5頁(yè)
資源描述:

《基于web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)

1、分類號(hào)UDC衡級(jí)公Ⅱ?qū)W位論文題目:基于Web數(shù)據(jù)的雙語(yǔ)資源挖掘技術(shù)研究研究生姓名學(xué)科專業(yè)名稱研究方向論文類型申請(qǐng)學(xué)位指導(dǎo)教師姓名指導(dǎo)教師職稱指導(dǎo)教師單位論文提交日期論文答辯日期:羅陽(yáng):計(jì)算機(jī)軟件與理論:知識(shí)工程與知識(shí)管理:基礎(chǔ)研究:工學(xué)碩士:張桂平:教授:沈陽(yáng)航空航天大學(xué):2010年12月08日:2010年12月23日沈陽(yáng)航空航天大學(xué)2011年01月\SHENYANGAEROSPACEUNIVERSITYTHESISFORMASTER’SDEGREETHERESEARCHOFMININGBILINGUALRESoURCESFROMWEBCandidate:YangL

2、uoSupervisor:GuipingZhangSpecialty:ComputerSoftwareandTheoryDate:January2011原創(chuàng)性聲明本人鄭重』占【咐:所呈交的學(xué)位論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立完成的。除義中已經(jīng)注I姐引剛的內(nèi)容外,本論文小包含其他個(gè)人或集{本已經(jīng)發(fā)表或撰寫過(guò)的作。誚或成果,也小包含本人為獲得其他學(xué)位而使_

3、_}】過(guò)的成果。對(duì)本文研究做山重要貞獻(xiàn)的個(gè)人或集體均已在論文中進(jìn)行了說(shuō)明并袋示謝意。本聲明的法律后果山本人承擔(dān)。論文作者簽名:、刃陽(yáng)鋤10年J2-月31日沈{眥宅航九人學(xué)頃L學(xué)位嗆文摘要隨著統(tǒng)汁力}土{l二II然譜,,處

4、理一l-的廣泛J,VAIj.雙語(yǔ)語(yǔ)半1庫(kù)資塒{塒1:自然i序占處理研究的臣人價(jià)值已經(jīng)甜到越術(shù)越多的認(rèn)--r,尤其在機(jī)器翻洋、跨晤.j信息檢索和烈語(yǔ)術(shù)浯翻澤等領(lǐng)域具釘小叫或缺f

5、{J重要作川。以互聯(lián)叫為數(shù)據(jù)源挖掘雙語(yǔ)資源司以有效解決傳統(tǒng)人l構(gòu)建語(yǔ)料庫(kù)的規(guī)模不址,時(shí)效rl:、真實(shí)性、語(yǔ)種靈活性差等問(wèn)題?,F(xiàn)訂的雙晤資源挖掘技術(shù)l二耍針劉烈晤、r仃剛貞,從葉】提JI_(州I剛位置的互譯資源。山于這類網(wǎng)頁(yè)數(shù)量少.對(duì)齊模型復(fù)雜,本文挺H州對(duì)堆一雙語(yǔ)剛頁(yè)進(jìn)行取語(yǔ)資源挖掘方法,通過(guò)介糾重點(diǎn)技術(shù)柬j*進(jìn)雙語(yǔ)資源挖*Im過(guò)樣。水文提¨:了‘種基于聯(lián)合策略的壩語(yǔ)剛頁(yè)找啦方法。該方法通過(guò)啟

6、發(fā)條件擴(kuò)展搜索項(xiàng)、過(guò)濾不棚關(guān)M負(fù),得到含有般}占信息的嘲貞,以頻繁序列模式為特征,使用支持

7、fll皺WI對(duì)I叫Ⅱ{進(jìn)行:分類.削斷所得網(wǎng)負(fù)是否為烈浯網(wǎng)頁(yè)。然后根捌雙浯㈧頁(yè)特點(diǎn)提?剮頻繁序列模,℃和種子模式構(gòu)建胤則阼,通過(guò)胤則匹配的方法提眥出取譜”段,州叫使J日l(shuí)l:姚則文本9l槭度束度量一個(gè)無(wú)法與規(guī)則棚匹配的片段模式能甭作為J靶則如I八艦則肼:。返樣_『以擴(kuò)充胤則庫(kù),滿足烈浯資源存在的多樣性々特殊性要求。在烈語(yǔ)資源仙墩的過(guò)陽(yáng)ll,考慮到語(yǔ)再的差異性,刑1‘難以通過(guò)編碼區(qū)分的語(yǔ)占,:lJI

8、入語(yǔ).;特抓,并7ii]lll取佑息時(shí)考慮晤寺特征的優(yōu)先緞等【N素米完成雙語(yǔ)資

9、源的城終抽墩。毋后,本文

10、}fJ建了“蟮下Web數(shù)柵的烈語(yǔ)資源挖掘系統(tǒng)”.唆系統(tǒng)不僅實(shí)現(xiàn)丁上述烈語(yǔ)資源挖捌方法,以町挑化的方式展示實(shí)驗(yàn)效果,史iI

11、

12、入了方便』=I]J1使HJ的查i小瀏覽剛死川戶添』

13、¨、指定網(wǎng)址抓取以及種予選擇等功能,成為完整的lIij川lJ戶的使f_

14、i】程序。關(guān)鍵詞:Web挖捌;烈沿資洲!;頻繁序列模-℃:網(wǎng)頁(yè)分類沈?航窀帆犬人學(xué)咂L學(xué){々論文Abstt·actWitbthestatisticmethodwidespreadappliedinnaturelanguageprocessing,thegreatvaluebougiltbybili

15、ngualcorpusresourcesforthenaturelanguageprocessingresearchhasbeenapprovedbyi]loreandpeopleEspeciallyilltilefieldofmachinetranslationcross—languageinformationretrievalandbilingualtermstranslation,thebilblgualcorpusresourcesarealsoinlportantTominetbebilingualresourcesbyusingIntemetastile

16、datasourceCalle忤bctlvelvsolvetheproblemswhichappearintbetraditionalbilingualcorpusestablishmentprocessbyhandwork.suchaslackofscales,timeliness、realness.1anguageflexibility,etcTileexistingtechniquesforminingbilingualresourcesaremainlyincoBnectionwitbtheparallelbilingualwebpages,fi-omw

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。