資源描述:
《關(guān)于漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、.漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)研究沈銳1,黃薇2(1.紅河學(xué)院教育技術(shù)系2.紅河學(xué)院國(guó)際合作與交流處云南蒙自661100)【摘要】本文探討母語(yǔ)非漢語(yǔ)學(xué)習(xí)者的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的主要思路以及具體實(shí)現(xiàn)方法,重點(diǎn)介紹了漢語(yǔ)中介語(yǔ)語(yǔ)料的加工方法以及語(yǔ)料數(shù)據(jù)庫(kù)的設(shè)計(jì)思路,并闡明了該語(yǔ)料庫(kù)在對(duì)外漢語(yǔ)教學(xué)和研究中的應(yīng)用價(jià)值?!娟P(guān)鍵詞】語(yǔ)料庫(kù);中介語(yǔ);漢語(yǔ)教學(xué)語(yǔ)料庫(kù)是指按一定的語(yǔ)言學(xué)原則收集的語(yǔ)言文本或話語(yǔ)片斷而建立的電子資料庫(kù)。本文所述漢語(yǔ)中介語(yǔ)料庫(kù)是基于語(yǔ)言學(xué)中中介語(yǔ)理論設(shè)計(jì)與實(shí)施的。中介語(yǔ)是心理語(yǔ)言學(xué)中第二語(yǔ)言習(xí)得的一種研究模式,其將語(yǔ)言學(xué)習(xí)者置于觀察中心,去研究他們?nèi)绾斡幸庾R(shí)地向
2、目的語(yǔ)的正確形式遷移的各種動(dòng)態(tài)表現(xiàn)。中介語(yǔ)理論自20世紀(jì)60年代末出現(xiàn)并發(fā)展至今,雖然時(shí)間并不長(zhǎng),但越來(lái)越受到語(yǔ)言學(xué)家以及一線教師的關(guān)注。無(wú)論是進(jìn)行中介語(yǔ)研究還是使用中介語(yǔ)理論進(jìn)行第二語(yǔ)言教學(xué)都需要收集分析大量的語(yǔ)料,因而通過信息化手段收集和整理語(yǔ)料變得十分迫切。在對(duì)外漢語(yǔ)教學(xué)中,通過建設(shè)和使用母語(yǔ)非漢語(yǔ)學(xué)習(xí)者的漢語(yǔ)中介語(yǔ)語(yǔ)料數(shù)據(jù)庫(kù),可以收集不同背景和不同學(xué)習(xí)階段外國(guó)學(xué)生及少數(shù)民族學(xué)生的漢語(yǔ)書面語(yǔ)和用文字轉(zhuǎn)寫的口語(yǔ)語(yǔ)料,并對(duì)語(yǔ)料屬性、詞匯、語(yǔ)法等單位進(jìn)行計(jì)算機(jī)處理,以實(shí)現(xiàn)對(duì)各種條件和要求下的語(yǔ)料數(shù)據(jù)進(jìn)行便捷的機(jī)器檢索和提取,可以為研究母語(yǔ)非漢語(yǔ)學(xué)生學(xué)習(xí)和習(xí)得漢語(yǔ)的規(guī)
3、律提供大量的各種單項(xiàng)的或綜合的資料和信息。因此,我們提出了建設(shè)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的課題,由于語(yǔ)料庫(kù)建設(shè)是一項(xiàng)浩大的工程,限于人力物力條件,本文討論的是中小規(guī)模的語(yǔ)料庫(kù)。一、需求分析和框架設(shè)計(jì)...語(yǔ)料庫(kù)建設(shè)不能盲目進(jìn)行,首先要進(jìn)行調(diào)研,對(duì)語(yǔ)料庫(kù)的應(yīng)用需求進(jìn)行分析。半自動(dòng)化的語(yǔ)料庫(kù)構(gòu)建是目前語(yǔ)料庫(kù)建設(shè)的主流技術(shù),目的是在確保語(yǔ)料庫(kù)質(zhì)量的前提下,減少人工參與的比例,增加自動(dòng)化程度,目標(biāo)是在較短時(shí)間內(nèi)建設(shè)一個(gè)有一定規(guī)模,質(zhì)量可靠、可擴(kuò)充、成本低,能夠全面、細(xì)致地記錄母語(yǔ)非漢語(yǔ)學(xué)習(xí)者在漢語(yǔ)學(xué)習(xí)過程中的語(yǔ)言表征和研究他們漢語(yǔ)習(xí)得過程的語(yǔ)料庫(kù)。依照軟件工程的方法,建立數(shù)據(jù)庫(kù)首先需
4、要進(jìn)行需求分析,在需求分析過程中要注意漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)主要是服務(wù)于對(duì)外漢語(yǔ)教學(xué)的一線教師,以及輔助母語(yǔ)非漢語(yǔ)學(xué)生自學(xué),因此主要注重以上二類服務(wù)對(duì)象的應(yīng)用需求,確保建成的語(yǔ)料庫(kù)能夠?qū)Φ诙Z(yǔ)言教學(xué)、研究以及教材的編寫提供持續(xù)支持。基于以上要求,在對(duì)中介語(yǔ)語(yǔ)料庫(kù)的建設(shè)思路及框架做了總體考慮,基本歸納為以下三個(gè)方面:1、中介語(yǔ)語(yǔ)料庫(kù)為專門用途語(yǔ)料庫(kù),主要目的為研究母語(yǔ)非漢語(yǔ)的學(xué)生在學(xué)習(xí)漢語(yǔ)過程中的中介語(yǔ)現(xiàn)象而設(shè)計(jì)制作的。2、中介語(yǔ)現(xiàn)象存在于母語(yǔ)非漢語(yǔ)的學(xué)生在學(xué)習(xí)漢語(yǔ)過程中的書面語(yǔ)料及口語(yǔ)語(yǔ)料中,由于口語(yǔ)語(yǔ)料的收集、分析和標(biāo)注都較為困難,因此在建庫(kù)的第一階段只考慮收錄書面語(yǔ)料
5、,這有利于語(yǔ)料庫(kù)的快速建設(shè)與使用。3、語(yǔ)料標(biāo)注的加工標(biāo)準(zhǔn)使用中科院計(jì)算所漢語(yǔ)詞性標(biāo)記集V3.0。二、語(yǔ)料收集與加工收集和加工語(yǔ)料是最為重要的一項(xiàng)工作,要在語(yǔ)料庫(kù)使用過程中不斷收集、加工并添加到語(yǔ)料庫(kù)內(nèi),而且需要...在整個(gè)語(yǔ)料庫(kù)生存周期中都要持續(xù)不斷的進(jìn)行此項(xiàng)工作。本語(yǔ)料庫(kù)中的語(yǔ)料基本上來(lái)源于云南幾所高校的外國(guó)留學(xué)生在日常學(xué)習(xí)和生活過程中的作業(yè)、寫作、試卷等,目前收集的都是書面文字,待日后語(yǔ)料庫(kù)進(jìn)行二期建設(shè)時(shí)也可以考慮擴(kuò)充收集語(yǔ)音錄制的口語(yǔ)語(yǔ)料。最初獲得的未經(jīng)進(jìn)一步加工處理的語(yǔ)料一般稱為生語(yǔ)料,要將生語(yǔ)料轉(zhuǎn)變?yōu)檎Z(yǔ)料庫(kù)內(nèi)能夠使用的熟語(yǔ)料還需要經(jīng)過錄入、斷句、分詞、詞性
6、標(biāo)注等工作。語(yǔ)料加工的工作量是相當(dāng)大的,如果完全人工完成的話,雖然質(zhì)量能夠得到保證,但效率太低,很難保證長(zhǎng)期對(duì)數(shù)據(jù)的更新和維護(hù)。另外,由于中介語(yǔ)本身是留學(xué)生在學(xué)習(xí)第二語(yǔ)言過程中向正確的語(yǔ)言系統(tǒng)遷移的中間狀態(tài),所以中介語(yǔ)語(yǔ)料存在大量偏誤,使用計(jì)算機(jī)進(jìn)行自動(dòng)加工獲得的語(yǔ)料質(zhì)量也較差。為得到較高質(zhì)量的熟語(yǔ)料,同時(shí)又需要盡量減少人力成本,因此在語(yǔ)料加工環(huán)節(jié)我們采用了人工與計(jì)算機(jī)自動(dòng)處理相結(jié)合的方式。具體操作上是先使用中科院計(jì)算所研發(fā)的漢語(yǔ)詞法分析軟件ICTCLAS進(jìn)行初步加工,再由人工方式對(duì)該軟件的分析結(jié)果進(jìn)行校對(duì)和修正,最后輸入語(yǔ)料庫(kù)存儲(chǔ),這后兩個(gè)步驟是通過我們自己編寫的
7、軟件來(lái)實(shí)現(xiàn)的。三、數(shù)據(jù)庫(kù)的設(shè)計(jì)思路依據(jù)需求分析的結(jié)果,首先轉(zhuǎn)換為不依賴任何具體機(jī)器的信息結(jié)構(gòu),即反映用戶觀點(diǎn)的概念模型,這是整個(gè)數(shù)據(jù)庫(kù)設(shè)計(jì)的關(guān)鍵。一般語(yǔ)言的基本構(gòu)成要素是詞,由詞構(gòu)成句,再由句構(gòu)成篇章,但漢語(yǔ)的最小構(gòu)成元素卻是漢字,因此設(shè)計(jì)語(yǔ)料庫(kù)結(jié)構(gòu)組成時(shí)需要將字、詞、句和篇章都考慮到。另外,語(yǔ)料庫(kù)數(shù)據(jù)的最大特點(diǎn)就是“真實(shí)”...,也就是說需要原樣保存語(yǔ)料信息,包括語(yǔ)料中的大量偏誤,這也是需要考慮的關(guān)鍵問題。依據(jù)漢語(yǔ)構(gòu)成特點(diǎn)及中介語(yǔ)語(yǔ)料庫(kù)的需求,使用E-R概念模型設(shè)計(jì)方法,得到語(yǔ)料庫(kù)概念模型如下:漢字構(gòu)成標(biāo)準(zhǔn)詞構(gòu)成偏誤詞正誤關(guān)聯(lián)語(yǔ)料句構(gòu)成構(gòu)成構(gòu)成語(yǔ)料篇章作者撰寫