資源描述:
《文獻綜述標(biāo)注》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、文獻綜述標(biāo)注 1、引言 漢語自動分詞和詞性標(biāo)注是漢語信息處理中重要的基礎(chǔ)性工作,它與語料庫基礎(chǔ)資源建設(shè)相輔相成,在中文信息處理中起著關(guān)鍵作用。經(jīng)過將近20年的研究,自動分詞與詞性標(biāo)注技術(shù)、語料庫的建設(shè)都取得了長足的進步,許許多多的系統(tǒng)應(yīng)用而生;因此,對分詞與詞性自動標(biāo)注系統(tǒng)進行公正的評測,將會對這項基礎(chǔ)性的工作起到導(dǎo)向性的作用。二者之間有著十分密切的聯(lián)系,比如,切分歧義是漢語分詞所面臨的一大難題,其中能用語法知識消解的就約占90%以上,而涉及語義和語用知識的切分歧義則很少,另外,詞性標(biāo)注的質(zhì)量高低直接影響著自動分詞的效果好壞?! ?、
2、漢語自動分詞 2.1定義和產(chǎn)生原因 所謂的自動分詞就是把連續(xù)的字串分割成詞的序列。從處理過程來看,把自動分詞可以看作是用計算機自動識別文本字符流中的詞并在詞與詞之間加入明顯切分標(biāo)記的過程。 詞是最小的能夠獨立運用的有意義的語言單位,英文單詞之間以空格作為自然的分隔符。漢語是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)志,計算機不能通過英文句子之間的空格方法區(qū)分漢語詞,否則可能會出現(xiàn)錯誤?! ∪鐫h語中“學(xué)生”整體是一個詞,但計算機不容易理解“學(xué)”和“生”兩個字合起來才能表示一個詞,為了解決類似的問題,中文分詞技術(shù)應(yīng)運而生。 2.2
3、自動分詞的分詞方法 關(guān)于分詞方法,蘇聯(lián)學(xué)者最先提出了關(guān)于“6-5-4-3-2-1”的思想,這種方法中的匹配思想成為后來許多分詞方法的基礎(chǔ)。目前,漢語自動分詞方法不下二十種,例如,最大匹配法、知識分詞方法、鏈接法,在參考眾多文獻的基礎(chǔ)上,綜合各家之言,大體上可概括為四種類型:基于詞典的分詞方法、基于統(tǒng)計的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點,分別代表著不同的發(fā)展方向。其中基于詞典的分詞方法具有算法成熟,易于實現(xiàn)的特點,目前是使用最普遍切分方法;基于統(tǒng)計的分詞方法由于有的歧義切分能力和低頻詞識別能力,
4、受到越來越多的研究人員的重視,發(fā)展較快,但在實際使用中,很少單獨使用,一般都與基于詞典匹配的信息進行更多的處理,因而加大了實現(xiàn)的難度;基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類分詞方法的研究還處于初級階段,并且由于漢語自然語言復(fù)雜靈活,知識表示困難,所以對于這類分詞技術(shù)還需要進行更深入和全面的研究?! ?.3自動分詞研究現(xiàn)狀 經(jīng)過十幾年的研究,漢語自動分詞技術(shù)取得了令人矚目的成果,出現(xiàn)了一些實用的自動分詞系統(tǒng),如:北京航空航天大學(xué)的cdws分詞系統(tǒng),這些系統(tǒng)在分詞的精確度和分詞速度方面都具有相當(dāng)?shù)乃?,并在一些中文?/p>
5、文檢索系統(tǒng)中得到了應(yīng)用。中文自動分詞技術(shù)取得了可喜的進步,具體表現(xiàn)在: “詞”是否有了清晰的界定。原來很難精確定義的“詞”,現(xiàn)在可通過“分詞規(guī)范+詞表+分詞語料庫”的方法,使中文詞語在真實文本中得到了可計算的定義,界定出詞語的邊界,這是實現(xiàn)計算機自動分詞和可比評測的基礎(chǔ)?! ∥吹卿浽~對分詞精度的影響。對交集型歧義字串進行的大規(guī)模語料庫調(diào)查,明確提出把分詞歧義消解過程分解為偵察和消歧兩個子過程的認(rèn)識,都是近十年來分詞研究的重大收獲. 基于字的分詞新方法.過去的分詞方法大都依賴于一個事先編制好的詞表或詞典。自動分詞過程就是通過詞表和相關(guān)信
6、息來做出詞語切分的決策?;谧謽?biāo)注的分詞方法實際上是構(gòu)詞方法。即把分詞過程視為字在字串中的標(biāo)注問題。這種方法的一個重要優(yōu)勢在于,它能夠平衡地看待詞表詞和未登錄詞的識別問題。 2.4困難和問題 盡管漢語自動分詞取得了重大進展和突破,但仍有大量的問題困擾著這一領(lǐng)域的學(xué)者們。因為要自由進行漢語自動分詞,至少會遇到以下一些困難: (1)中文原本沒有詞的概念,至今也沒有統(tǒng)一的詞的確切定義。漢語詞與詞之間既沒有西文那樣有明顯的分隔符,也沒有日文那樣豐富的詞尾變化。 (2)漢語迄今為此仍未有一部公認(rèn)的、確切完備的并適合于計算機自動處理的語法規(guī)則
7、?! h語無標(biāo)準(zhǔn)性的詞法、復(fù)雜性的句法、模糊性的語法與多樣性的語義,如漢語中大量存在多義詞、同義詞、詞性變化、詞義轉(zhuǎn)借等現(xiàn)象,使?jié)h語表達具有很大的靈活性,所以任何人都都很難對它進行完備的總結(jié)?! ?3)中文構(gòu)詞方法的多樣性和句法的“意合”性等特點也是造成自動分詞困難的重要原因。中文造詞的原料,不僅有字,而且有詞、詞組。造句的方式有以字造詞、以詞造詞,甚至壓句成詞。如果沒有語法、語義知識或語境的幫助就很難對有些句子進行正確切分?! ?4)語音中所蘊含的部分有用信息在書面語中無從體現(xiàn)?! ?5)新詞在不斷增加,如人名、地名、新產(chǎn)生的詞、外來詞
8、等日益充實著漢語詞匯?! 〉钪匾睦щy還是歧義切分和未登錄詞的問題。歧義切分有兩種類型,一種是交集性切分歧義,另外一種是組合型切分歧義,如漢字串“將來”是一個詞,其中“將”和“來”也可以單獨