《左傳》地名研究初探

《左傳》地名研究初探

ID:43839289

大?。?3.00 KB

頁數(shù):11頁

時(shí)間:2019-10-15

《左傳》地名研究初探_第1頁
《左傳》地名研究初探_第2頁
《左傳》地名研究初探_第3頁
《左傳》地名研究初探_第4頁
《左傳》地名研究初探_第5頁
資源描述:

《《左傳》地名研究初探》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、《左傳》地名研究初探摘要:本文分析了《左傳》地名結(jié)構(gòu)的特點(diǎn),基于CRF模型,對《左傳》地名進(jìn)行自動(dòng)識別,通過只用字符本身作為特征的分詞詞性一體化實(shí)驗(yàn)和增加部首特征等實(shí)驗(yàn)的對比,總結(jié)出適用于《左傳》地名的自動(dòng)識別方法,實(shí)驗(yàn)效果最好的識別正確率和召回率分別達(dá)到94.59%、94.84%o關(guān)鍵詞:《左傳》地名識別自然語言處理1、引言先秦文獻(xiàn)信息處理屬于中文信息處理技術(shù)與古典文獻(xiàn)交叉研究的領(lǐng)域,而地名研究屬于先秦文獻(xiàn)信息處理的子領(lǐng)域。其研究的必要性在于,漢語的詞與詞之間沒有自然的界限,使得中文信息處理大多是先對要處理的文本進(jìn)行詞語切分,而在分詞階段,未登錄詞的識別成為許多分詞

2、系統(tǒng)發(fā)展緩慢甚而走向應(yīng)用瓶頸的主要原因之一,地名在未登錄詞中占有一定的比例,隨著先秦文獻(xiàn)信息處理的深人發(fā)展,如果不做地名識別,會(huì)很大程度上影響分詞的精度。學(xué)界已經(jīng)對先秦地名的命名原則,選詞用字。起名來源等方面進(jìn)行了探討,諸如:臺灣中研院的《先秦金文簡牘詞匯資料庫》,香港中文大學(xué)中國文化研究整理編撰的《先秦兩漢古籍逐字索引叢刊》等,都提出了很好的研究方法和研究理論,為我們前期分析先秦文獻(xiàn)地名結(jié)構(gòu)規(guī)則的研究提供了很好依據(jù)。目前,命名實(shí)體識別技術(shù)在不斷地發(fā)展,各種識別模型的應(yīng)用為我們的模型選用和識別實(shí)驗(yàn)提供了很好的例證。2、語料考察分析本文對先秦25本主要文獻(xiàn)進(jìn)行篩選,最終

3、選擇《左傳》作為實(shí)驗(yàn)語料。原因在于:作為方法探求始初,選取的文獻(xiàn)要具有可讀性,易提取性,另外,文獻(xiàn)需要包含較多的地名。《左傳》在先秦文獻(xiàn)中,字?jǐn)?shù)最多,詞匯總量最大,是記錄春秋時(shí)期社會(huì)狀況的重要典籍。事件、人物的描寫必然和相關(guān)的地點(diǎn)密切聯(lián)系,以上多種因素正滿足了我們實(shí)驗(yàn)的要求。2.1《左傳》地名統(tǒng)計(jì)與分析我們選用“漢達(dá)文庫”提供的《左傳》(17萬字次)作為實(shí)驗(yàn)語料。首先對其五分之三語料人工標(biāo)注了分詞和詞性標(biāo)記信息。參照北大分詞規(guī)范,并依據(jù)古代漢語的特點(diǎn)制定了先秦文獻(xiàn)語料分詞標(biāo)注集,給出了17個(gè)標(biāo)記,分別是:名詞n、動(dòng)詞v、形容詞a、數(shù)詞m、量詞q、代詞r、介詞p、連詞c

4、、助詞u、副詞d、語氣詞V、人名nr、地名ns、兼詞i、方位詞f、時(shí)間詞t、標(biāo)點(diǎn)w等,我們總體上傾向于和,而不是分。其中,地名的標(biāo)注我們遵守指稱性、專門性、詞匯性等命名實(shí)體特征,對文獻(xiàn)中出現(xiàn)的地名做了詞頻統(tǒng)計(jì)(見表3-l)o2.2《左傳》地名特點(diǎn)分析及用字考察基于以上統(tǒng)計(jì)分析,我們對《左傳》地名進(jìn)行了分類。按內(nèi)容分,主要包括:自然地理實(shí)體:山(如:泰山)、水(如:漢水)、河(如:河)等人文地理實(shí)體:國名(如:秦國)、縣名(如:溫)等等按結(jié)構(gòu)分,主要有以下幾種形式:1、單字專名,如:毫、員Ik京2、專名+通名,如:泰山、清丘3、雙字專名,如:汾隰、甘鹿另外,我們對《左傳

5、》進(jìn)行了字頻統(tǒng)計(jì),共有3300多個(gè)漢字,其中,地名用字共有827個(gè)字,頻率在10以上的地名用字為27個(gè),我們對這些頻率較高的字進(jìn)行了考察,并從結(jié)構(gòu)、文化等方面對《左傳》地名進(jìn)行細(xì)致的分析,從而總結(jié)出以下幾個(gè)特點(diǎn):1、方位詞居多。字頻統(tǒng)計(jì)分析顯示,《左傳》地名中,主要的方位詞及其頻率是:陽33、上22、東、16、中12、南12、北、10等等。可見,大部分方位詞出現(xiàn)的頻率是很高的,因?yàn)楫?dāng)時(shí)人的群居及其惡劣的生活環(huán)境,人們在生產(chǎn)勞動(dòng)時(shí),必須要辨認(rèn)方向,確定不同的地理位置。2、存在通名現(xiàn)象,常常省略通名我國早期地名“近取諸身,遠(yuǎn)取諸物”,所以古地名通名來歷常常與其自然環(huán)境有關(guān)

6、。從我們的統(tǒng)計(jì)數(shù)據(jù)看出,高頻字中的通名包括:丘4J4、城28、國24、陵20、澤16、ill15、泉14、州12等等,而且,地名常有通名省略的情況,例如:漢,漢水:名詞。水名。漢水。長江最大支流。⑴楚子伐隨。軍于漢、淮之間。(桓公八年)(2)楚國方城以為城,漢水以為池,雖眾,無所用之(僖公四年)3、同名異指和異名同指《左傳》地名的異名同指現(xiàn)象主要指在文本中同一個(gè)地名的表達(dá)形式不同,或范圍不一。例如:漢,漢川(1)沿漢溯江,將人郢。(文公十年)漢:水名。漢水。長江最大支流,源出陜西寧強(qiáng)縣,人湖北省至武漢市人長江。(2)周之子孫在漢川者,楚實(shí)盡之。(定公四年)漢川:漢水。

7、此指漢水地區(qū)。同名異指現(xiàn)象普遍存在于文本中,大多是表行政區(qū)域的地名,主要原因可能是因?yàn)椤暗仉S移民”,即和古代遷都,擴(kuò)都、移民等現(xiàn)象有關(guān)。例如:京(1)請京,使居之,謂之京城大叔。(隱公一年)鄭國地名,在今河南滎陽縣東南。(2)群王子追之,單子殺還、姑、發(fā)、弱、隧、延、定、稠,子朝奔京。(昭公二十二年)周國地名,在今河南洛陽市西南。2.3《左傳》地名與現(xiàn)代地名比較以上關(guān)于《左傳》地名特點(diǎn)的分析,為我們今后的地名識別工作奠定了語言學(xué)基礎(chǔ),現(xiàn)在,我們主要從地名識別角度將《左傳》地名與現(xiàn)代地名進(jìn)行比較:1、現(xiàn)代地名數(shù)量大,新地名不斷涌現(xiàn),地名標(biāo)注規(guī)范較為完善

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。