漢字的結(jié)構(gòu)特征

漢字的結(jié)構(gòu)特征

ID:35722847

大小:382.50 KB

頁(yè)數(shù):19頁(yè)

時(shí)間:2019-04-14

漢字的結(jié)構(gòu)特征_第1頁(yè)
漢字的結(jié)構(gòu)特征_第2頁(yè)
漢字的結(jié)構(gòu)特征_第3頁(yè)
漢字的結(jié)構(gòu)特征_第4頁(yè)
漢字的結(jié)構(gòu)特征_第5頁(yè)
資源描述:

《漢字的結(jié)構(gòu)特征》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、漢字的結(jié)構(gòu)特征【摘要】本文作者通過(guò)點(diǎn)陣量化處理1000個(gè)常用漢字,統(tǒng)計(jì)分析了不同漢字、不同字體的結(jié)構(gòu)上的異同,并用c++語(yǔ)言編寫了一個(gè)能識(shí)別字符是否為中文的簡(jiǎn)單程序。【前言】漢字作為中華文明的代表之一,擁有上千年的悠久歷史。經(jīng)過(guò)幾千年的發(fā)展演變,漢字在字形字體上也發(fā)生了許多的變化。本文就是對(duì)漢字字形的研究。通過(guò)對(duì)漢字字形的研究,我們可以發(fā)現(xiàn)漢字內(nèi)在的一些規(guī)律,并對(duì)文字識(shí)別等現(xiàn)代技術(shù)提供一定程度上的幫助?!灸夸洝?.漢字字形的量化處理2.1000常用漢字點(diǎn)陣的頻數(shù)統(tǒng)計(jì)3.不同字體間架結(jié)構(gòu)的點(diǎn)陣的頻數(shù)分析4.不同字體間架結(jié)構(gòu)的中心分析5.常用漢字的字體中心分析6.識(shí)別中文的程序設(shè)計(jì)【正文】一、漢

2、字字形的量化處理對(duì)漢字字形的處理的第一步工作就是將漢字字形量化。目前應(yīng)用較廣的Truetype字體使用的方法是用點(diǎn)與函數(shù)描述一個(gè)字的輪廓曲線(圖1.1),這種方法的優(yōu)勢(shì)在于可以細(xì)致的描述漢字的字形,字號(hào)無(wú)論大小字體邊緣都光滑無(wú)鋸齒等。對(duì)于今天的研究,我們采取了更為簡(jiǎn)單的處理方法———點(diǎn)陣字體。點(diǎn)陣字體(windows系統(tǒng)下其字庫(kù)擴(kuò)展名.fon,區(qū)別于Truetype的.ttf)即將漢字的圖形簡(jiǎn)化為一個(gè)點(diǎn)陣(常見(jiàn)的有16*16或24*24),用每個(gè)點(diǎn)的虛實(shí)表示漢字的輪廓。同樣以漢字“人”為例,點(diǎn)陣量化的過(guò)程如圖1.2所示:其中的難點(diǎn)是將漢字轉(zhuǎn)化為點(diǎn)陣,我們?cè)诨ヂ?lián)網(wǎng)上搜索到一款將給定漢字轉(zhuǎn)化為點(diǎn)

3、陣的文字的軟件(大鴻點(diǎn)陣字轉(zhuǎn)換器1.0.0.0),該軟件轉(zhuǎn)換出的文字由字符“▇”與空格構(gòu)成,通過(guò)MicrosoftWord的搜索替換可將文字轉(zhuǎn)換為0與1構(gòu)成的點(diǎn)陣,便于以后的數(shù)據(jù)處理。以后的數(shù)據(jù)處理均采用此方法。對(duì)于該軟件不支持的字體,我們采用手動(dòng)的方法將其用點(diǎn)陣表示:二、漢字點(diǎn)陣的頻數(shù)統(tǒng)計(jì)下一步我們的目標(biāo)是對(duì)常用漢字進(jìn)行點(diǎn)陣的頻數(shù)統(tǒng)計(jì)。首先,我們通過(guò)查閱資料,選取了1000個(gè)常用漢字(使用覆蓋率達(dá)91%)進(jìn)行同樣的處理。由于軟件的原因,生成漢字的點(diǎn)陣并不統(tǒng)一(只能保證行或列的統(tǒng)一),因此完成這一工作給我們帶來(lái)了極大的難度。對(duì)此,我們決定對(duì)行(x軸方向)與列(y軸)分別分析。注:使用字體:楷

4、體1.漢字點(diǎn)陣x軸方向頻數(shù)統(tǒng)計(jì)約1000個(gè)漢字(極少數(shù)字無(wú)法轉(zhuǎn)換,但數(shù)量較少可忽略不計(jì)),計(jì)28980行,65列。對(duì)于較大量的數(shù)據(jù),使用程序處理會(huì)比較方便。我使用C++語(yǔ)言編寫了一段分列累加求和的程序(算法簡(jiǎn)單,程序框圖略),代碼如下:#include//1.cpp#include#include#definemaxl28980//maxline#definemaxc65//maxcolusingnamespacestd;intsum[maxc];intmain(){ifstreamfin("code.txt");ofstreamfout

5、("sum.txt");inti,j;strings;for(j=0;j

6、65006500651065107266726685908590865586557711771180478047825882588325832582968296765276526928692863846384561456144575457532423242218721871402140266666600(注:我們將字符“▇”替換為00,所以相鄰組數(shù)據(jù)一樣十分正常)繪制出圖表如下(圖2.1.1):從中可見(jiàn)其最大值出現(xiàn)在x=33,34處,值為8655.1.漢字點(diǎn)陣y軸方向頻數(shù)統(tǒng)計(jì)Y軸方向的統(tǒng)計(jì)同樣復(fù)雜。由于軟件對(duì)橫向的數(shù)據(jù)處理乏力,因此我們用軟件自帶功能將字順時(shí)針旋轉(zhuǎn)90度,如圖2.2.1:以后

7、的處理與前文相同(程序代碼與前文亦相同),得出統(tǒng)計(jì)數(shù)據(jù)如下:00147147802802216721674281428162836283689568956805680567016701642564256345634565596559709670967210721073767376753475347798779879547954782878287706770674377437688768876541654162

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。