OCR識別簡介及行業(yè)運(yùn)用.doc

ID：61487926

大?。?8.50 KB

頁數(shù)：11頁

時(shí)間：2021-02-05

資源描述：

《OCR識別簡介及行業(yè)運(yùn)用.doc》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、一、OCR技術(shù)的發(fā)展歷程自20世紀(jì)60年代初期出現(xiàn)第一代OCR產(chǎn)品開始，經(jīng)過30多年的不斷發(fā)展改進(jìn)，包括手寫體的各種OCR技術(shù)的研究取得了令人矚目的成果，人們對OCR產(chǎn)品的功能要求也從原來的單純注重識別率，發(fā)展到對整個(gè)OCR系統(tǒng)的識別速度、用戶界面的友好性、操作的簡便性、產(chǎn)品的穩(wěn)定性、適應(yīng)性、可靠性和易升級性、售前售后服務(wù)質(zhì)量等各方面提出更高的要求。IBM公司最早開發(fā)了OCR產(chǎn)品，1965年在紐約世界博覽會上展出了IBM公司的OCR產(chǎn)品——IBMl287。當(dāng)時(shí)的這款產(chǎn)品只能識別印刷體的數(shù)字、英文字母及

2、部分符號，并且必須是指定的字體。20世紀(jì)60年代末，日立公司和富士通公司也分別研制出各自的OCR產(chǎn)品。全世界第一個(gè)實(shí)現(xiàn)手寫體郵政編碼識別的信函自動分揀系統(tǒng)是由日本東芝公司研制的，兩年后NEC公司也推出了同樣的系統(tǒng)。到了1974年，信函的自動分揀率達(dá)到92％左右，并且廣泛地應(yīng)用在郵政系統(tǒng)中，發(fā)揮著較好的作用。1983年日本東芝公司發(fā)布了其識別印刷體日文漢字的OCR系統(tǒng)OCRV595，其識別速度為每秒70～100個(gè)漢字，識別率為99．5％。其后東芝公司又開始了手寫體日文漢字識別的研究工作。中國在OCR技術(shù)

3、方面的研究工作相對起步較晚，在20世紀(jì)70年代才開始對數(shù)字、英文字母及符號的識別技術(shù)進(jìn)行研究，20世紀(jì)70年代末開始進(jìn)行漢字識別的研究。1986年，國家863計(jì)劃信息領(lǐng)域課題組織了清華大學(xué)、北京信息工程學(xué)院、沈陽自動化所三家單位聯(lián)合進(jìn)行中文OCR軟件的開發(fā)工作。至1989年，清華大學(xué)率先推出了國內(nèi)第一套中文OCR軟件--清華文通TH-OCR1.0版，至此中文OCR正式從實(shí)驗(yàn)室走向了市場。清華OCR印刷體漢字識別軟件其后又推出了TH-OCR92高性能實(shí)用簡／繁體、多字體、多功能印刷漢字識別系統(tǒng)，使印刷體

4、漢字識別技術(shù)又取得重大進(jìn)展。到1994年推出的TH-OCR94高性能漢英混排印刷文本識別系統(tǒng)，則被專家鑒定為“是國內(nèi)外首次推出的漢英混排印刷文本識別系統(tǒng)，總體上居國際領(lǐng)先水平”。上個(gè)世紀(jì)90年代中后期，清華大學(xué)電子工程系提出并進(jìn)行了漢字識別綜合研究，使?jié)h字識別技術(shù)在印刷體文本、聯(lián)機(jī)手寫漢字識別、脫機(jī)手寫漢字識別和脫機(jī)手寫數(shù)字符號識別等領(lǐng)域全面地取得了重要成果。具有代表性的成果是TH-OCR97綜合集成漢字識別系統(tǒng)，它可以完成多文種(漢、英、日)印刷文本、聯(lián)機(jī)手寫漢字、脫機(jī)手寫漢字和手寫數(shù)字的識別輸入。

5、幾年來，除清華文通TH-OCR外，其它如尚書SH-OCR等各具風(fēng)格的OCR軟件也相繼問世，中文OCR市場穩(wěn)步擴(kuò)大，用戶遍布世界各地?？梢哉f目前印刷體OCR的識別技術(shù)已經(jīng)達(dá)到較高水平。OCR產(chǎn)品已由早期的只能識別指定的印刷體數(shù)字、英文字母和部分符號，發(fā)展成為可以自動進(jìn)行版面分析、表格識別，實(shí)現(xiàn)混合文字、多字體、多字號、橫豎混排識別的強(qiáng)大的計(jì)算機(jī)信息快速錄入工具。對印刷體漢字的識別率達(dá)到98％以上，即使對印刷質(zhì)量較差的文字其識別率也達(dá)到95％以上?？勺R別宋體、黑體、楷體、仿宋體等多種字體的簡、繁體，并且可

6、以對多種字體、不同字號混合排版進(jìn)行識別，對手寫體漢字的識別率達(dá)到70％以上。特別是我國的漢字OCR技術(shù)經(jīng)過十幾年的努力，克服了起步晚、漢字字符集異常龐大等困難，單字的識別速度(指在單位時(shí)間內(nèi)所完成的從特征提取到識別結(jié)果輸出的字?jǐn)?shù))可以達(dá)到70字／秒以上。由于印刷體OCR漢字識別技術(shù)已經(jīng)比較成熟，所以O(shè)CR產(chǎn)品被廣泛地應(yīng)用在新聞、印刷、出版、圖書館、辦公自動化等各個(gè)行業(yè)。專業(yè)型OCR產(chǎn)品多是面向特定的行業(yè)，即適用于每天需處理大量表格信息錄入的部門，如郵政、稅務(wù)、海關(guān)、統(tǒng)計(jì)等等。這種面向特定行業(yè)的專業(yè)型O

7、CR系統(tǒng)，格式較為固定，識別的字符集相對較小，經(jīng)常與專用的輸入設(shè)備結(jié)合使用，因此具有速度快、效率高等特點(diǎn)，比如郵件自動分揀系統(tǒng)等。手寫文稿的識別直到1996、1997年才開始有產(chǎn)品問世，而且是作為印刷文稿識別產(chǎn)品的一項(xiàng)附加功能提供的。由于人寫字的習(xí)慣千差萬別，實(shí)現(xiàn)自由手寫體識別相當(dāng)困難，所以手寫體OCR技術(shù)的使用領(lǐng)域是聯(lián)機(jī)手寫體識別，即人一邊寫，計(jì)算機(jī)一邊識別，是一種實(shí)時(shí)識別方式。二、OCR的基本原理簡單地說，OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計(jì)算機(jī)，然后由計(jì)算機(jī)取出每個(gè)文字的圖像，

8、并將其轉(zhuǎn)換成漢字的編碼。其具體工作過程是，掃描儀將漢字文稿通過電荷耦合器件CCD將文稿的光信號轉(zhuǎn)換為電信號，經(jīng)過模擬／數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號傳輸給計(jì)算機(jī)。計(jì)算機(jī)接受的是文稿的數(shù)字圖像，其圖像上的漢字可能是印刷漢字，也可能是手寫漢字，然后對這些圖像中的漢字進(jìn)行識別。對于印刷體字符，首先采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點(diǎn)陣的圖像文件，再通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式，以便文字處理軟件的進(jìn)一步加工。其中文字識別是OCR的重要技術(shù)。1．OCR識

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 11



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

OCR識別簡介及行業(yè)運(yùn)用.doc

OCR識別簡介及行業(yè)運(yùn)用.doc

相關(guān)文章

相關(guān)標(biāo)簽