怎樣識別圖片上的文字.docx

怎樣識別圖片上的文字.docx

ID:61488573

大?。?8.70 KB

頁數(shù):5頁

時間:2021-02-05

怎樣識別圖片上的文字.docx_第1頁
怎樣識別圖片上的文字.docx_第2頁
怎樣識別圖片上的文字.docx_第3頁
怎樣識別圖片上的文字.docx_第4頁
怎樣識別圖片上的文字.docx_第5頁
資源描述:

《怎樣識別圖片上的文字.docx》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫

1、細心看吧希望能幫助你要下載安裝文字識別軟件,你可以試試尚書七號,或者漢王等等下面教你如何使用ORC:OCR是英文OpticalCharacterRecognition的縮寫,翻譯成中文就是通過光學技術對文字進行識別的意思,是自動識別技術研究和應用領域中的一個重要方面。它是一種能夠將文字自動識別錄入到電腦中的軟件技術,是與掃描儀配套的主要軟件,屬于非鍵盤輸入范疇,需要圖像輸入設備主要是掃描儀相配合。現(xiàn)在OCR主要是指文字識別軟件,在1996年清華紫光開始搭配中文識別軟件之前,市場上的掃描儀和OCR軟件一直是分開銷售的,掃描儀廠商現(xiàn)在已把專業(yè)的OCR軟件搭

2、配自己生產(chǎn)的掃描儀出售。OCR技術的迅速發(fā)展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和OCR技術的日臻完善,OCR己成為絕大多數(shù)掃描儀用戶的得力助手。一、OCR技術的發(fā)展歷程自20世紀60年代初期出現(xiàn)第一代OCR產(chǎn)品開始,經(jīng)過30多年的不斷發(fā)展改進,包括手寫體的各種OCR技術的研究取得了令人矚目的成果,人們對OCR產(chǎn)品的功能要求也從原來的單純注重識別率,發(fā)展到對整個OCR系統(tǒng)的識別速度、用戶界面的友好性、操作的簡便性、產(chǎn)品的穩(wěn)定性、適應性、可靠性和易升級性、售前售后服務質量等各方面提出更高的要求。IBM公司最早開發(fā)了OCR產(chǎn)品,1965

3、年在紐約世界博覽會上展出了IBM公司的OCR產(chǎn)品——IBMl287。當時的這款產(chǎn)品只能識別印刷體的數(shù)字、英文字母及部分符號,并且必須是指定的字體。20世紀60年代末,日立公司和富士通公司也分別研制出各自的OCR產(chǎn)品。全世界第一個實現(xiàn)手寫體郵政編碼識別的信函自動分揀系統(tǒng)是由日本東芝公司研制的,兩年后NEC公司也推出了同樣的系統(tǒng)。到了1974年,信函的自動分揀率達到92%左右,并且廣泛地應用在郵政系統(tǒng)中,發(fā)揮著較好的作用。1983年日本東芝公司發(fā)布了其識別印刷體日文漢字的OCR系統(tǒng)OCRV595,其識別速度為每秒70~100個漢字,識別率為99.5%。其后

4、東芝公司又開始了手寫體日文漢字識別的研究工作。中國在OCR技術方面的研究工作相對起步較晚,在20世紀70年代才開始對數(shù)字、英文字母及符號的識別技術進行研究,20世紀70年代末開始進行漢字識別的研究。1986年,國家863計劃信息領域課題組織了清華大學、北京信息工程學院、沈陽自動化所三家單位聯(lián)合進行中文OCR軟件的開發(fā)工作。至1989年,清華大學率先推出了國內第一套中文OCR軟件--清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。清華OCR印刷體漢字識別軟件其后又推出了TH-OCR92高性能實用簡/繁體、多字體、多功能印刷漢字識別系統(tǒng)

5、,使印刷體漢字識別技術又取得重大進展。到1994年推出的TH-OCR94高性能漢英混排印刷文本識別系統(tǒng),則被專家鑒定為“是國內外首次推出的漢英混排印刷文本識別系統(tǒng),總體上居國際領先水平”。上個世紀90年代中后期,清華大學電子工程系提出并進行了漢字識別綜合研究,使?jié)h字識別技術在印刷體文本、聯(lián)機手寫漢字識別、脫機手寫漢字識別和脫機手寫數(shù)字符號識別等領域全面地取得了重要成果。具有代表性的成果是TH-OCR97綜合集成漢字識別系統(tǒng),它可以完成多文種(漢、英、日)印刷文本、聯(lián)機手寫漢字、脫機手寫漢字和手寫數(shù)字的識別輸入。幾年來,除清華文通TH-OCR外,其它如尚

6、書SH-OCR等各具風格的OCR軟件也相繼問世,中文OCR市場穩(wěn)步擴大,用戶遍布世界各地。可以說目前印刷體OCR的識別技術已經(jīng)達到較高水平。OCR產(chǎn)品已由早期的只能識別指定的印刷體數(shù)字、英文字母和部分符號,發(fā)展成為可以自動進行版面分析、表格識別,實現(xiàn)混合文字、多字體、多字號、橫豎混排識別的強大的計算機信息快速錄入工具。對印刷體漢字的識別率達到98%以上,即使對印刷質量較差的文字其識別率也達到95%以上??勺R別宋體、黑體、楷體、仿宋體等多種字體的簡、繁體,并且可以對多種字體、不同字號混合排版進行識別,對手寫體漢字的識別率達到70%以上。特別是我國的漢字O

7、CR技術經(jīng)過十幾年的努力,克服了起步晚、漢字字符集異常龐大等困難,單字的識別速度(指在單位時間內所完成的從特征提取到識別結果輸出的字數(shù))可以達到70字/秒以上。由于印刷體OCR漢字識別技術已經(jīng)比較成熟,所以OCR產(chǎn)品被廣泛地應用在新聞、印刷、出版、圖書館、辦公自動化等各個行業(yè)。專業(yè)型OCR產(chǎn)品多是面向特定的行業(yè),即適用于每天需處理大量表格信息錄入的部門,如郵政、稅務、海關、統(tǒng)計等等。這種面向特定行業(yè)的專業(yè)型OCR系統(tǒng),格式較為固定,識別的字符集相對較小,經(jīng)常與專用的輸入設備結合使用,因此具有速度快、效率高等特點,比如郵件自動分揀系統(tǒng)等。手寫文稿的識別直

8、到1996、1997年才開始有產(chǎn)品問世,而且是作為印刷文稿識別產(chǎn)品的一項附加功能提供的。由于人

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。