如何將掃描圖片上文字變成word文檔

如何將掃描圖片上文字變成word文檔

ID:20407066

大小:30.00 KB

頁(yè)數(shù):3頁(yè)

時(shí)間:2018-10-10

如何將掃描圖片上文字變成word文檔_第1頁(yè)
如何將掃描圖片上文字變成word文檔_第2頁(yè)
如何將掃描圖片上文字變成word文檔_第3頁(yè)
資源描述:

《如何將掃描圖片上文字變成word文檔》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、Ocr技術(shù)如何將掃描圖片上的文字變成word文檔以前好像弄過(guò),記不太清.我掃下來(lái)的圖格式是jpg,然后雙擊打開(kāi),打開(kāi)后點(diǎn)擊"編輯"——“全選”(也可以直接按住鼠標(biāo)左鍵選出你要的部分圖和字)——復(fù)制——打開(kāi)一個(gè)word文檔——粘貼(出來(lái)的既有圖又有字)——?jiǎng)h去圖就只有字了(如果旁邊出現(xiàn)一個(gè)智能標(biāo)記,還可以將鼠標(biāo)移到標(biāo)記上點(diǎn)一下,看見(jiàn)出現(xiàn)幾個(gè)選擇,選“僅保留文本”就行)。還弄過(guò)從網(wǎng)頁(yè)上復(fù)制的,不過(guò)前提好像要該網(wǎng)頁(yè)允許復(fù)制內(nèi)容才行,那更簡(jiǎn)單一點(diǎn),直接用鼠標(biāo)選出要復(fù)制的東東,再建一個(gè)文本文檔,先粘貼在文本文檔上,再建一個(gè)word文檔,再?gòu)奈谋疚臋n上復(fù)制粘貼到wor

2、d上就行了,下來(lái)的好像直接就是只有字了。好像當(dāng)時(shí)就是這樣的,具體的你可以試一下。掃描文字,結(jié)果以圖片格式(.bmp)存入電腦。然后使用ORC識(shí)別系統(tǒng)進(jìn)行轉(zhuǎn)換,最終用WORD進(jìn)行修改編輯。下面教你如何使用ORC:OCR是英文OpticalCharacterRecognition的縮寫(xiě),翻譯成中文就是通過(guò)光學(xué)技術(shù)對(duì)文字進(jìn)行識(shí)別的意思,是自動(dòng)識(shí)別技術(shù)研究和應(yīng)用領(lǐng)域中的一個(gè)重要方面。它是一種能夠?qū)⑽淖肿詣?dòng)識(shí)別錄入到電腦中的軟件技術(shù),是與掃描儀配套的主要軟件,屬于非鍵盤(pán)輸入范疇,需要圖像輸入設(shè)備主要是掃描儀相配合。現(xiàn)在OCR主要是指文字識(shí)別軟件,在1996年清華紫光

3、開(kāi)始搭配中文識(shí)別軟件之前,市場(chǎng)上的掃描儀和OCR軟件一直是分開(kāi)銷售的,專業(yè)的OCR軟件讜縲┦焙蚵艫帽壬枰腔掛蟆K孀派枰欠直媛實(shí)奶嶸?,OCR軟件也在不斷升級(jí),掃描儀廠商現(xiàn)在已把專業(yè)的OCR軟件搭配自己生產(chǎn)的掃描儀出售。OCR技術(shù)的迅速發(fā)展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和OCR技術(shù)的日臻完善,OCR己成為絕大多數(shù)掃描儀用戶的得力助手二、OCR的基本原理簡(jiǎn)單地說(shuō),OCR的基本原理就是通過(guò)掃描儀將一份文稿的圖像輸入給計(jì)算機(jī),然后由計(jì)算機(jī)取出每個(gè)文字的圖像,并將其轉(zhuǎn)換成漢字的編碼。其具體工作過(guò)程是,掃描儀將漢字文稿通過(guò)電荷耦合器件CC

4、D將文稿的光信號(hào)轉(zhuǎn)換為電信號(hào),經(jīng)過(guò)模擬/數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號(hào)傳輸給計(jì)算機(jī)。計(jì)算機(jī)接受的是文稿的數(shù)字圖像,其圖像上的漢字可能是印刷漢字,也可能是手寫(xiě)漢字,然后對(duì)這些圖像中的漢字進(jìn)行識(shí)別。對(duì)于印刷體字符,首先采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點(diǎn)陣的圖像文件,再通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,以便文字處理軟件的進(jìn)一步加工。其中文字識(shí)別是OCR的重要技術(shù)。1.OCR識(shí)別的兩種方式與其它信息數(shù)據(jù)一樣,在計(jì)算機(jī)中所有掃描儀捕捉到的圖文信息都是用0、1這兩個(gè)數(shù)字來(lái)記錄和進(jìn)行識(shí)別的,所有信息都只是以0、1保存的一串串點(diǎn)或樣本點(diǎn)。OCR識(shí)別程序識(shí)別頁(yè)面上的

5、字符信息,主要通過(guò)單元模式匹配法和特征提取法兩種方式進(jìn)行字符識(shí)別。單元模式匹配識(shí)別法(PatternMatching)是將每一個(gè)字符與保存有標(biāo)準(zhǔn)字體和字號(hào)位圖的文件進(jìn)行不嚴(yán)格的比較。如果應(yīng)用程序中有一個(gè)已保存字符的大數(shù)據(jù)庫(kù),則應(yīng)用程序會(huì)選取合適的字符進(jìn)行正確的匹配。軟件必須使用一些處理技術(shù),找出最相似的匹配,通常是不斷試驗(yàn)同一個(gè)字符的不同版本來(lái)比較。有些軟件可以掃描一頁(yè)文本,并鑒別出定義新字體的每一個(gè)字符。有些軟件則使用自己的識(shí)別技術(shù),盡其所能鑒別頁(yè)面上的字符,然后將不可識(shí)別的字符進(jìn)行人工選擇或直接錄入。特征提取識(shí)別法(FeatureExtraction)

6、是將每個(gè)字符分解為很多個(gè)不同的字符特征,包括斜線、水平線和曲線等。然后,又將這些特征與理解(識(shí)別)的字符進(jìn)行匹配。舉個(gè)簡(jiǎn)單的例子,應(yīng)用程序識(shí)別到兩條水平橫線,它就會(huì)“認(rèn)為”該字符可能是“二”。特征提取法的優(yōu)點(diǎn)是可以識(shí)別多種字體,例如中文書(shū)法體就是采用特征提取法實(shí)現(xiàn)字符識(shí)別的。3Ocr技術(shù)多數(shù)OCR應(yīng)用軟件都加入了語(yǔ)法智能檢查功能,這種功能進(jìn)一步提高了識(shí)別率。它主要通過(guò)上下文檢查法實(shí)現(xiàn)拼寫(xiě)和語(yǔ)法的糾正,在文字識(shí)別時(shí),OCR應(yīng)用程序會(huì)做多次的上下文銜接性檢查,根據(jù)程序中已經(jīng)存在的詞組、固定的用詞順序,對(duì)應(yīng)的檢查字符串的用詞字。比較高級(jí)的應(yīng)用軟件會(huì)自動(dòng)用它“認(rèn)為

7、”正確的詞語(yǔ)替換錯(cuò)誤詞語(yǔ),糾正語(yǔ)句意思。2.文字識(shí)別的幾個(gè)步驟文字識(shí)別包括以下幾個(gè)步驟:圖文輸入、預(yù)處理、單字識(shí)別和后處理等。(1)圖文輸入是指通過(guò)輸入設(shè)備將文檔輸入到計(jì)算機(jī)中,也就是實(shí)現(xiàn)原稿的數(shù)字化。現(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識(shí)別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測(cè)的傾斜角小,在進(jìn)行傾斜校正后,文字圖像的變形就小。這些簡(jiǎn)單的操作,會(huì)使系統(tǒng)的識(shí)別正確率有所提高。反之,由于掃描設(shè)置不當(dāng),文字的斷筆過(guò)多可能會(huì)分檢出半個(gè)文字的圖像。文字?jǐn)?/p>

8、筆和筆畫(huà)粘連會(huì)造成有些特征丟失,在將其特征與特征庫(kù)比較時(shí),會(huì)使其特

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。