如何將掃描圖片上文字變成word文檔

ID：20407066

大?。?0.00 KB

頁數(shù)：3頁

時間：2018-10-10

資源描述：

《如何將掃描圖片上文字變成word文檔》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、Ocr技術(shù)如何將掃描圖片上的文字變成word文檔以前好像弄過,記不太清.我掃下來的圖格式是jpg,然后雙擊打開,打開后點擊"編輯"——“全選”（也可以直接按住鼠標(biāo)左鍵選出你要的部分圖和字）——復(fù)制——打開一個word文檔——粘貼（出來的既有圖又有字）——刪去圖就只有字了（如果旁邊出現(xiàn)一個智能標(biāo)記，還可以將鼠標(biāo)移到標(biāo)記上點一下，看見出現(xiàn)幾個選擇，選“僅保留文本”就行）。還弄過從網(wǎng)頁上復(fù)制的，不過前提好像要該網(wǎng)頁允許復(fù)制內(nèi)容才行，那更簡單一點，直接用鼠標(biāo)選出要復(fù)制的東東，再建一個文本文檔，先粘貼在文本文檔上，再建一個word文檔，再從文本文檔上復(fù)制粘貼到wor

2、d上就行了，下來的好像直接就是只有字了。好像當(dāng)時就是這樣的，具體的你可以試一下。掃描文字，結(jié)果以圖片格式(.bmp)存入電腦。然后使用ORC識別系統(tǒng)進行轉(zhuǎn)換，最終用WORD進行修改編輯。下面教你如何使用ORC:OCR是英文OpticalCharacterRecognition的縮寫，翻譯成中文就是通過光學(xué)技術(shù)對文字進行識別的意思,是自動識別技術(shù)研究和應(yīng)用領(lǐng)域中的一個重要方面。它是一種能夠?qū)⑽淖肿詣幼R別錄入到電腦中的軟件技術(shù)，是與掃描儀配套的主要軟件，屬于非鍵盤輸入范疇，需要圖像輸入設(shè)備主要是掃描儀相配合?，F(xiàn)在OCR主要是指文字識別軟件，在1996年清華紫光

3、開始搭配中文識別軟件之前，市場上的掃描儀和OCR軟件一直是分開銷售的，專業(yè)的OCR軟件讜縲┦焙蚵艫帽壬枰腔掛蟆K孀派枰欠直媛實奶嶸琌CR軟件也在不斷升級，掃描儀廠商現(xiàn)在已把專業(yè)的OCR軟件搭配自己生產(chǎn)的掃描儀出售。OCR技術(shù)的迅速發(fā)展與掃描儀的廣泛使用是密不可分的，近兩年隨著掃描儀逐漸普及和OCR技術(shù)的日臻完善，OCR己成為絕大多數(shù)掃描儀用戶的得力助手二、OCR的基本原理簡單地說，OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計算機，然后由計算機取出每個文字的圖像，并將其轉(zhuǎn)換成漢字的編碼。其具體工作過程是，掃描儀將漢字文稿通過電荷耦合器件CC

4、D將文稿的光信號轉(zhuǎn)換為電信號，經(jīng)過模擬／數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號傳輸給計算機。計算機接受的是文稿的數(shù)字圖像，其圖像上的漢字可能是印刷漢字，也可能是手寫漢字，然后對這些圖像中的漢字進行識別。對于印刷體字符，首先采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點陣的圖像文件，再通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式，以便文字處理軟件的進一步加工。其中文字識別是OCR的重要技術(shù)。1．OCR識別的兩種方式與其它信息數(shù)據(jù)一樣，在計算機中所有掃描儀捕捉到的圖文信息都是用0、1這兩個數(shù)字來記錄和進行識別的，所有信息都只是以0、1保存的一串串點或樣本點。OCR識別程序識別頁面上的

5、字符信息，主要通過單元模式匹配法和特征提取法兩種方式進行字符識別。單元模式匹配識別法(PatternMatching)是將每一個字符與保存有標(biāo)準(zhǔn)字體和字號位圖的文件進行不嚴(yán)格的比較。如果應(yīng)用程序中有一個已保存字符的大數(shù)據(jù)庫，則應(yīng)用程序會選取合適的字符進行正確的匹配。軟件必須使用一些處理技術(shù)，找出最相似的匹配，通常是不斷試驗同一個字符的不同版本來比較。有些軟件可以掃描一頁文本，并鑒別出定義新字體的每一個字符。有些軟件則使用自己的識別技術(shù)，盡其所能鑒別頁面上的字符，然后將不可識別的字符進行人工選擇或直接錄入。特征提取識別法(FeatureExtraction)

6、是將每個字符分解為很多個不同的字符特征，包括斜線、水平線和曲線等。然后，又將這些特征與理解(識別)的字符進行匹配。舉個簡單的例子，應(yīng)用程序識別到兩條水平橫線，它就會“認(rèn)為”該字符可能是“二”。特征提取法的優(yōu)點是可以識別多種字體，例如中文書法體就是采用特征提取法實現(xiàn)字符識別的。3Ocr技術(shù)多數(shù)OCR應(yīng)用軟件都加入了語法智能檢查功能，這種功能進一步提高了識別率。它主要通過上下文檢查法實現(xiàn)拼寫和語法的糾正，在文字識別時，OCR應(yīng)用程序會做多次的上下文銜接性檢查，根據(jù)程序中已經(jīng)存在的詞組、固定的用詞順序，對應(yīng)的檢查字符串的用詞字。比較高級的應(yīng)用軟件會自動用它“認(rèn)為

7、”正確的詞語替換錯誤詞語，糾正語句意思。2．文字識別的幾個步驟文字識別包括以下幾個步驟：圖文輸入、預(yù)處理、單字識別和后處理等。（1）圖文輸入是指通過輸入設(shè)備將文檔輸入到計算機中，也就是實現(xiàn)原稿的數(shù)字化?，F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù)，是保證文字清楚、特征不丟失的關(guān)鍵。此外，文檔盡可能地放置端正，以保證預(yù)處理檢測的傾斜角小，在進行傾斜校正后，文字圖像的變形就小。這些簡單的操作，會使系統(tǒng)的識別正確率有所提高。反之，由于掃描設(shè)置不當(dāng)，文字的斷筆過多可能會分檢出半個文字的圖像。文字?jǐn)?/p>

8、筆和筆畫粘連會造成有些特征丟失，在將其特征與特征庫比較時，會使其特

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

如何將掃描圖片上文字變成word文檔

如何將掃描圖片上文字變成word文檔

相關(guān)文章

相關(guān)標(biāo)簽