如何將掃描圖片上文字變成word文檔

如何將掃描圖片上文字變成word文檔

ID:20407066

大?。?0.00 KB

頁數(shù):3頁

時間:2018-10-10

如何將掃描圖片上文字變成word文檔_第1頁
如何將掃描圖片上文字變成word文檔_第2頁
如何將掃描圖片上文字變成word文檔_第3頁
資源描述:

《如何將掃描圖片上文字變成word文檔》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、Ocr技術(shù)如何將掃描圖片上的文字變成word文檔以前好像弄過,記不太清.我掃下來的圖格式是jpg,然后雙擊打開,打開后點擊"編輯"——“全選”(也可以直接按住鼠標(biāo)左鍵選出你要的部分圖和字)——復(fù)制——打開一個word文檔——粘貼(出來的既有圖又有字)——刪去圖就只有字了(如果旁邊出現(xiàn)一個智能標(biāo)記,還可以將鼠標(biāo)移到標(biāo)記上點一下,看見出現(xiàn)幾個選擇,選“僅保留文本”就行)。還弄過從網(wǎng)頁上復(fù)制的,不過前提好像要該網(wǎng)頁允許復(fù)制內(nèi)容才行,那更簡單一點,直接用鼠標(biāo)選出要復(fù)制的東東,再建一個文本文檔,先粘貼在文本文檔上,再建一個word文檔,再從文本文檔上復(fù)制粘貼到wor

2、d上就行了,下來的好像直接就是只有字了。好像當(dāng)時就是這樣的,具體的你可以試一下。掃描文字,結(jié)果以圖片格式(.bmp)存入電腦。然后使用ORC識別系統(tǒng)進行轉(zhuǎn)換,最終用WORD進行修改編輯。下面教你如何使用ORC:OCR是英文OpticalCharacterRecognition的縮寫,翻譯成中文就是通過光學(xué)技術(shù)對文字進行識別的意思,是自動識別技術(shù)研究和應(yīng)用領(lǐng)域中的一個重要方面。它是一種能夠?qū)⑽淖肿詣幼R別錄入到電腦中的軟件技術(shù),是與掃描儀配套的主要軟件,屬于非鍵盤輸入范疇,需要圖像輸入設(shè)備主要是掃描儀相配合?,F(xiàn)在OCR主要是指文字識別軟件,在1996年清華紫光

3、開始搭配中文識別軟件之前,市場上的掃描儀和OCR軟件一直是分開銷售的,專業(yè)的OCR軟件讜縲┦焙蚵艫帽壬枰腔掛蟆K孀派枰欠直媛實奶嶸琌CR軟件也在不斷升級,掃描儀廠商現(xiàn)在已把專業(yè)的OCR軟件搭配自己生產(chǎn)的掃描儀出售。OCR技術(shù)的迅速發(fā)展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和OCR技術(shù)的日臻完善,OCR己成為絕大多數(shù)掃描儀用戶的得力助手二、OCR的基本原理簡單地說,OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計算機,然后由計算機取出每個文字的圖像,并將其轉(zhuǎn)換成漢字的編碼。其具體工作過程是,掃描儀將漢字文稿通過電荷耦合器件CC

4、D將文稿的光信號轉(zhuǎn)換為電信號,經(jīng)過模擬/數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號傳輸給計算機。計算機接受的是文稿的數(shù)字圖像,其圖像上的漢字可能是印刷漢字,也可能是手寫漢字,然后對這些圖像中的漢字進行識別。對于印刷體字符,首先采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點陣的圖像文件,再通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,以便文字處理軟件的進一步加工。其中文字識別是OCR的重要技術(shù)。1.OCR識別的兩種方式與其它信息數(shù)據(jù)一樣,在計算機中所有掃描儀捕捉到的圖文信息都是用0、1這兩個數(shù)字來記錄和進行識別的,所有信息都只是以0、1保存的一串串點或樣本點。OCR識別程序識別頁面上的

5、字符信息,主要通過單元模式匹配法和特征提取法兩種方式進行字符識別。單元模式匹配識別法(PatternMatching)是將每一個字符與保存有標(biāo)準(zhǔn)字體和字號位圖的文件進行不嚴(yán)格的比較。如果應(yīng)用程序中有一個已保存字符的大數(shù)據(jù)庫,則應(yīng)用程序會選取合適的字符進行正確的匹配。軟件必須使用一些處理技術(shù),找出最相似的匹配,通常是不斷試驗同一個字符的不同版本來比較。有些軟件可以掃描一頁文本,并鑒別出定義新字體的每一個字符。有些軟件則使用自己的識別技術(shù),盡其所能鑒別頁面上的字符,然后將不可識別的字符進行人工選擇或直接錄入。特征提取識別法(FeatureExtraction)

6、是將每個字符分解為很多個不同的字符特征,包括斜線、水平線和曲線等。然后,又將這些特征與理解(識別)的字符進行匹配。舉個簡單的例子,應(yīng)用程序識別到兩條水平橫線,它就會“認(rèn)為”該字符可能是“二”。特征提取法的優(yōu)點是可以識別多種字體,例如中文書法體就是采用特征提取法實現(xiàn)字符識別的。3Ocr技術(shù)多數(shù)OCR應(yīng)用軟件都加入了語法智能檢查功能,這種功能進一步提高了識別率。它主要通過上下文檢查法實現(xiàn)拼寫和語法的糾正,在文字識別時,OCR應(yīng)用程序會做多次的上下文銜接性檢查,根據(jù)程序中已經(jīng)存在的詞組、固定的用詞順序,對應(yīng)的檢查字符串的用詞字。比較高級的應(yīng)用軟件會自動用它“認(rèn)為

7、”正確的詞語替換錯誤詞語,糾正語句意思。2.文字識別的幾個步驟文字識別包括以下幾個步驟:圖文輸入、預(yù)處理、單字識別和后處理等。(1)圖文輸入是指通過輸入設(shè)備將文檔輸入到計算機中,也就是實現(xiàn)原稿的數(shù)字化?,F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測的傾斜角小,在進行傾斜校正后,文字圖像的變形就小。這些簡單的操作,會使系統(tǒng)的識別正確率有所提高。反之,由于掃描設(shè)置不當(dāng),文字的斷筆過多可能會分檢出半個文字的圖像。文字?jǐn)?/p>

8、筆和筆畫粘連會造成有些特征丟失,在將其特征與特征庫比較時,會使其特

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。