如何將中國知網(wǎng)caj、nh、kdh、pdf格式文件轉(zhuǎn)換成word

如何將中國知網(wǎng)caj、nh、kdh、pdf格式文件轉(zhuǎn)換成word

ID:35215614

大小:16.74 KB

頁數(shù):3頁

時間:2019-03-21

如何將中國知網(wǎng)caj、nh、kdh、pdf格式文件轉(zhuǎn)換成word_第1頁
如何將中國知網(wǎng)caj、nh、kdh、pdf格式文件轉(zhuǎn)換成word_第2頁
如何將中國知網(wǎng)caj、nh、kdh、pdf格式文件轉(zhuǎn)換成word_第3頁
資源描述:

《如何將中國知網(wǎng)caj、nh、kdh、pdf格式文件轉(zhuǎn)換成word》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫

1、PDF文件、caj文件、超星文件轉(zhuǎn)化為Word文檔現(xiàn)在網(wǎng)上許多資料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接編輯。網(wǎng)上提供了許多處理這種情況的軟件,但是它們不是效率低,就是只能提取其中部分文本。本文所述利用微軟提供的OCR識別技術(shù)從CAJ、PDF等文件中提取全部文本的方法,簡便快捷,效率很高。從不同格式的文件中提取文本前需要做好以下準(zhǔn)備工作,安裝CAJViewer5.5瀏覽器軟件和acrobat5專業(yè)版瀏覽器軟件安裝Office2003,并完全安裝Of?鄄fice工具M(jìn)icrosoftOfficeDocumentImaging,

2、然后在打印機(jī)里面會增加MicrosoftOfficeDocumentImageWriter打印機(jī)。MicrosoftOfficeDocumentImage可以非常準(zhǔn)確的全文件識別轉(zhuǎn)化中文、英文、表格。一、CAJ文件的識別(一)首先,從網(wǎng)上下載CAJ格式的資料文件保存到本地硬盤上。(二)然后,啟動CAJViewer瀏覽器程序,并在該程序中打開剛才保存的CAJ格式的文件。瀏覽文件到最后一頁后,不要關(guān)閉CAJ瀏覽器程序。(三)在CAJ瀏覽器程序窗口中,選擇“文件”→“打印”,并選擇打印機(jī)為MicrosoftOfficeDocumentImageWri

3、ter打印機(jī),勾選打印到文件選項和確定打印頁數(shù)。(四)保存打印文件(*.prn)到適當(dāng)位置。等待打印完成后,MicrosoftOfficeDocumentImage自動打開剛才保存的打印文件。3(五)在MicrosoftOfficeDocumentImage窗口中,選擇“頁面”菜單中的“選擇所有頁面”菜單項,然后選擇“工具”菜單中的“使用OCR識別文本”提取文本。(六)選擇“工具”下的“將文本發(fā)送到word”,最后將把整個CAJ文件識別輸出到word文件中。二、PDF文件的識別(一)以文本形式保存的PDF文件,用acrobat5專業(yè)版,識別整個

4、文件。直接打開從網(wǎng)上下載的PDF格式文件另存為RTF文件,或者選擇工具欄上的文字選擇按鈕,然后選擇文字區(qū)域,然后復(fù)制到Word中即可。(二)以圖片形式保存的PDF文件,將PDF文件打印到MicrosoftOfficeDocumentImageWriter打印機(jī),選擇打印形成的文件的保存位置,然后會自動形成一個MDI文件,并且自動用MicrosoftOfficeDocumentImage打開此文件,然后在MicrosoftOfficeDocumentIm?鄄age中選擇“工具”菜單中的“使用OCR識別文本”,識別完成后,在選擇“工具”下的,“將文

5、本發(fā)送到word”,最后將把整個PDF文件識別輸出到word文件中。(三)加密的PDF文件先下載解密軟件,解密后在參照上述步驟1),2)進(jìn)行。(四)繁體PDF文件用上述步驟2)的方法識別到word后,用word中的“工具”→“語言”→“中文繁簡轉(zhuǎn)換”三、超星文件的識別(一)全文件識別打印到MicrosoftOfficeDocumentImage3Writer打印機(jī),然后按上述PDF文件的識別步驟中第二點操作,要注意的是,超星打印功能有點區(qū)別,因為超星是目錄和全文分開的,所以打印時,需要分別把目錄和正文識別到Word中,再合并到一起。打印時要填入

6、打印頁碼從1到最后一頁,不要選擇打印全部。在打印選項中,要將頁面比例設(shè)成真實大小,而不是整寬。注意識別速度比其他格式要慢很多,請保持耐心。一般一本200多頁的書,識別需要幾分鐘的時間。(二)超星文件識別相對比較麻煩一些,如果還有問題,可以先把超星打印成完整的PDF文件,然后再用上述識別PDF文件的方法轉(zhuǎn)成Word。四、后記經(jīng)過試驗,發(fā)現(xiàn)MicrosoftOfficeDocumentImage存在一些不穩(wěn)定的問題,如在用CAJ打印到MicrosoftOfficeDocumentImageWriter時,發(fā)現(xiàn)用CAJ5.5版本比較快,而CAJ5.0

7、有時出現(xiàn)假死機(jī)。頁面顯示大時,轉(zhuǎn)化的識別率較高。如果頁數(shù)多的文件,包括超星,可以分多次轉(zhuǎn)化。由于虛擬打印到MicrosoftOfficeDocumentImageWriter比較慢,并且形成的虛擬文件很大,1本200多頁的書大約是60M,因此會嚴(yán)重影響機(jī)器的運行速度、C盤和內(nèi)存空間。建議配置好的機(jī)器一次轉(zhuǎn)化不要超過200頁,配置差的不要超過100頁,同時打印時在任務(wù)欄中會出現(xiàn)打印機(jī)圖標(biāo),可以雙擊,看到打印任務(wù)的進(jìn)度,避免誤以為死機(jī)。轉(zhuǎn)化完成后請刪除c:windowstemp目錄下的虛擬打印文件,否則C盤很快會被用光3

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。