資源描述:
《如何將pdf文件轉(zhuǎn)換為文本文件(txtword)匯總》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、如何將PDF文件轉(zhuǎn)換為文本文件(txt/word)匯總1.在pc中打開PDF-—>打印,選擇Microsoftofficedocumentimagewriter—>保存文件.mdi格式,打開文件->工具->使用ORC識別文本即可2.(適合大量文本,少量的不如自己打字了)將圖片中的文字轉(zhuǎn)換為TXT文本。首先保證你的機(jī)器上裝有PHOTOSHOP,再從網(wǎng)上下一個清華紫光的OCR識別軟件安裝好。打開PS,從文件-導(dǎo)入-PDF圖像找到你需要的處理的文件全部導(dǎo)入后,將需要處理的頁面保存為BMP或者TIF文件后。打開OCR識別軟件,將圖片調(diào)入后進(jìn)行識別,識別出來后保
2、存就可以了,程序自動將其保存為TXT文件。有一點(diǎn)需要說明:兩個軟件處理的時候會將每一個頁面保存為每一個文件。如果文檔為英文且字體比較小的話識別時會有些錯誤。比如會將i識別為l之類,在識別后你可以對照修改再保存。3.現(xiàn)在有很多“PDF”轉(zhuǎn)換為“TXT”的軟件,不是對中文支持不好,就是共享軟件,需要注冊才可以使用全部功能。其實(shí)并不需要第三方軟件,用百度的硬盤搜索,也可以免費(fèi)將PDF轉(zhuǎn)換為文本文件。第一步:首先進(jìn)入百度硬盤搜索的主界面,在文檔下選擇PDF(免費(fèi)下載硬盤搜索程序:http://disk.baidu.com/) 第二步:接下來輸入文件所在的目錄,
3、點(diǎn)擊“在結(jié)果中查找”按鈕,會在下面顯示出所要尋找的PDF文件第三步:在要進(jìn)行轉(zhuǎn)換的PDF文件右邊點(diǎn)擊“快照”按鈕,就會以純文本的形式將文件內(nèi)容顯示出來。需要做的就是將文件內(nèi)容復(fù)制,并且粘貼到記事本中保存,這樣就可以將PDF的內(nèi)容轉(zhuǎn)換成TXT純文本了4. Office2003實(shí)現(xiàn)PDF文件轉(zhuǎn)Word文檔經(jīng)過嘗試,發(fā)現(xiàn)可以利用Office2003中的MicrosoftOfficeDocumentImaging組件來實(shí)現(xiàn)PDF轉(zhuǎn)WORD文檔,也就是說利用WORD來完成該任務(wù)。方法如下:用AdobeReader打開想轉(zhuǎn)換的PDF文件,接下來選擇“文件→打印”菜
4、單,在打開的“打印”窗口中將“打印機(jī)”欄中的名稱設(shè)置為“MicrosoftOfficeDocumentImageWriter”,確認(rèn)后將該P(yáng)DF文件輸出為MDI格式的虛擬打印文件。注:如果沒有找到“MicrosoftOfficeDocumentImageWriter”項(xiàng),使用Office2003安裝光盤中的“添加/刪除組件”更新安裝該組件,選中“Office工具M(jìn)icrosoftDRAW轉(zhuǎn)換器”。然后,運(yùn)行“MicrosoftOfficeDocumentImaging”,并利用它來打開剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,在彈出
5、的窗口中選中“在輸出時保持圖片版式不變”,確認(rèn)后系統(tǒng)會提示“必須在執(zhí)行此操作前重新運(yùn)行OCR。這可能需要一些時間”,不管它,確認(rèn)即可。注:對PDF轉(zhuǎn)DOC的識別率不是特別完美,轉(zhuǎn)換后會丟失原來的排版格式,所以轉(zhuǎn)換后還需要手工對其進(jìn)行排版和校對工作。以上僅在word2003中可用,其他版本沒有MicrosoftOfficeDocumentImageWriter。5.下載PDF2TXT軟件轉(zhuǎn)換器程序PDF2TXTv3.1漢化版,下載地址:http://www.newasp.net/soft/dl008198.html(內(nèi)附漢化補(bǔ)?。⑽脑孳浖┢平庾源a
6、:71C5I$$@GQTKXO29補(bǔ): 1、Doc格式文件轉(zhuǎn)換為Pdf文件 Doc文件向Pdf格式轉(zhuǎn)換還是比較容易的,主要通過Adobe公司提供的AdobeDistiller虛擬服務(wù)器實(shí)現(xiàn)的,在安裝了AdobeAcrobat完全版后,在Windows系統(tǒng)的打印機(jī)任務(wù)中就會添加一個AcrobatDistiller打印機(jī),如圖1所示:圖1 現(xiàn)在比較流行的DoctoPdf類軟件如Pdfprint等的機(jī)理都是調(diào)用AdobeDistiller打印機(jī)實(shí)現(xiàn)的,如果想把一個Doc文件轉(zhuǎn)換為Pdf文件,只要用OfficeWord打開該Doc文件,然后在“文件”—>
7、“打印”中選擇AcrobatDistiller打印機(jī)即可,如圖2所示:圖2這樣,就可以很輕松的將Doc格式的文件轉(zhuǎn)換為Pdf文件。 2、Pdf格式文件轉(zhuǎn)換為Doc文件 Pdf格式文件向Doc文件轉(zhuǎn)換相對比較難,因?yàn)镻df格式與Doc格式解碼格式不同,在Pdf下的回車符、換行符以及相關(guān)的圖片格式無法直接轉(zhuǎn)換為Doc文件,筆者之前一直使用復(fù)制文本,然后粘貼到Word中實(shí)現(xiàn)Pdf向Doc格式的轉(zhuǎn)換。 今天突然發(fā)現(xiàn)了一款非常好的Pdf向Doc格式轉(zhuǎn)換的工具,ScanSoftPDFConverterforMicrosoftWordv1.0。它是由ScanS
8、oft公司同微軟共同組隊(duì)開發(fā)了一個全新的Office2003插件。該插件可以幫助你通過Word