資源描述:
《從Postscript格式文獻中提取數(shù)學公式方法.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、從Postscript格式文獻中提取數(shù)學公式的方法概述從Postscript格式文獻中提取識別數(shù)學公式,是數(shù)學公式識別領(lǐng)域的一個研究方向。主要針對以Word和Latex為生成源的Postscript文檔,提出基于內(nèi)容的數(shù)學公式提取方法。首先重載Postscript語言中的一些相關(guān)命令,先后提取出文檔中的字符及由線段連接得到的圖形。然后根據(jù)字符名稱、字體信息、位置信息對字符進行判斷分析,提取出其中的數(shù)學符號;對提取出的圖形,進行編碼以識別出其對應(yīng)的數(shù)學符號。最后,根據(jù)得到的數(shù)學符號之間的空間位置關(guān)系,借助啟發(fā)式規(guī)則,將數(shù)學符號合并,提取出
2、完整的數(shù)學公式。PS語言PS(Postscript)是Adobe公司在1985年發(fā)明的一種解釋性頁面描述語言,它擁有強大的圖形功能以支持文字、圖形與圖像的顯示和打印,并可在圖文編輯環(huán)境和打印設(shè)備之間傳遞信息,具有設(shè)備無關(guān)性的優(yōu)點。PDF(Portabledocumentformat)是一種基于PS語言的電子文檔格式。PS和PDF文檔的生成和轉(zhuǎn)化(1)編寫PS語言代碼。(2)由PS/PDF虛擬打印機生成。(3)由應(yīng)用程序轉(zhuǎn)化而成。(e.g:AcrobatDistiller;Divps)(4)PS和PDF文檔可以通過ps2pdf/pdf2p
3、s等程序進行相互轉(zhuǎn)化。PS語言特點(1)基于棧的存儲和執(zhí)行,所有命令和操作數(shù)都存儲在棧中。(2)操作數(shù)在前,操作命令在后。(3)支持多種數(shù)據(jù)類型。(4)可自由定義操作命令以擴展功能。(5)程序代碼完全由ASCII字符編寫,可在任意文本編輯工具中編輯。(6)支持頭文件(prolog)和腳本(script)的文件的文件組織結(jié)構(gòu)。頭文件中主要包含腳本中命令和過程的定義。PS語言由解釋器進行解釋執(zhí)行,控制打印機或顯示設(shè)備進行輸出。PS中文本的顯示機制(1)字符串(e.g:(Thisisacat)(