資源描述:
《從中醫(yī)古籍?dāng)?shù)據(jù)庫建設(shè)看中醫(yī)古籍?dāng)?shù)字化論文》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、從中醫(yī)古籍?dāng)?shù)據(jù)庫建設(shè)看中醫(yī)古籍?dāng)?shù)字化論文.freell格式標(biāo)引,如病證方藥的名稱、索引信息、各級標(biāo)題等,力求實現(xiàn)圖像的全文檢索,避免標(biāo)引過繁或過簡,影響檢索效果。對標(biāo)引后數(shù)據(jù)進(jìn)行審核。1.2.6數(shù)據(jù)發(fā)布將圖像數(shù)據(jù)、元數(shù)據(jù)、標(biāo)引數(shù)據(jù)、文本數(shù)據(jù)合成、入庫,形成中醫(yī)古籍電子書,發(fā)布到閱覽系統(tǒng)后進(jìn)行數(shù)據(jù)庫測試,實現(xiàn)中醫(yī)古籍的數(shù)字化保護(hù)與利用。1.3采用技術(shù)數(shù)據(jù)庫采用Oracle9i,數(shù)據(jù)搜索采用OracleText技術(shù)。整個系統(tǒng)采用基于Java的VC設(shè)計模式,構(gòu)建了高內(nèi)聚、弱藕合、可維護(hù)和可擴展的中醫(yī)古
2、籍?dāng)?shù)字化系統(tǒng)1。2中醫(yī)古籍?dāng)?shù)字化存在的障礙2.1中醫(yī)古籍中生僻漢字的處理漢字從產(chǎn)生至今經(jīng)歷了漫長的演變過程,由此也產(chǎn)生了大量的繁簡字、異體字、古今字、通假字等。中醫(yī)古籍?dāng)?shù)字化過程中遇到的字體障礙有兩個方面,一個是對字體的認(rèn)知障礙,生僻漢字的準(zhǔn)確錄入需要很深的中醫(yī)文獻(xiàn)學(xué)功底,而對于一般的操作人員很難辦到;一個是技術(shù)障礙,Unicode字符集雖然可以解決字庫問題,但是很多軟件不支持,常用的輸入法和搜索引擎不支持大字符集,很多生僻字仍不能正確顯示和檢索。用造字的方法費時費力,而且很難共享和檢索,生僻漢
3、字的處理仍是中醫(yī)古籍?dāng)?shù)字化過程中的一大障礙。2.2全國古籍?dāng)?shù)字化標(biāo)準(zhǔn)尚待建立目前,雖然參與中醫(yī)古籍?dāng)?shù)字化工作的單位較多,但幾乎都處于各自為戰(zhàn)的狀態(tài),所采取的途徑多樣,因此產(chǎn)生的數(shù)字化成果形式多樣,不利于中醫(yī)古籍?dāng)?shù)字化發(fā)展,也不利于中醫(yī)古籍?dāng)?shù)字化資源共享。究其原因,除了缺乏統(tǒng)一的協(xié)調(diào)規(guī)劃外,沒有可參照的行業(yè)標(biāo)準(zhǔn)也是其中重要的原因。2.3中醫(yī)古籍?dāng)?shù)字化軟件有待改進(jìn)軟件功能是否強大對中醫(yī)古籍?dāng)?shù)字化過程和成果具有直接影響,選擇合適的軟件可以起到事半功倍的效果。目前,可供選擇的數(shù)字化加工系統(tǒng)很多,掃描和圖
4、像處理技術(shù)已較為成熟。而OCR軟件對古籍中部分繁體字和不規(guī)則用字的識別效果很差,輔以人工校對則需要大量的時間和人力,如何提高OCR在古籍字符識別上的準(zhǔn)確率是古籍?dāng)?shù)字化面臨的一大難題;數(shù)據(jù)加工軟件在批處理、大字符集、內(nèi)容管理等方面存在缺陷;檢索系統(tǒng)如何根據(jù)中醫(yī)古籍的特點提高檢索速度和精準(zhǔn)度也是值得進(jìn)一步研究的問題。2.4古籍信息的精準(zhǔn)檢索快速、準(zhǔn)確地檢索到所需要的內(nèi)容是古籍?dāng)?shù)字化應(yīng)有的基本功能,也是評價其優(yōu)劣的重要指標(biāo)。全文本的數(shù)字化古籍可以實現(xiàn)任意字符的檢索,但是數(shù)據(jù)準(zhǔn)確度小、檢索噪音大的問題尚
5、待進(jìn)一步解決;圖像版可以保證信息的準(zhǔn)確無誤,但在全文檢索上存在一定缺陷,通過對有效檢索點的標(biāo)引可以在一定程度上彌補上述不足,但仍不可避免地要遺漏某些信息。由于中醫(yī)古籍中病、證、方、藥的同名異義、異名同義現(xiàn)象普遍存在,使內(nèi)容的精確檢索更加困難。如何建立后控詞表,實現(xiàn)關(guān)聯(lián)檢索也是中醫(yī)古籍?dāng)?shù)字化面臨的一個難題。2.5研究支持功能尚不完善研究支持功能是指能夠提供有關(guān)古籍內(nèi)容本身科學(xué)、準(zhǔn)確的統(tǒng)計與計量信息,提供與古籍內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具,這些信息、數(shù)據(jù)或工具都是古籍內(nèi)容的增值或補充2。中醫(yī)古籍具有
6、極高的研究價值,其研究支持功能應(yīng)更強大。除常用的中醫(yī)古籍研究輔助工具外,還應(yīng)具有不同版本和相關(guān)數(shù)據(jù)的鏈接。對病、證、方、藥的參考數(shù)據(jù)進(jìn)行匯聚,對生僻字進(jìn)行注解,建立學(xué)術(shù)論壇等,都是研究支持功能的重要組成部分,而目前的中醫(yī)古籍?dāng)?shù)字化成果在此方面尚顯薄弱。2.6深度開發(fā)不夠中醫(yī)古籍?dāng)?shù)字化不應(yīng)僅僅滿足于對古籍的閱覽和查詢。古代中醫(yī)藥文獻(xiàn)是一個知識寶庫,在數(shù)字化的基礎(chǔ)上挖掘古籍中的寶貴知識財富,實現(xiàn)知識發(fā)現(xiàn)和知識拓展,更好地為中醫(yī)藥事業(yè)的發(fā)展和人類健康服務(wù)是中醫(yī)古籍?dāng)?shù)字化的最高目標(biāo)。3中醫(yī)古籍?dāng)?shù)字化建設(shè)
7、的建議3.1圖文關(guān)聯(lián)是實現(xiàn)中醫(yī)古籍?dāng)?shù)字化的較好方式圖文關(guān)聯(lián)是將古籍文獻(xiàn)分別存儲為圖像、文本兩種形式。圖文關(guān)聯(lián)是將文本對應(yīng)放在與之相匹配的圖像之下,并建立索引關(guān)系,實現(xiàn)圖文對照。此種方式可以彌補“圖像”在檢索和內(nèi)容編輯上的不足,又可以校對“文本”的準(zhǔn)確性,使讀者既能看到原書原貌的古籍文獻(xiàn),又可以快速準(zhǔn)確地查到所需要的內(nèi)容。尤其對于研究者,對原始版本信息和文本的準(zhǔn)確性要求更高,而通過圖文對照便可很好地解決這一問題。3.2中醫(yī)文獻(xiàn)與計算機專業(yè)人員的通力協(xié)作中醫(yī)古籍?dāng)?shù)字化是古典文化與現(xiàn)代技術(shù)的結(jié)合,需要
8、有精通中醫(yī)古籍整理、目錄學(xué)和版本學(xué)知識的人才與掌握計算機網(wǎng)絡(luò)知識和多媒體技術(shù)的專業(yè)人員通力協(xié)作。中醫(yī)古籍?dāng)?shù)字化雖屬新的古籍整理方式,但仍歸于中醫(yī)文獻(xiàn)整理范疇,離不開文獻(xiàn)整理的知識。在整個過程中,中醫(yī)知識不可或缺;同時,在數(shù)據(jù)處理、數(shù)據(jù)庫設(shè)計、應(yīng)用平臺構(gòu)建等方面都需要計算機專業(yè)人員參與。中醫(yī)文獻(xiàn)專家的需求和建議能指導(dǎo)計算機技術(shù)人員對整個系統(tǒng)的設(shè)計,進(jìn)而改善中醫(yī)古籍?dāng)?shù)字化系統(tǒng)的功能。上述兩方面人員的深入合作是創(chuàng)建理想中醫(yī)古籍?dāng)?shù)字化模式的前提。3.3重視統(tǒng)一標(biāo)準(zhǔn)的研究和制定建立完整的中醫(yī)古籍資源庫需要