資源描述:
《從中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)建設(shè)看中醫(yī)古籍?dāng)?shù)字化》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、從中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)建設(shè)看中醫(yī)古籍?dāng)?shù)字化:李兵,劉國(guó)正,符永馳,裘儉,張偉娜【關(guān)鍵詞】中醫(yī)古籍;數(shù)字化;古籍?dāng)?shù)據(jù)庫(kù)中醫(yī)古籍是中醫(yī)藥學(xué)傳承和發(fā)展的載體,既具有重要的學(xué)術(shù)價(jià)值,又具有相當(dāng)?shù)奈奈飪r(jià)值。最新出版的《中國(guó)中醫(yī)古籍總目》共收錄中醫(yī)古籍13455種,基本上反映了當(dāng)前我國(guó)中醫(yī)古籍的存世和分布現(xiàn)狀。如何在保護(hù)的基礎(chǔ)上更好地利用這些珍貴的中醫(yī)藥資源是中醫(yī)藥研究人員的歷史使命。通過(guò)數(shù)字化處理,既實(shí)現(xiàn)了對(duì)中醫(yī)古籍的永久保存,又可為方便、快捷、無(wú)損地開(kāi)發(fā)和利用這些寶貴資源搭建起研究平臺(tái)。中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所自2002年始,對(duì)館藏中
2、醫(yī)典籍進(jìn)行了數(shù)字化再生性保護(hù)和利用研究,目前,已建成“中醫(yī)藥珍善本古籍多媒體數(shù)據(jù)庫(kù)”、“中醫(yī)藥古籍資源數(shù)據(jù)庫(kù)”,實(shí)現(xiàn)了部分中醫(yī)古籍的數(shù)字化保護(hù)與利用?! ?“中醫(yī)藥古籍資源數(shù)據(jù)庫(kù)”建設(shè) 1.1研究背景中醫(yī)古籍是中華民族幾千年來(lái)防病治病寶貴經(jīng)驗(yàn)的結(jié)晶,是中華民族的優(yōu)秀文化遺產(chǎn)。中醫(yī)藥古籍文獻(xiàn)中所收載的理法方藥、養(yǎng)生保健知識(shí)是取之不盡、用之不竭的寶庫(kù),具有極高的實(shí)用價(jià)值。古籍屬于不可再生的文化資源,近年來(lái),盡管我國(guó)加大了對(duì)于古籍的保護(hù)力度,使古籍的保存環(huán)境得到改善,但隨著歷史的推進(jìn),古籍還是會(huì)悄無(wú)聲息、不可避免地出現(xiàn)損毀,乃至消
3、亡。中醫(yī)古籍整體保存環(huán)境較差,各藏館保存條件良莠不一,中醫(yī)古籍保護(hù)和傳承令人擔(dān)憂(yōu)。鑒于此,用數(shù)字化手段對(duì)中醫(yī)古籍進(jìn)行處理,既可以使中醫(yī)古籍的原圖原貌永久保存,又可以通過(guò)數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)廣泛利用,避免閱讀原書(shū)對(duì)古籍造成的損傷。因此,中醫(yī)古籍?dāng)?shù)字化是中醫(yī)古籍保護(hù)和利用的理想方式。中國(guó)中醫(yī)科學(xué)院圖書(shū)館所藏中醫(yī)古籍占存世中醫(yī)古籍?dāng)?shù)量的一半以上,其中中醫(yī)珍善本古籍就達(dá)2萬(wàn)余冊(cè)。中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所利用該資源優(yōu)勢(shì),構(gòu)建了“中醫(yī)藥古籍資源數(shù)據(jù)庫(kù)”,現(xiàn)已收錄1500種中醫(yī)古籍的元數(shù)據(jù)信息和其中的850種中醫(yī)古籍的原文圖像,已經(jīng)可以通過(guò)中
4、醫(yī)古籍閱覽系統(tǒng)實(shí)現(xiàn)電子閱覽,為中醫(yī)古籍?dāng)?shù)字化保護(hù)和利用開(kāi)辟了途徑?! ?.2“中醫(yī)藥古籍資源數(shù)據(jù)庫(kù)”建庫(kù)流程 1.2.1中醫(yī)古籍書(shū)目的選取 根據(jù)中醫(yī)古籍的年代、版本價(jià)值、文獻(xiàn)價(jià)值、保護(hù)等級(jí)等確定收錄標(biāo)準(zhǔn),對(duì)破損嚴(yán)重的珍善本古籍優(yōu)先進(jìn)行數(shù)字化處理。 1.2.2數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì) 考慮到對(duì)古籍的再生性保護(hù),我們以古籍原文圖像作為主要數(shù)據(jù),部分古籍實(shí)現(xiàn)全文本化。由于圖像要求的存儲(chǔ)空間較大,我們采用支持多媒體數(shù)據(jù)的oracle9i數(shù)據(jù)庫(kù)系統(tǒng),并對(duì)系統(tǒng)結(jié)構(gòu)進(jìn)行優(yōu)化,基本解決了運(yùn)行速度問(wèn)題。 1.2.3元數(shù)據(jù)加工 根據(jù)古籍文獻(xiàn)的特
5、點(diǎn),按中醫(yī)古籍的分類(lèi)、題名、責(zé)任者、出版年代、出版者、版本項(xiàng)、版式、卷數(shù)、館藏地、書(shū)籍特征、保存狀況、復(fù)制狀況等進(jìn)行著錄,著錄規(guī)則參見(jiàn)“我國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)規(guī)范建設(shè)”項(xiàng)目研究成果——古籍元數(shù)據(jù)著錄規(guī)則(CDLS-S05-014),對(duì)收錄古籍撰寫(xiě)提要,力求建立完整的古籍書(shū)目數(shù)據(jù)庫(kù)?! ?.2.4數(shù)字化處理 包括古籍的掃描、質(zhì)檢、圖像處理、文本錄入等。為實(shí)現(xiàn)保存和利用雙重目的,掃描時(shí)采用全彩模式,300dpi,JPEG格式保存,按頁(yè)碼順序重命名,對(duì)掃描后圖像的順序、偏斜度、完整性、清晰度進(jìn)行檢查,并進(jìn)行糾偏、去污、裁邊等處理。對(duì)部
6、分古籍進(jìn)行文本錄入,實(shí)現(xiàn)圖文對(duì)照?! ?.2.5古籍原文圖像標(biāo)引 采用自主開(kāi)發(fā)的古籍編輯器對(duì)文中有效的檢索點(diǎn)進(jìn)行抽取和xml格式標(biāo)引,如病證方藥的名稱(chēng)、索引信息、各級(jí)標(biāo)題等,力求實(shí)現(xiàn)圖像的全文檢索,避免標(biāo)引過(guò)繁或過(guò)簡(jiǎn),影響檢索效果。對(duì)標(biāo)引后數(shù)據(jù)進(jìn)行審核?! ?.2.6數(shù)據(jù)發(fā)布 將圖像數(shù)據(jù)、元數(shù)據(jù)、標(biāo)引數(shù)據(jù)、文本數(shù)據(jù)合成、入庫(kù),形成中醫(yī)古籍電子書(shū),發(fā)布到閱覽系統(tǒng)后進(jìn)行數(shù)據(jù)庫(kù)測(cè)試,實(shí)現(xiàn)中醫(yī)古籍的數(shù)字化保護(hù)與利用?! ?.3采用技術(shù)數(shù)據(jù)庫(kù)采用Oracle9i,數(shù)據(jù)搜索采用OracleText技術(shù)。整個(gè)系統(tǒng)采用基于Java的VC設(shè)
7、計(jì)模式,構(gòu)建了高內(nèi)聚、弱藕合、可維護(hù)和可擴(kuò)展的中醫(yī)古籍?dāng)?shù)字化系統(tǒng)[1]?! ?中醫(yī)古籍?dāng)?shù)字化存在的障礙 2.1中醫(yī)古籍中生僻漢字的處理漢字從產(chǎn)生至今經(jīng)歷了漫長(zhǎng)的演變過(guò)程,由此也產(chǎn)生了大量的繁簡(jiǎn)字、異體字、古今字、通假字等。中醫(yī)古籍?dāng)?shù)字化過(guò)程中遇到的字體障礙有兩個(gè)方面,一個(gè)是對(duì)字體的認(rèn)知障礙,生僻漢字的準(zhǔn)確錄入需要很深的中醫(yī)文獻(xiàn)學(xué)功底,而對(duì)于一般的操作人員很難辦到;一個(gè)是技術(shù)障礙,Unicode字符集雖然可以解決字庫(kù)問(wèn)題,但是很多軟件不支持,常用的輸入法和搜索引擎不支持大字符集,很多生僻字仍不能正確顯示和檢索。用造字的方法費(fèi)時(shí)
8、費(fèi)力,而且很難共享和檢索,生僻漢字的處理仍是中醫(yī)古籍?dāng)?shù)字化過(guò)程中的一大障礙?! ?.2全國(guó)古籍?dāng)?shù)字化標(biāo)準(zhǔn)尚待建立目前,雖然參與中醫(yī)古籍?dāng)?shù)字化工作的單位較多,但幾乎都處于各自為戰(zhàn)的狀態(tài),所采取的途徑多樣,因此產(chǎn)生的數(shù)字化成果形式多樣,不利于中醫(yī)古籍?dāng)?shù)字化發(fā)展,也不利于中醫(yī)古籍?dāng)?shù)