資源描述:
《基于web的文獻(xiàn)信息服務(wù)系統(tǒng)的研究與開發(fā)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、查查叁堂堡主堂堡笙莖———第l章文獻(xiàn)信息的處理與服務(wù)技術(shù)1.1文獻(xiàn)信息資源的處理技術(shù)在文獻(xiàn)信息資源自動(dòng)處理領(lǐng)域一},,主要的研究重點(diǎn)在自動(dòng)標(biāo)引、自動(dòng)分類、機(jī)器翻譯。(I)自動(dòng)標(biāo)引技術(shù):從信息數(shù)據(jù)的內(nèi)容rfl,利用算法自動(dòng)抽取能夠反映文獻(xiàn)主題的數(shù)掘,組成標(biāo)引字典。常用的標(biāo)引技術(shù)有詞頻統(tǒng)計(jì)、位置加權(quán)等。西文信息的標(biāo)引技術(shù)已經(jīng)十分成熟,而巾文信息的標(biāo)引處理卻遇到最大障礙,即漢語詞組的自動(dòng)分詞問題,這是由于漢語語言本身的結(jié)構(gòu)特點(diǎn)造成的,目前漢語自動(dòng)分詞技術(shù)有:詞典匹配分詞法、切分標(biāo)記分詞法、單漢字標(biāo)引、智能分詞法。(2)自動(dòng)分類技術(shù):根據(jù)信息數(shù)據(jù)的內(nèi)容,利用分析算法自動(dòng)為信
2、息資源分配分類號。主要研究分為兩類:詞表法分類是通過數(shù)據(jù)信息分析處理,抽取反映信息內(nèi)容的主題詞或關(guān)鍵詞,與主題分類詞表進(jìn)行匹配,從而得到文獻(xiàn)信息分類號;聚類法分類足直接對不同文獻(xiàn)信息數(shù)據(jù)進(jìn)行相似性比較,將村11以度商的文獻(xiàn)組成一類,同時(shí)自動(dòng)分配同一的分類號碼,這種分類的準(zhǔn)確程度取決于棚似度粒皮的取值大小。(3)機(jī)器翻譯:是一種涉及語言+學(xué)、數(shù)學(xué)、自動(dòng)化、訃算機(jī)等學(xué)利的一門邊緣學(xué)科,它是利用計(jì)算機(jī),實(shí)現(xiàn)將一種語言信息資源自動(dòng)翻澤成另一種語言的信息資源。1.2信息資源檢索服務(wù)技術(shù)(1)稚爾邏輯檢索:將由檢索詞和靠爾運(yùn)算符組成檢索表達(dá)式,反映檢索詞之問的邏輯關(guān)系,再通過一
3、定檢索算法(如順排檢索、倒排檢索),采用精確匹配方式,進(jìn)行信息檢索服務(wù)。-(2)加權(quán)檢索:根據(jù)用戶檢索需求,確定檢索詞的重要程度,給每個(gè)檢索詞附加一個(gè)權(quán)數(shù),并給出檢索命中界限閥值(Threshold),用來限制輸出結(jié)果。加權(quán)檢索方法有詞加權(quán)、詞頻加權(quán)、標(biāo)引加權(quán)、法定數(shù)(quorum)加權(quán)。(3)模糊檢索:即截詞檢索,是指將帶有截詞算符的詞干或不完整詞形作為檢索詞,采用精確匹配、任意截?cái)嗷蛴邢藿財(cái)喾椒?,進(jìn)行信息檢索服務(wù)。(4)全文檢索:是用于全文檢索系統(tǒng)的新型檢索技術(shù)。它不需要對信息資源進(jìn)查查盔堂堡:!:堂堡鯊蘭——行標(biāo)引,只是在全文中進(jìn)行字符串匹配檢索,它實(shí)質(zhì)上是基
4、于位置的檢索。常用的技術(shù)有全文數(shù)據(jù)庫倒排文檔結(jié)構(gòu)(包括倒排索引)、建立停用詞表、優(yōu)化數(shù)據(jù)物理存儲(chǔ)分和、優(yōu)化查詢算法等。(5)超文本(Web)檢索:足用于Web網(wǎng)頁中多元信息(文字、圖形、圖像、聲音、動(dòng)畫)的新型檢索技術(shù)。超文本(Web)檢索系統(tǒng)中的文檔組織結(jié)構(gòu)足非線性的,以網(wǎng)頁作為檢索單元,信息單元之問呈現(xiàn)層次關(guān)系。1.3信息資源獲取服務(wù)技術(shù)(1)聯(lián)機(jī)檢索服務(wù):通過電話撥號通信線路,直接連接進(jìn)入大型聯(lián)機(jī)檢索系統(tǒng),調(diào)用檢索界面,輸入相應(yīng)檢索策略,執(zhí)行實(shí)時(shí)檢索操作。如Dialog、STN等。(2)Web信息服務(wù):訪問Web版信息檢索服務(wù)系統(tǒng),在檢索界面中輸入相應(yīng)檢索策略
5、,執(zhí)行實(shí)時(shí)檢索操作。如111、PQDD、SCl、SDOS等。(3)專業(yè)化信息服務(wù):專業(yè)信息人員接受用戶委托,根據(jù)用戶所提供的信息需求,提供相應(yīng)的文獻(xiàn)信息服務(wù)。1.4Internet技術(shù)與信息服務(wù)Internet提供各種各樣的技術(shù)和服務(wù),其11IWorldWideweb是Internet的最有活力、應(yīng)用最廣泛、增長潛力最大的主流服務(wù)。作為一個(gè)術(shù)語,“Web信息”包含了月】戶所見到的Web頁面內(nèi)容和“不可視”的其他多種信息資源內(nèi)容;對現(xiàn)代信息服務(wù)而言,Web信息是主要的可利用信息來源。所以說]nternet技術(shù)為現(xiàn)代信息服務(wù)帶來了一個(gè)嶄新的服務(wù)空間。1.5數(shù)字圖書館1.
6、5.1概念全球社會(huì)資源和信息資源的數(shù)字化程度將成為本世紀(jì)中衡量一個(gè)固家現(xiàn)代化發(fā)展進(jìn)程的主要標(biāo)志之一。作為信息資源的匯集地和社會(huì)資源的重要組成部分,圖書館一直是人類與信息資源之問的溝通橋梁。(1)數(shù)字圖書館的定義從信息科學(xué)角度看,數(shù)字圖書館就是一個(gè)現(xiàn)代信息服務(wù)系統(tǒng),它以數(shù)字化文獻(xiàn)信息資源為基礎(chǔ)、以先進(jìn)的信息技術(shù)為手段、提供高效的信息服務(wù)。數(shù)字圖書館的建設(shè)主要包括兩大方面:1)利用現(xiàn)有的先進(jìn)信息技術(shù),對傳統(tǒng)圖書館的多查壹叁堂堡主蘭絲堡壅——種媒體資源,進(jìn)行數(shù)字化處理和存儲(chǔ),構(gòu)建數(shù)字圖書館基礎(chǔ)信息資源庫,形成虛擬化的共享信息資源;2)依托計(jì)算機(jī)網(wǎng)絡(luò),構(gòu)建基于Web的現(xiàn)代信
7、息服務(wù)體系,建立世界范圍內(nèi)圖書館或信息服務(wù)系統(tǒng)之間的虛擬連接,實(shí)現(xiàn)全球化信息資源共享模式,為快速、準(zhǔn)確地獲取信息資源提供便捷的途徑、商效的手段和網(wǎng)絡(luò)化的信息服務(wù)。(2)體系結(jié)構(gòu)日l訂數(shù)字圖郫館的體系結(jié)構(gòu)有兩種形式:一足基于Web的三層B/s結(jié)構(gòu),即山客戶端、Web服務(wù)器、信息資源數(shù)據(jù)庫及管理系統(tǒng)四部分組成;二是“面向?qū)ο?、分布式的網(wǎng)絡(luò)體系結(jié)構(gòu)”,它由用戶接口、對象庫、調(diào)度系統(tǒng)和查詢系統(tǒng)等組成。(3)研究領(lǐng)域數(shù)字圖書館的主要研究領(lǐng)域足信息數(shù)字化處理技術(shù)、信息資源庫建設(shè)和信息服務(wù)技術(shù)。所以說,現(xiàn)代信息服務(wù)的目標(biāo)足:依托著信息資源庫的建設(shè)成果,綜合利用信息數(shù)字化處理技