信息自動(dòng)標(biāo)引技術(shù)

信息自動(dòng)標(biāo)引技術(shù)

ID:5540132

大小:177.00 KB

頁數(shù):18頁

時(shí)間:2017-11-14

信息自動(dòng)標(biāo)引技術(shù)_第1頁
信息自動(dòng)標(biāo)引技術(shù)_第2頁
信息自動(dòng)標(biāo)引技術(shù)_第3頁
信息自動(dòng)標(biāo)引技術(shù)_第4頁
信息自動(dòng)標(biāo)引技術(shù)_第5頁
資源描述:

《信息自動(dòng)標(biāo)引技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、信息自動(dòng)標(biāo)引技術(shù)2012年3月27日自動(dòng)標(biāo)引技術(shù)概述自動(dòng)標(biāo)引包括關(guān)鍵詞自動(dòng)提?。ㄓ址Q自動(dòng)抽詞標(biāo)引)與自動(dòng)賦詞標(biāo)引兩種類型。文本挖掘領(lǐng)域:關(guān)鍵詞抽?。↘eywordExtraction)在計(jì)算語言學(xué)領(lǐng)域:術(shù)語自動(dòng)識(shí)別(AutomaticTermRecognition)在信息檢索領(lǐng)域:自動(dòng)標(biāo)引(AutomaticIndexing)自動(dòng)標(biāo)引屬于文本信息抽取的范疇——文本信息抽取是從文本數(shù)據(jù)中抽取人們關(guān)注的特定的信息。關(guān)鍵詞自動(dòng)提取是一種識(shí)別有意義且具有代表性片段或詞匯的自動(dòng)化技術(shù)。術(shù)語、敘詞(主題詞)、標(biāo)引詞包含關(guān)系圖。敘詞正式與非正式術(shù)語標(biāo)引詞全文文摘標(biāo)題關(guān)鍵短語關(guān)鍵詞標(biāo)題詞元詞分類款目主

2、題詞自然語言途徑控制詞表途徑信息描述顆粒度自動(dòng)抽詞標(biāo)引和自動(dòng)賦詞標(biāo)引自動(dòng)抽詞標(biāo)引:指直接從原文中抽取詞或短語作為標(biāo)引詞來描述文獻(xiàn)主題內(nèi)容的過程。自動(dòng)賦詞標(biāo)引:指使用預(yù)先編制的詞表中的詞來代替文本中的詞匯進(jìn)行標(biāo)引的過程。找到主題詞轉(zhuǎn)換主題詞自動(dòng)標(biāo)引的五十年研究歷程1957年開始進(jìn)行自動(dòng)標(biāo)引后開始,到目前為止,自動(dòng)標(biāo)引研究經(jīng)歷了50年的發(fā)展歷程。20世紀(jì)90年代初到90年代末,自動(dòng)標(biāo)引研究漸漸冷卻:全文索引逐漸被人采用,并且基本上能滿足用戶需要;傳統(tǒng)的自動(dòng)標(biāo)引方法的效率達(dá)到極限;網(wǎng)絡(luò)興起之初的沖擊與信息需求環(huán)境的改變。隨著信息量的增加,全文索引的功能越來越難以滿足實(shí)際需求,用戶需要更加精確

3、的結(jié)果?;ヂ?lián)網(wǎng)信息服務(wù):例如自動(dòng)摘要,文檔分類與聚類,文本分析,主題檢索等都要依賴于關(guān)鍵詞自動(dòng)提取的結(jié)果,只有這樣才能有希望從根本上提高信息服務(wù)質(zhì)量。研究歷程1957年,Luhn開始自動(dòng)標(biāo)引研究,首次將計(jì)算機(jī)技術(shù)引入文獻(xiàn)標(biāo)引領(lǐng)域,開創(chuàng)了以詞頻為特征的統(tǒng)計(jì)標(biāo)引方法,其理論基礎(chǔ)是Zipf定律,該方法具有一定的客觀性和合理性,并且簡單易行,在自動(dòng)標(biāo)引中占有重要地位。基于絕對(duì)頻率加權(quán)法到基于相對(duì)頻率加權(quán)法到貝葉斯、遺傳算法、決策樹算法等機(jī)器學(xué)習(xí)方法到基于本體的自動(dòng)標(biāo)引方法到基于語言模型的關(guān)鍵詞提取方法到基于集成學(xué)習(xí)的關(guān)鍵詞抽取。1957年,Luhn開始自動(dòng)標(biāo)引研究,首次將計(jì)算機(jī)技術(shù)引入文獻(xiàn)標(biāo)引

4、領(lǐng)域,開創(chuàng)了以詞頻為特征的統(tǒng)計(jì)標(biāo)引方法,其理論基礎(chǔ)是Zipf定律,該方法具有一定的客觀性和合理性,并且簡單易行,在自動(dòng)標(biāo)引中占有重要地位。1958年,Luhn提出基于絕對(duì)頻率加權(quán)法的自動(dòng)標(biāo)引方法P.B.Baxendale提出從論題句和介詞短語中自動(dòng)提取關(guān)鍵詞1959年,Edmundson與Oswald提出基于相對(duì)頻率加權(quán)法的自動(dòng)標(biāo)引方法1960年,Maron&Kuhns提出基于相關(guān)概率的賦詞標(biāo)引方法1969年,H.P.Edmundson提出了一些新的加權(quán)方法,如提示詞(預(yù)示詞)加權(quán)法、題名加權(quán)法、位置加權(quán)法,并探討了不同加權(quán)法的最優(yōu)組合問題1970年,LoisL.Earl利用句法分析等

5、語言學(xué)方法與詞頻統(tǒng)計(jì)方法相結(jié)合的方法來提取關(guān)鍵詞1973年,Salton等提出基于詞區(qū)分值的自動(dòng)標(biāo)引方法1975年,Salton等將VSM模型用于自動(dòng)標(biāo)引中1983年,Dillon等提出一種基于概念的自動(dòng)標(biāo)引方法,研制了FASIT系統(tǒng);1985年,Devadason提出基于深層結(jié)構(gòu)標(biāo)引方法;1990年,Deerwester&Dumais等提出潛在語義分析標(biāo)引法;1993年,Silva&Milidiu提出基于相信函數(shù)模型的賦詞標(biāo)引方法;1995年,Cohen提出N-Gram分析法的自動(dòng)標(biāo)引方法;1997年,簡立峰提出基于PAT樹的關(guān)鍵詞提取方法;1999年,F(xiàn)rank等人提出基于樸素貝葉

6、斯(NaiveBayes,NB)的關(guān)鍵詞提取方法;1999年,Turney利用遺傳算法和C4.5決策樹算法等機(jī)器學(xué)習(xí)方法進(jìn)行關(guān)鍵短語提取的研究;2001年,Anjewierden&Kabel提出基于本體的自動(dòng)標(biāo)引方法;2003年,Tomokiyo&Hurst提出了基于語言模型的關(guān)鍵詞提取方法;2003年,Hulth利用Bagging算法進(jìn)行了基于集成學(xué)習(xí)的關(guān)鍵詞抽??;2004年,李素建提出基于最大熵模型的關(guān)鍵詞提取方法;2006年,張闊提出基于SVM自動(dòng)標(biāo)引模型;2007年,Ercan,G.&Cicekli,I提出基于詞匯鏈的自動(dòng)標(biāo)引方法。研究路線圖圖書情報(bào)領(lǐng)域語言學(xué)領(lǐng)域人工智能領(lǐng)域詞

7、表資源主題提取知識(shí)學(xué)習(xí)三個(gè)領(lǐng)域圖書情報(bào)領(lǐng)域,主要從資源構(gòu)建角度進(jìn)行研究,為主題標(biāo)引提供了豐富的詞表資源;語言學(xué)領(lǐng)域,從語言分析的角度研究了主題提取的機(jī)制與方法,利用詞法知識(shí)、句法知識(shí)、語義知識(shí)以及篇章知識(shí)進(jìn)行不同層次的主題提取研究;人工智能領(lǐng)域,主要從機(jī)器學(xué)習(xí)角度對(duì)自動(dòng)標(biāo)引進(jìn)行了大量的研究,如利用啟發(fā)式知識(shí)、標(biāo)記數(shù)據(jù)的機(jī)器學(xué)習(xí)、無標(biāo)記的機(jī)器學(xué)習(xí)、集成學(xué)習(xí)等方法的運(yùn)用。兩個(gè)維度自動(dòng)化程度維度:先后經(jīng)歷人工標(biāo)引、機(jī)器輔助標(biāo)引、自動(dòng)標(biāo)引等階段;知識(shí)復(fù)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。