資源描述:
《web信息智能獲取若干關(guān)鍵問題研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、摘要因特網(wǎng)(Internet)為人們開辟了一個(gè)共同的、全新的天地。人們?cè)谶@個(gè)虛擬的世界里,以一種全新的方式進(jìn)行交流。任何人在任何時(shí)間、任何地點(diǎn)都可以通過網(wǎng)絡(luò)發(fā)布任何信息,這使得網(wǎng)絡(luò)成為最重要的信息來源。但是面對(duì)潮水般涌來的電子文獻(xiàn),人們變得無(wú)所適從。所以研究Web信息智能獲取技術(shù)以幫助用戶快速、準(zhǔn)確地定位到自己需要的信息,具有廣泛的應(yīng)用背景和實(shí)用價(jià)值,已經(jīng)成為近年來的研究熱點(diǎn)。基于這樣一個(gè)前提,本文對(duì)Web信息獲取若干關(guān)鍵問題,包括信息采集、信息抽取、事件探測(cè)和追蹤、以及事件來龍去脈等方面,從模型、算法和應(yīng)用二個(gè)層次上進(jìn)行了深入細(xì)致的研
2、究,主要貢獻(xiàn)和創(chuàng)新點(diǎn)包括如卜兒個(gè)方面:(1)通過對(duì)Web信息采集過程及其實(shí)例系統(tǒng)分析,基于主體的基本理論與技術(shù),提出了一種網(wǎng)絡(luò)信息采集的多主體模型,并在實(shí)驗(yàn)室研制的多主體環(huán)境MAGE下完成了建模和實(shí)現(xiàn)。同時(shí)針對(duì)用戶的個(gè)性化信息需求,通過分析研究Web主題頁(yè)面的特點(diǎn),提出三種主題相關(guān)性計(jì)算模型:基于鏈接關(guān)系的URL主題相關(guān)性計(jì)算模型、墓于URL描述信息的主題相關(guān)性計(jì)算模型、基于網(wǎng)頁(yè)內(nèi)容語(yǔ)義的相關(guān)性計(jì)算模型,并且基于三種主題相關(guān)性計(jì)算模型實(shí)現(xiàn)了專題跟蹤采集模式。實(shí)驗(yàn)結(jié)果驗(yàn)證了基于多主體的信息采集模型的靈活性、開放性、高效性、易于實(shí)現(xiàn)性以及二
3、種土題相關(guān)性計(jì)算模型的有效性。(2)通過分析Web噪音數(shù)據(jù)存在的特點(diǎn),提出了三種噪音數(shù)據(jù)判別模型:荃于URL標(biāo)記信息的噪音判別模型、基于噪音數(shù)據(jù)冗余特點(diǎn)的判別模型、基于URL標(biāo)記文本信息嫡的噪音數(shù)據(jù)判別模型,并且基于這三種判別模型實(shí)現(xiàn)了Web噪音數(shù)據(jù)去除算法。實(shí)驗(yàn)結(jié)果驗(yàn)證了三種噪音去除模型的可行性和有效性。Web噪音去除算法可以有效解決數(shù)據(jù)質(zhì)量問題,從而可以提高后續(xù)文本分類、聚類、事件探測(cè)和追蹤、事件來龍去脈的生成等文本挖掘算法的性能。(3)提出了一種基于概率統(tǒng)計(jì)和規(guī)則相結(jié)合的新詞/短語(yǔ)發(fā)現(xiàn)算法。該算法首先對(duì)語(yǔ)料庫(kù)進(jìn)行分詞和詞性標(biāo)注,然
4、后基于“二元語(yǔ)法”統(tǒng)計(jì)模型對(duì)分詞和標(biāo)注后的語(yǔ)料庫(kù)進(jìn)行共現(xiàn)分析得到原始的二元統(tǒng)計(jì)結(jié)果,并且基于統(tǒng)計(jì)公式進(jìn)行選詞,但是結(jié)果不是很理想。為此,通過大量分析漢語(yǔ)組詞規(guī)律,提出了多種選詞規(guī)則:詞性、詞長(zhǎng)、禁用詞等規(guī)則,然后利用這些規(guī)則對(duì)統(tǒng)計(jì)選詞后的結(jié)果進(jìn)行層層過濾,最后只需很少的人工干預(yù)就可得到質(zhì)量很高的新詞/短語(yǔ)。實(shí)驗(yàn)結(jié)果驗(yàn)證了基于概率統(tǒng)計(jì)和規(guī)則方法相結(jié)合的新詞發(fā)現(xiàn)算法的有效性,它有效地結(jié)合了統(tǒng)計(jì)方法速度快和規(guī)則方法質(zhì)量高的特點(diǎn).(4)通過分析網(wǎng)絡(luò)新聞的特點(diǎn),借鑒Single-Pass聚類思想提出了一種基于動(dòng)態(tài)模型的新聞事件探測(cè)和追蹤算法。動(dòng)態(tài)
5、模型可有效地改善新聞事件探測(cè)和追蹤算法的效率,它包括:基于時(shí)間距離的相似度計(jì)算模型、動(dòng)態(tài)閑值設(shè)置和事件模板進(jìn)化思想。為了提高算法執(zhí)行的速度,我們還提出了“類間距離”的思想及其兩種計(jì)算“類間距離”的方法。實(shí)驗(yàn)結(jié)果驗(yàn)證了基于時(shí)間距離的相似度計(jì)算模型的有效性以及引入“類間距離”后算法執(zhí)行的高效性。(5)提出了一種事件來龍去脈生成算法。該算法是基于時(shí)間要素和新穎性計(jì)算模型,將報(bào)導(dǎo)Web信息智能獲取若干關(guān)鍵問題研究:摘要同一事件的所有新聞文檔的摘要進(jìn)行組織,然后根據(jù)粒度要求對(duì)組織結(jié)果進(jìn)行處理最后生成事件來龍去脈。為了保證事件來龍去脈的質(zhì)量,提出了
6、段落主題相關(guān)性判別模型用來保障單篇摘要與事件主題的相關(guān)性:同時(shí)提出了一種新穎性計(jì)算模型用來保證事件來龍去脈信息的非冗余性。借鑒已有的白動(dòng)摘要評(píng)測(cè)方法,提出了一種事件來龍去脈評(píng)測(cè)模型。實(shí)驗(yàn)結(jié)果顯示了主題相關(guān)性判別模型,新穎性計(jì)算模型和事件來龍去脈評(píng)測(cè)模型的有效性。事件來龍去脈為事件信息的概括描述提供了一條思路,是網(wǎng)絡(luò)新聞智能化服務(wù)的有益探索??茖W(xué)研究的最終目的是研究成果能夠在實(shí)際中得到應(yīng)用?;诖四康模覀儗⒈疚牡难芯拷Y(jié)果和實(shí)驗(yàn)室其他同學(xué)的研究成果有機(jī)地結(jié)合起來,實(shí)現(xiàn)了一個(gè)完整的網(wǎng)絡(luò)信息智能獲取和處理系統(tǒng)GHunt。本文給出了系統(tǒng)的功能框
7、架和體系結(jié)構(gòu),提出了GHunt對(duì)信息獲取過程和獲取知識(shí)的元數(shù)據(jù)管理模型,并用實(shí)驗(yàn)結(jié)果驗(yàn)證了系統(tǒng)的性能。GHunt是我們多年來研究成果的結(jié)晶,是研究成果走向產(chǎn)品化的重要環(huán)節(jié),同時(shí)也為后續(xù)研究開發(fā)提供了一個(gè)很好的平臺(tái)和檢驗(yàn)環(huán)境。如果想詳細(xì)了解GHunt系統(tǒng),可訪問地址htp://www.intsci.ac.cn/GHuntWeb/o關(guān)鍵詞:信息獲取,信息抽取,知識(shí)發(fā)現(xiàn),數(shù)據(jù)挖掘,文本挖掘,Web挖掘,信息采集,主題采集,噪音去除,信息檢索,文本分類,聚類,自動(dòng)摘要,多篇摘要,事件探測(cè),事件追蹤。事們來龍去脈,概念語(yǔ)義空間,新聞專題。Rese
8、archontheKeyTechniquesofWebInformationIntelligentAcquisitionJiaZiyan(ComputerSoftware&Theory)DirectedBy