web信息智能獲取若干關鍵問題研究

web信息智能獲取若干關鍵問題研究

ID:33289677

大?。?.86 MB

頁數(shù):131頁

時間:2019-02-23

web信息智能獲取若干關鍵問題研究_第1頁
web信息智能獲取若干關鍵問題研究_第2頁
web信息智能獲取若干關鍵問題研究_第3頁
web信息智能獲取若干關鍵問題研究_第4頁
web信息智能獲取若干關鍵問題研究_第5頁
資源描述:

《web信息智能獲取若干關鍵問題研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、摘要因特網(Internet)為人們開辟了一個共同的、全新的天地。人們在這個虛擬的世界里,以一種全新的方式進行交流。任何人在任何時間、任何地點都可以通過網絡發(fā)布任何信息,這使得網絡成為最重要的信息來源。但是面對潮水般涌來的電子文獻,人們變得無所適從。所以研究Web信息智能獲取技術以幫助用戶快速、準確地定位到自己需要的信息,具有廣泛的應用背景和實用價值,已經成為近年來的研究熱點?;谶@樣一個前提,本文對Web信息獲取若干關鍵問題,包括信息采集、信息抽取、事件探測和追蹤、以及事件來龍去脈等方面,從模型、算法和應用二個層次上進行了深入細致的研

2、究,主要貢獻和創(chuàng)新點包括如卜兒個方面:(1)通過對Web信息采集過程及其實例系統(tǒng)分析,基于主體的基本理論與技術,提出了一種網絡信息采集的多主體模型,并在實驗室研制的多主體環(huán)境MAGE下完成了建模和實現(xiàn)。同時針對用戶的個性化信息需求,通過分析研究Web主題頁面的特點,提出三種主題相關性計算模型:基于鏈接關系的URL主題相關性計算模型、墓于URL描述信息的主題相關性計算模型、基于網頁內容語義的相關性計算模型,并且基于三種主題相關性計算模型實現(xiàn)了專題跟蹤采集模式。實驗結果驗證了基于多主體的信息采集模型的靈活性、開放性、高效性、易于實現(xiàn)性以及二

3、種土題相關性計算模型的有效性。(2)通過分析Web噪音數(shù)據存在的特點,提出了三種噪音數(shù)據判別模型:荃于URL標記信息的噪音判別模型、基于噪音數(shù)據冗余特點的判別模型、基于URL標記文本信息嫡的噪音數(shù)據判別模型,并且基于這三種判別模型實現(xiàn)了Web噪音數(shù)據去除算法。實驗結果驗證了三種噪音去除模型的可行性和有效性。Web噪音去除算法可以有效解決數(shù)據質量問題,從而可以提高后續(xù)文本分類、聚類、事件探測和追蹤、事件來龍去脈的生成等文本挖掘算法的性能。(3)提出了一種基于概率統(tǒng)計和規(guī)則相結合的新詞/短語發(fā)現(xiàn)算法。該算法首先對語料庫進行分詞和詞性標注,然

4、后基于“二元語法”統(tǒng)計模型對分詞和標注后的語料庫進行共現(xiàn)分析得到原始的二元統(tǒng)計結果,并且基于統(tǒng)計公式進行選詞,但是結果不是很理想。為此,通過大量分析漢語組詞規(guī)律,提出了多種選詞規(guī)則:詞性、詞長、禁用詞等規(guī)則,然后利用這些規(guī)則對統(tǒng)計選詞后的結果進行層層過濾,最后只需很少的人工干預就可得到質量很高的新詞/短語。實驗結果驗證了基于概率統(tǒng)計和規(guī)則方法相結合的新詞發(fā)現(xiàn)算法的有效性,它有效地結合了統(tǒng)計方法速度快和規(guī)則方法質量高的特點.(4)通過分析網絡新聞的特點,借鑒Single-Pass聚類思想提出了一種基于動態(tài)模型的新聞事件探測和追蹤算法。動態(tài)

5、模型可有效地改善新聞事件探測和追蹤算法的效率,它包括:基于時間距離的相似度計算模型、動態(tài)閑值設置和事件模板進化思想。為了提高算法執(zhí)行的速度,我們還提出了“類間距離”的思想及其兩種計算“類間距離”的方法。實驗結果驗證了基于時間距離的相似度計算模型的有效性以及引入“類間距離”后算法執(zhí)行的高效性。(5)提出了一種事件來龍去脈生成算法。該算法是基于時間要素和新穎性計算模型,將報導Web信息智能獲取若干關鍵問題研究:摘要同一事件的所有新聞文檔的摘要進行組織,然后根據粒度要求對組織結果進行處理最后生成事件來龍去脈。為了保證事件來龍去脈的質量,提出了

6、段落主題相關性判別模型用來保障單篇摘要與事件主題的相關性:同時提出了一種新穎性計算模型用來保證事件來龍去脈信息的非冗余性。借鑒已有的白動摘要評測方法,提出了一種事件來龍去脈評測模型。實驗結果顯示了主題相關性判別模型,新穎性計算模型和事件來龍去脈評測模型的有效性。事件來龍去脈為事件信息的概括描述提供了一條思路,是網絡新聞智能化服務的有益探索。科學研究的最終目的是研究成果能夠在實際中得到應用?;诖四康?,我們將本文的研究結果和實驗室其他同學的研究成果有機地結合起來,實現(xiàn)了一個完整的網絡信息智能獲取和處理系統(tǒng)GHunt。本文給出了系統(tǒng)的功能框

7、架和體系結構,提出了GHunt對信息獲取過程和獲取知識的元數(shù)據管理模型,并用實驗結果驗證了系統(tǒng)的性能。GHunt是我們多年來研究成果的結晶,是研究成果走向產品化的重要環(huán)節(jié),同時也為后續(xù)研究開發(fā)提供了一個很好的平臺和檢驗環(huán)境。如果想詳細了解GHunt系統(tǒng),可訪問地址htp://www.intsci.ac.cn/GHuntWeb/o關鍵詞:信息獲取,信息抽取,知識發(fā)現(xiàn),數(shù)據挖掘,文本挖掘,Web挖掘,信息采集,主題采集,噪音去除,信息檢索,文本分類,聚類,自動摘要,多篇摘要,事件探測,事件追蹤。事們來龍去脈,概念語義空間,新聞專題。Rese

8、archontheKeyTechniquesofWebInformationIntelligentAcquisitionJiaZiyan(ComputerSoftware&Theory)DirectedBy

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。