資源描述:
《基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、計(jì)算機(jī)與現(xiàn)代化2013年第2期JISUANJIYUXIANDAIHUA總第210期文章編號(hào):1006-2475(2013)02-0117-03基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)呂曹芳,薛向鋒,朱岳超,宗軍君(中國人民解放軍陸軍軍官學(xué)院,安徽合肥230031)摘要:研究基于網(wǎng)絡(luò)的文本知識(shí)發(fā)現(xiàn),根據(jù)搜索引擎分類內(nèi)容的特點(diǎn),通過幾種常用搜索引擎的比較,結(jié)合文本分類的特點(diǎn),發(fā)現(xiàn)單純搜索文本信息資源的引擎更適合于文本分類;進(jìn)而給出基于文本分類的網(wǎng)絡(luò)信息獲取原型,提出基于元數(shù)據(jù)的用戶感興趣知識(shí)的提取模式,用戶可以根據(jù)實(shí)際情
2、況在給定范圍內(nèi)提取自己感興趣的文本信息,從而提高文本信息挖掘的精準(zhǔn)性。關(guān)鍵詞:知識(shí)發(fā)現(xiàn);文本分類;搜索引擎;規(guī)則挖掘中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.issn.1006-2475.2013.02.028WebKnowledgeDiscoveryBasedonTextClassificationLCao-fang,XUEXiang-feng,ZHUYue-chao,ZONGJun-jun(ArtilleryAcademyofPLA,Hefei230031,China)A
3、bstract:ThepaperstudiestherelatedtechnologiesoftheChinesetextknowledgediscoveryonInternet,accordingtothefea-turesofsearchenginesclassification,comparingandanalyzingsearchengineswithfeaturesoftextclassification,discoversthattheenginesofsimplexsearchtextin
4、formationismoresuitablefortextclassification.ThispaperproposesaInternetachievingin-formationprototypebasedontextclassification,proposesanextractionmethodonuserknowledgeofinterest,userscanextracttextinformationofinteresttoimproveaccuracyoftextinformationm
5、ining.Keywords:knowledgediscovery;textclassification;searchengine;rulemining面對(duì)網(wǎng)上海量的數(shù)據(jù)信息,需要尋找一種相對(duì)有0引言效的信息獲取技術(shù)以克服傳統(tǒng)獲取網(wǎng)頁信息人工分互聯(lián)網(wǎng)飛速發(fā)展,網(wǎng)絡(luò)成為了海量數(shù)據(jù)的一個(gè)載類的繁瑣、誤差大等缺點(diǎn)?;谖谋痉诸惖木W(wǎng)絡(luò)知識(shí)體,互聯(lián)網(wǎng)用戶可以借助Internet搜尋大量的數(shù)字化發(fā)現(xiàn)是使文本信息資源得以有效利用,同時(shí)也可依據(jù)信息,這些數(shù)字化信息可以是文本、數(shù)字、圖形、圖像、需求者的興趣獲取文本信息,
6、通過分類分析進(jìn)而發(fā)現(xiàn)地圖、聲音甚至可以是視頻。但這些信息大都是分散文本信息資源背后隱含的知識(shí)。的、無結(jié)構(gòu)數(shù)據(jù),存在著大量無用或垃圾信息,只有小1搜索引擎部分是有用的信息,這使得人們利用網(wǎng)絡(luò)獲取自己所需的特定領(lǐng)域的信息時(shí)比較費(fèi)時(shí)費(fèi)力。如何利用現(xiàn)互聯(lián)網(wǎng)的使用給人們帶來了巨大的信息資源,如有的網(wǎng)絡(luò)資源檢索技術(shù)采集互聯(lián)網(wǎng)上特定領(lǐng)域的信何從中取得用戶有用的信息資源,這就需要借助互聯(lián)息,并從數(shù)據(jù)中挖掘出有用的知識(shí)?網(wǎng)搜索手段———搜索引擎。文本分類是根據(jù)文本的表現(xiàn)特征將其分到預(yù)先搜索引擎依據(jù)不同的方式可以分為不同的
7、類[3-4]定好的不同類別中,將文本集合的每個(gè)文本自動(dòng)地歸型。國內(nèi)對(duì)搜索引擎的區(qū)分通常按照兩類:分類[1-2]入某個(gè)類別。需求者可以依據(jù)類別方便地瀏覽文搜索引擎和關(guān)鍵詞搜索引擎。分類搜索引擎需要人檔,還能夠依據(jù)限制搜索范圍使得文檔的查詢更加容工對(duì)網(wǎng)站進(jìn)行標(biāo)引和組織,提供分類檢索。關(guān)鍵詞搜易。索引擎是程序自動(dòng)索引網(wǎng)頁建立數(shù)據(jù)庫,提供關(guān)鍵詞收稿日期:2012-10-23作者簡介:呂曹芳(1979-),女,安徽壽縣人,中國人民解放軍陸軍軍官學(xué)院講師,碩士,研究方向:數(shù)據(jù)挖掘;薛向鋒(1957-),男,安徽漢城
8、人,教授,碩士,研究方向:文本數(shù)據(jù)。118計(jì)算機(jī)與現(xiàn)代化2013年第2期搜索。較隨意,有時(shí)同一個(gè)網(wǎng)頁甚至出現(xiàn)多個(gè)不同的主題內(nèi)Internet具有數(shù)據(jù)量大、動(dòng)態(tài)分布、規(guī)模大等特容。Web文檔中的文本內(nèi)容用許多標(biāo)簽標(biāo)記,這些點(diǎn),用戶實(shí)時(shí)高效地從網(wǎng)絡(luò)中獲取所需要的有用信息標(biāo)簽形成了Web文檔的結(jié)構(gòu)。因此,需要對(duì)文檔進(jìn)有一定的困難。不同搜索引擎搜索的內(nèi)容不同,需求行預(yù)處理,獲取其標(biāo)記其特征的關(guān)鍵數(shù)據(jù)。者可以根據(jù)目標(biāo)的不同選擇適合自己的搜索引擎。面對(duì)