基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf

ID：52768391

大?。?00.29 KB

頁數(shù)：3頁

時(shí)間：2020-03-30

基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf_第1頁

基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf_第2頁

基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf_第3頁

資源描述：

《基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、計(jì)算機(jī)與現(xiàn)代化2013年第2期JISUANJIYUXIANDAIHUA總第210期文章編號(hào):1006-2475(2013)02-0117-03基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)呂曹芳，薛向鋒，朱岳超，宗軍君(中國人民解放軍陸軍軍官學(xué)院，安徽合肥230031)摘要:研究基于網(wǎng)絡(luò)的文本知識(shí)發(fā)現(xiàn)，根據(jù)搜索引擎分類內(nèi)容的特點(diǎn)，通過幾種常用搜索引擎的比較，結(jié)合文本分類的特點(diǎn)，發(fā)現(xiàn)單純搜索文本信息資源的引擎更適合于文本分類;進(jìn)而給出基于文本分類的網(wǎng)絡(luò)信息獲取原型，提出基于元數(shù)據(jù)的用戶感興趣知識(shí)的提取模式，用戶可以根據(jù)實(shí)際情

2、況在給定范圍內(nèi)提取自己感興趣的文本信息，從而提高文本信息挖掘的精準(zhǔn)性。關(guān)鍵詞:知識(shí)發(fā)現(xiàn);文本分類;搜索引擎;規(guī)則挖掘中圖分類號(hào):TP391．1文獻(xiàn)標(biāo)識(shí)碼:Adoi:10．3969/j．issn．1006-2475．2013．02．028WebKnowledgeDiscoveryBasedonTextClassificationLCao-fang，XUEXiang-feng，ZHUYue-chao，ZONGJun-jun(ArtilleryAcademyofPLA，Hefei230031，China)A

3、bstract:ThepaperstudiestherelatedtechnologiesoftheChinesetextknowledgediscoveryonInternet，accordingtothefea-turesofsearchenginesclassification，comparingandanalyzingsearchengineswithfeaturesoftextclassification，discoversthattheenginesofsimplexsearchtextin

4、formationismoresuitablefortextclassification．ThispaperproposesaInternetachievingin-formationprototypebasedontextclassification，proposesanextractionmethodonuserknowledgeofinterest，userscanextracttextinformationofinteresttoimproveaccuracyoftextinformationm

5、ining．Keywords:knowledgediscovery;textclassification;searchengine;rulemining面對(duì)網(wǎng)上海量的數(shù)據(jù)信息，需要尋找一種相對(duì)有0引言效的信息獲取技術(shù)以克服傳統(tǒng)獲取網(wǎng)頁信息人工分互聯(lián)網(wǎng)飛速發(fā)展，網(wǎng)絡(luò)成為了海量數(shù)據(jù)的一個(gè)載類的繁瑣、誤差大等缺點(diǎn)?；谖谋痉诸惖木W(wǎng)絡(luò)知識(shí)體，互聯(lián)網(wǎng)用戶可以借助Internet搜尋大量的數(shù)字化發(fā)現(xiàn)是使文本信息資源得以有效利用，同時(shí)也可依據(jù)信息，這些數(shù)字化信息可以是文本、數(shù)字、圖形、圖像、需求者的興趣獲取文本信息，

6、通過分類分析進(jìn)而發(fā)現(xiàn)地圖、聲音甚至可以是視頻。但這些信息大都是分散文本信息資源背后隱含的知識(shí)。的、無結(jié)構(gòu)數(shù)據(jù)，存在著大量無用或垃圾信息，只有小1搜索引擎部分是有用的信息，這使得人們利用網(wǎng)絡(luò)獲取自己所需的特定領(lǐng)域的信息時(shí)比較費(fèi)時(shí)費(fèi)力。如何利用現(xiàn)互聯(lián)網(wǎng)的使用給人們帶來了巨大的信息資源，如有的網(wǎng)絡(luò)資源檢索技術(shù)采集互聯(lián)網(wǎng)上特定領(lǐng)域的信何從中取得用戶有用的信息資源，這就需要借助互聯(lián)息，并從數(shù)據(jù)中挖掘出有用的知識(shí)?網(wǎng)搜索手段———搜索引擎。文本分類是根據(jù)文本的表現(xiàn)特征將其分到預(yù)先搜索引擎依據(jù)不同的方式可以分為不同的

7、類［3-4］定好的不同類別中，將文本集合的每個(gè)文本自動(dòng)地歸型。國內(nèi)對(duì)搜索引擎的區(qū)分通常按照兩類:分類［1-2］入某個(gè)類別。需求者可以依據(jù)類別方便地瀏覽文搜索引擎和關(guān)鍵詞搜索引擎。分類搜索引擎需要人檔，還能夠依據(jù)限制搜索范圍使得文檔的查詢更加容工對(duì)網(wǎng)站進(jìn)行標(biāo)引和組織，提供分類檢索。關(guān)鍵詞搜易。索引擎是程序自動(dòng)索引網(wǎng)頁建立數(shù)據(jù)庫，提供關(guān)鍵詞收稿日期:2012-10-23作者簡介:呂曹芳(1979-)，女，安徽壽縣人，中國人民解放軍陸軍軍官學(xué)院講師，碩士，研究方向:數(shù)據(jù)挖掘;薛向鋒(1957-)，男，安徽漢城

8、人，教授，碩士，研究方向:文本數(shù)據(jù)。118計(jì)算機(jī)與現(xiàn)代化2013年第2期搜索。較隨意，有時(shí)同一個(gè)網(wǎng)頁甚至出現(xiàn)多個(gè)不同的主題內(nèi)Internet具有數(shù)據(jù)量大、動(dòng)態(tài)分布、規(guī)模大等特容。Web文檔中的文本內(nèi)容用許多標(biāo)簽標(biāo)記，這些點(diǎn)，用戶實(shí)時(shí)高效地從網(wǎng)絡(luò)中獲取所需要的有用信息標(biāo)簽形成了Web文檔的結(jié)構(gòu)。因此，需要對(duì)文檔進(jìn)有一定的困難。不同搜索引擎搜索的內(nèi)容不同，需求行預(yù)處理，獲取其標(biāo)記其特征的關(guān)鍵數(shù)據(jù)。者可以根據(jù)目標(biāo)的不同選擇適合自己的搜索引擎。面對(duì)

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf

基于文本分類的網(wǎng)絡(luò)知識(shí)發(fā)現(xiàn)_呂曹芳.pdf

相關(guān)文章

相關(guān)標(biāo)簽