資源描述:
《基于本體的語義Web 文本分類探討》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基于本體的語義Web文本分類探討黃顯堂(浙江溫州大學圖書館 溫州325003)摘要:本文探討了本體與語義Web的關(guān)系、本體在語義Web文本分類中的作用,并重點探討了基于本體的語義Web文本分類的特點以及Web文本分類器的一般工作原理。關(guān)鍵詞:本體 語義Web 文本分類中圖分類號:G254.364;TP301.2ResearchonSemanticWebTextsClassificationBasedonOntologyHuangXian-tang(LibraryofWenzhouUniversityWenzhou325003)Abstract:Thi
2、sarticlehasdiscussedtherelationsbetweenontologyandsemanticWeb,thefunctionsofontologyinsemanticWebtextclassification,andhasdiscussedthesemanticWebtextclassificationcharacteristicbased-onontologyaswellastheWebtextclassificationsortergeneralOperationalmechanismwithemphasis.Keyword
3、s:Ontology;SemanticWeb;TextClassification1、引言當前Web上的信息是一種無結(jié)構(gòu)或半結(jié)構(gòu)的數(shù)據(jù),只能供人閱讀而不能被計算機所理解,因而也就不能自動化處理,如何對網(wǎng)頁尤其是對網(wǎng)頁上的文本進行自動分類,已成為信息提取和信息檢索面臨的一個重要課題。為了解決這個問題,本體在Web上的應(yīng)用導致了語義Web的誕生,其目的是解決Web上信息共享時的語義問題。Berners-Lee于2000-12-18在XML2000的會議上正式提出了語義Web[1],它的目標是使得Web上的信息具有計算機可以理解的語義,滿足智能軟件代理(A
4、gent)對WWW上異構(gòu)和分布信息的有效訪問和搜索。語義Web可以看作是在本體理論基礎(chǔ)之上對現(xiàn)有Web所進行的擴展,目標是使Web上的信息具有計算機可以理解的語義。因此,在本體的支持下可以實現(xiàn)Web文本的自動分類。2、本體與語義Web的關(guān)系本體(Ontology)是語義Web中的元數(shù)據(jù),它以機器能夠理解的方式描述數(shù)據(jù)的語義,代理可以在機器之間進行通信,以提供更多的自動化服務(wù)?;诒倔w的語義Web根據(jù)語義Web的體系結(jié)構(gòu),語義網(wǎng)的實現(xiàn)離不開XML語言和RDF。XML+RDF+Ontology構(gòu)成了相互理解的基礎(chǔ),同時成為語義Web體系結(jié)構(gòu)的核心[2]。
5、但是XML和RDF在處理語義上存在兩個問題:一是同一概念有多種詞匯表示;二是同一個詞有多種含義(概念)[3]。因此,必須在語義層次上解決Web信息共享和交換的問題。本體通過對概念的嚴格定義和概念之間的關(guān)系來確定概念的精確含義,表示共同認可的、可共享的知識,從而解決一詞多義以及多詞近義等問題,因而在語義Web中具有非常重要的地位,是解決語義層次上Web信息共享和交換的基礎(chǔ)。這樣在使用XML定義標簽格式和RDF表達數(shù)據(jù)后,可以使用一種本體的網(wǎng)絡(luò)語言(如OWL)來描述網(wǎng)絡(luò)文檔中的術(shù)語的明確定義及其之間的關(guān)系。本體作為BernersLee所提出的語義Web體
6、系結(jié)構(gòu)的第三層,為語義Web提供了相關(guān)領(lǐng)域的共同理解,確定了該領(lǐng)域內(nèi)共同認可的概念的明確定義,通過概念間關(guān)系描述了概念的語義。本體層為語義Web提供語義級的共享,使得人及機器間能夠進行語義交互。3、本體在語義Web分類中的作用5本體作為網(wǎng)絡(luò)信息的組織與檢索的基礎(chǔ),通過對信息內(nèi)容的約束確保一致性和正確性,在語義Web自動分類中起著重要的作用,主要可以從以下幾個方面來理解:3.1 利用本體作為結(jié)構(gòu)化Web信息和組織知識庫的基礎(chǔ)。一方面,本體作為一個領(lǐng)域的概念框架可以用來理解和組織知識庫,因為它澄清了領(lǐng)域知識的結(jié)構(gòu),從而為知識表示打下了良好的基礎(chǔ),而本體描
7、述語言又能將Web上概念和概念之間的關(guān)系描述出來,它將邏輯定義和關(guān)系用一組限定的詞匯進行表達,采用XML的語法以適應(yīng)Web上傳輸?shù)男枰6?,本體可以重用,從而可以避免重復的領(lǐng)域知識分析,其統(tǒng)一的術(shù)語和概念也使知識共享成為可能。另一方面,本體也提供了系統(tǒng)元數(shù)據(jù)的詞匯表來注解數(shù)據(jù)和描述文件。有了本體就能夠?qū)ξ臋n進行一種更為準確的劃分??梢詼蚀_的了解文檔是關(guān)于哪一個領(lǐng)域,哪一個概念的,換句話說,這種劃分提供了一種標準的分類,這種標準的分類為以后可能的查詢提供了一個基礎(chǔ)。3.2 利用本體對Web網(wǎng)頁進行語義標注。所謂語義標注就是對文檔信息的內(nèi)容特征進行分析
8、,對文檔建立檢索標識的過程。而基于領(lǐng)域本體的語義標注其本質(zhì)就是實現(xiàn)文檔特征項與本體概念之間的映射關(guān)系,并據(jù)此