資源描述:
《基于本體的語(yǔ)義Web 文本分類探討》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、基于本體的語(yǔ)義Web文本分類探討黃顯堂(浙江溫州大學(xué)圖書館 溫州325003)摘要:本文探討了本體與語(yǔ)義Web的關(guān)系、本體在語(yǔ)義Web文本分類中的作用,并重點(diǎn)探討了基于本體的語(yǔ)義Web文本分類的特點(diǎn)以及Web文本分類器的一般工作原理。關(guān)鍵詞:本體 語(yǔ)義Web 文本分類中圖分類號(hào):G254.364;TP301.2ResearchonSemanticWebTextsClassificationBasedonOntologyHuangXian-tang(LibraryofWenzhouUniversityWenzhou325003)Abstract:Thi
2、sarticlehasdiscussedtherelationsbetweenontologyandsemanticWeb,thefunctionsofontologyinsemanticWebtextclassification,andhasdiscussedthesemanticWebtextclassificationcharacteristicbased-onontologyaswellastheWebtextclassificationsortergeneralOperationalmechanismwithemphasis.Keyword
3、s:Ontology;SemanticWeb;TextClassification1、引言當(dāng)前Web上的信息是一種無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的數(shù)據(jù),只能供人閱讀而不能被計(jì)算機(jī)所理解,因而也就不能自動(dòng)化處理,如何對(duì)網(wǎng)頁(yè)尤其是對(duì)網(wǎng)頁(yè)上的文本進(jìn)行自動(dòng)分類,已成為信息提取和信息檢索面臨的一個(gè)重要課題。為了解決這個(gè)問(wèn)題,本體在Web上的應(yīng)用導(dǎo)致了語(yǔ)義Web的誕生,其目的是解決Web上信息共享時(shí)的語(yǔ)義問(wèn)題。Berners-Lee于2000-12-18在XML2000的會(huì)議上正式提出了語(yǔ)義Web[1],它的目標(biāo)是使得Web上的信息具有計(jì)算機(jī)可以理解的語(yǔ)義,滿足智能軟件代理(A
4、gent)對(duì)WWW上異構(gòu)和分布信息的有效訪問(wèn)和搜索。語(yǔ)義Web可以看作是在本體理論基礎(chǔ)之上對(duì)現(xiàn)有Web所進(jìn)行的擴(kuò)展,目標(biāo)是使Web上的信息具有計(jì)算機(jī)可以理解的語(yǔ)義。因此,在本體的支持下可以實(shí)現(xiàn)Web文本的自動(dòng)分類。2、本體與語(yǔ)義Web的關(guān)系本體(Ontology)是語(yǔ)義Web中的元數(shù)據(jù),它以機(jī)器能夠理解的方式描述數(shù)據(jù)的語(yǔ)義,代理可以在機(jī)器之間進(jìn)行通信,以提供更多的自動(dòng)化服務(wù)?;诒倔w的語(yǔ)義Web根據(jù)語(yǔ)義Web的體系結(jié)構(gòu),語(yǔ)義網(wǎng)的實(shí)現(xiàn)離不開(kāi)XML語(yǔ)言和RDF。XML+RDF+Ontology構(gòu)成了相互理解的基礎(chǔ),同時(shí)成為語(yǔ)義Web體系結(jié)構(gòu)的核心[2]。
5、但是XML和RDF在處理語(yǔ)義上存在兩個(gè)問(wèn)題:一是同一概念有多種詞匯表示;二是同一個(gè)詞有多種含義(概念)[3]。因此,必須在語(yǔ)義層次上解決Web信息共享和交換的問(wèn)題。本體通過(guò)對(duì)概念的嚴(yán)格定義和概念之間的關(guān)系來(lái)確定概念的精確含義,表示共同認(rèn)可的、可共享的知識(shí),從而解決一詞多義以及多詞近義等問(wèn)題,因而在語(yǔ)義Web中具有非常重要的地位,是解決語(yǔ)義層次上Web信息共享和交換的基礎(chǔ)。這樣在使用XML定義標(biāo)簽格式和RDF表達(dá)數(shù)據(jù)后,可以使用一種本體的網(wǎng)絡(luò)語(yǔ)言(如OWL)來(lái)描述網(wǎng)絡(luò)文檔中的術(shù)語(yǔ)的明確定義及其之間的關(guān)系。本體作為BernersLee所提出的語(yǔ)義Web體
6、系結(jié)構(gòu)的第三層,為語(yǔ)義Web提供了相關(guān)領(lǐng)域的共同理解,確定了該領(lǐng)域內(nèi)共同認(rèn)可的概念的明確定義,通過(guò)概念間關(guān)系描述了概念的語(yǔ)義。本體層為語(yǔ)義Web提供語(yǔ)義級(jí)的共享,使得人及機(jī)器間能夠進(jìn)行語(yǔ)義交互。3、本體在語(yǔ)義Web分類中的作用5本體作為網(wǎng)絡(luò)信息的組織與檢索的基礎(chǔ),通過(guò)對(duì)信息內(nèi)容的約束確保一致性和正確性,在語(yǔ)義Web自動(dòng)分類中起著重要的作用,主要可以從以下幾個(gè)方面來(lái)理解:3.1 利用本體作為結(jié)構(gòu)化Web信息和組織知識(shí)庫(kù)的基礎(chǔ)。一方面,本體作為一個(gè)領(lǐng)域的概念框架可以用來(lái)理解和組織知識(shí)庫(kù),因?yàn)樗吻辶祟I(lǐng)域知識(shí)的結(jié)構(gòu),從而為知識(shí)表示打下了良好的基礎(chǔ),而本體描
7、述語(yǔ)言又能將Web上概念和概念之間的關(guān)系描述出來(lái),它將邏輯定義和關(guān)系用一組限定的詞匯進(jìn)行表達(dá),采用XML的語(yǔ)法以適應(yīng)Web上傳輸?shù)男枰6?,本體可以重用,從而可以避免重復(fù)的領(lǐng)域知識(shí)分析,其統(tǒng)一的術(shù)語(yǔ)和概念也使知識(shí)共享成為可能。另一方面,本體也提供了系統(tǒng)元數(shù)據(jù)的詞匯表來(lái)注解數(shù)據(jù)和描述文件。有了本體就能夠?qū)ξ臋n進(jìn)行一種更為準(zhǔn)確的劃分??梢詼?zhǔn)確的了解文檔是關(guān)于哪一個(gè)領(lǐng)域,哪一個(gè)概念的,換句話說(shuō),這種劃分提供了一種標(biāo)準(zhǔn)的分類,這種標(biāo)準(zhǔn)的分類為以后可能的查詢提供了一個(gè)基礎(chǔ)。3.2 利用本體對(duì)Web網(wǎng)頁(yè)進(jìn)行語(yǔ)義標(biāo)注。所謂語(yǔ)義標(biāo)注就是對(duì)文檔信息的內(nèi)容特征進(jìn)行分析
8、,對(duì)文檔建立檢索標(biāo)識(shí)的過(guò)程。而基于領(lǐng)域本體的語(yǔ)義標(biāo)注其本質(zhì)就是實(shí)現(xiàn)文檔特征項(xiàng)與本體概念之間的映射關(guān)系,并據(jù)此