資源描述:
《基于概念語(yǔ)義分析的文本聚類(lèi)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、東北師范大學(xué)碩士學(xué)位論文不同類(lèi)別間的事物相似度盡量小哺。聚類(lèi)作為一種非監(jiān)督型的知識(shí)發(fā)現(xiàn)方法,不需要任何事先的訓(xùn)練數(shù)據(jù),而僅僅按照相似度原則,將一組數(shù)據(jù)劃分為事先未知的分類(lèi)狀態(tài),因而是一種有效的,得到廣泛應(yīng)用的模式識(shí)別與知識(shí)發(fā)現(xiàn)的方法。在文本聚類(lèi)中,短文檔聚類(lèi)存在高維稀疏性問(wèn)題,導(dǎo)致了文檔的查全率低下,本文基于這一問(wèn)題在知網(wǎng)結(jié)構(gòu)下進(jìn)行概念語(yǔ)義分析,提出節(jié)點(diǎn)關(guān)鍵詞映射知網(wǎng)關(guān)鍵詞的匹配法,來(lái)解決高維稀疏性問(wèn)題。文本聚類(lèi)的方法大致可分為層次凝聚法和平面劃分法兩種類(lèi)型盯’83傳統(tǒng)的基于文本關(guān)鍵字的向量空間模型(VSM),用m個(gè)關(guān)鍵字
2、構(gòu)成的文檔向量Dj={dli,d2j,?,“i)表示文檔集中的一個(gè)文檔,這種方法存在一定的問(wèn)題。表現(xiàn)在向量空間應(yīng)用矢量?jī)?nèi)積計(jì)算文本向量空間的相似度,把詞語(yǔ)看成了獨(dú)立的元素,詞語(yǔ)之間沒(méi)有聯(lián)系,不能明確表達(dá)文本語(yǔ)義內(nèi)容。其次,語(yǔ)義的向量空間模型只是對(duì)文本中存在的詞語(yǔ)進(jìn)行匹配,忽略詞語(yǔ)中的一詞多義以及一個(gè)文本語(yǔ)義的多種表示方法。知網(wǎng)(HowNet)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù),知網(wǎng)是面向計(jì)算機(jī)的雙語(yǔ)常識(shí)知識(shí)庫(kù)。目前,詞條集合并不能完全準(zhǔn)確
3、地反映文本的語(yǔ)義,可以通過(guò)改變文本聚類(lèi)的途徑來(lái)對(duì)文本的語(yǔ)義進(jìn)行聚類(lèi)。文本通過(guò)知網(wǎng)的內(nèi)容來(lái)構(gòu)建概念語(yǔ)義樹(shù),消除一詞多義和一義多詞及一個(gè)文本語(yǔ)義的內(nèi)容可以有多種表達(dá)方式等問(wèn)題的歧義性,將語(yǔ)義相近的文檔實(shí)現(xiàn)基于內(nèi)容的聚集。文本通過(guò)知網(wǎng)的內(nèi)容來(lái)構(gòu)建概念語(yǔ)義樹(shù),進(jìn)行概念語(yǔ)義分析,消除一詞多義、一義多詞及一個(gè)文本語(yǔ)義內(nèi)容可以有多種表達(dá)方式等問(wèn)題的歧義性,并通過(guò)細(xì)粒度計(jì)算來(lái)解決稀疏性問(wèn)題,提高查全率,從而將語(yǔ)義相近的文檔實(shí)現(xiàn)基于內(nèi)容的聚類(lèi)本文。本文的結(jié)構(gòu)如下:第一章,緒論主要介紹了研究背景及意義、文本聚類(lèi)概念及本文的研究目標(biāo)及主要工作;
4、第二介紹了文本聚類(lèi)的主要因素;第三章:語(yǔ)義樹(shù)及語(yǔ)義的相關(guān)度問(wèn)題;第四章:介紹概念離線語(yǔ)義樹(shù)和動(dòng)態(tài)語(yǔ)義樹(shù)的構(gòu)建、查詢(xún)及公式;第五章:實(shí)驗(yàn)部分,給出了實(shí)驗(yàn)結(jié)果以及實(shí)驗(yàn)分析,并對(duì)該工作進(jìn)行總結(jié),并提出了進(jìn)一步研究設(shè)想,從而為后續(xù)研究提供了基本思路。2東北師范大學(xué)碩士學(xué)位論文1.1研究背景及意義第一章緒論21世紀(jì),計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)正在推動(dòng)人類(lèi)各方面的進(jìn)步,互聯(lián)網(wǎng)已經(jīng)成為人們不可缺少的信息來(lái)源。目前,網(wǎng)絡(luò)資源數(shù)據(jù)增長(zhǎng)速度飛快,人們要獲取所需的信息要花費(fèi)很多時(shí)間,所以,如何快速準(zhǔn)確獲取信息成為焦點(diǎn)。傳統(tǒng)的信息搜索技術(shù)存在著這局
5、限性,已經(jīng)不能適應(yīng)目前增加的大量文本數(shù)據(jù)處理,文本挖掘(TextMining)成了數(shù)據(jù)挖掘的一個(gè)很有前途的研究方向。文本處理的特殊性,不能像數(shù)據(jù)庫(kù)中的數(shù)據(jù),文本處理需要有自然語(yǔ)言理解的支持,目前機(jī)器對(duì)自然語(yǔ)言理解還存在很多歧義問(wèn)題,因此文本挖掘還不能很好的表達(dá)理解的層次。文本數(shù)據(jù)挖掘中的概念與方法有很多是直接來(lái)源于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)是一種從大量數(shù)據(jù)中提取其潛在信息的方法論。聚類(lèi)分析是文本挖掘的主要手段之一,他的主要作用是:1)通過(guò)對(duì)檢索結(jié)果的聚類(lèi),將檢索到的大量網(wǎng)頁(yè)以一定的類(lèi)別提供給用戶(hù),使用戶(hù)能快速定位查找
6、的目標(biāo);2)自動(dòng)生成分類(lèi)目錄;3)通過(guò)相似網(wǎng)頁(yè)的歸并便于分析網(wǎng)頁(yè)的共性。其中的一個(gè)重要的應(yīng)用方面就是聚類(lèi)。對(duì)于文本數(shù)據(jù)來(lái)說(shuō),聚類(lèi)就是嘗試將不同的文檔按照其內(nèi)在的信息進(jìn)行歸類(lèi),使得聚類(lèi)之后的各類(lèi)文檔,在同一個(gè)類(lèi)中文檔具有最大的相似性,而處于不同的類(lèi)中的文檔具有最大的差異性n川。從數(shù)學(xué)角度來(lái)看,文本聚類(lèi)是一個(gè)映射的過(guò)程,它將未標(biāo)明類(lèi)別的文本映射到根據(jù)文本內(nèi)容自發(fā)形成的類(lèi)別當(dāng)中,該映射可以是一對(duì)一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類(lèi)別相關(guān)聯(lián)。用數(shù)學(xué)公式(卜1)表示如下:廠:彳一B;(卜1)其中,么為等待聚類(lèi)的
7、文本集合,B為聚類(lèi)系統(tǒng)中的類(lèi)別集合;文本聚類(lèi)作為基礎(chǔ)研究,對(duì)已有網(wǎng)絡(luò)信息資源的組織和檢索起到很大作用。過(guò)去都是通過(guò)人工完成文檔分類(lèi),費(fèi)時(shí)費(fèi)力。利用計(jì)算機(jī)進(jìn)行文本分類(lèi)是一種有效的方法。綜上所述,文本聚類(lèi)隨著網(wǎng)絡(luò)快速發(fā)展而得到重視和發(fā)展,文本聚類(lèi)技術(shù)將成為人工智能領(lǐng)域一個(gè)重要的研究課題。目前,國(guó)內(nèi)很多學(xué)者對(duì)中文文本分類(lèi)進(jìn)行了深入研究,如黃萱箐H5。等提出一種基于機(jī)器學(xué)習(xí)的、獨(dú)立于語(yǔ)種的文本分類(lèi)模型。周水庚H明等在論述隱含語(yǔ)義索引的理論基礎(chǔ),研究了隱含語(yǔ)義索引在中文文本處理中的應(yīng)用。李榮陸H鉑等使用最大熵模型對(duì)中文文本分類(lèi)進(jìn)行研
8、究。張劍H副等提出一種以wbrdNet語(yǔ)言本體庫(kù)為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法。對(duì)于中文文本分類(lèi)的研究已經(jīng)做了很多工作,中文與英文存在本質(zhì)上的不同,中文存在多義詞、同義詞等等復(fù)雜情況,但是對(duì)東北師范大學(xué)碩士學(xué)位論文于多義詞、同義詞等問(wèn)題也是可以解決的,本文提出了一種方法