基于概念語(yǔ)義分析的文本聚類(lèi)研究

ID：32741259

大小：10.18 MB

頁(yè)數(shù)：33頁(yè)

時(shí)間：2019-02-15

資源描述：

《基于概念語(yǔ)義分析的文本聚類(lèi)研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、東北師范大學(xué)碩士學(xué)位論文不同類(lèi)別間的事物相似度盡量小哺。聚類(lèi)作為一種非監(jiān)督型的知識(shí)發(fā)現(xiàn)方法，不需要任何事先的訓(xùn)練數(shù)據(jù)，而僅僅按照相似度原則，將一組數(shù)據(jù)劃分為事先未知的分類(lèi)狀態(tài)，因而是一種有效的，得到廣泛應(yīng)用的模式識(shí)別與知識(shí)發(fā)現(xiàn)的方法。在文本聚類(lèi)中，短文檔聚類(lèi)存在高維稀疏性問(wèn)題，導(dǎo)致了文檔的查全率低下，本文基于這一問(wèn)題在知網(wǎng)結(jié)構(gòu)下進(jìn)行概念語(yǔ)義分析，提出節(jié)點(diǎn)關(guān)鍵詞映射知網(wǎng)關(guān)鍵詞的匹配法，來(lái)解決高維稀疏性問(wèn)題。文本聚類(lèi)的方法大致可分為層次凝聚法和平面劃分法兩種類(lèi)型盯’83傳統(tǒng)的基于文本關(guān)鍵字的向量空間模型(VSM)，用m個(gè)關(guān)鍵字

2、構(gòu)成的文檔向量Dj={dli，d2j，?，“i)表示文檔集中的一個(gè)文檔，這種方法存在一定的問(wèn)題。表現(xiàn)在向量空間應(yīng)用矢量?jī)?nèi)積計(jì)算文本向量空間的相似度，把詞語(yǔ)看成了獨(dú)立的元素，詞語(yǔ)之間沒(méi)有聯(lián)系，不能明確表達(dá)文本語(yǔ)義內(nèi)容。其次，語(yǔ)義的向量空間模型只是對(duì)文本中存在的詞語(yǔ)進(jìn)行匹配，忽略詞語(yǔ)中的一詞多義以及一個(gè)文本語(yǔ)義的多種表示方法。知網(wǎng)(HowNet)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象，以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)，知網(wǎng)是面向計(jì)算機(jī)的雙語(yǔ)常識(shí)知識(shí)庫(kù)。目前，詞條集合并不能完全準(zhǔn)確

3、地反映文本的語(yǔ)義，可以通過(guò)改變文本聚類(lèi)的途徑來(lái)對(duì)文本的語(yǔ)義進(jìn)行聚類(lèi)。文本通過(guò)知網(wǎng)的內(nèi)容來(lái)構(gòu)建概念語(yǔ)義樹(shù)，消除一詞多義和一義多詞及一個(gè)文本語(yǔ)義的內(nèi)容可以有多種表達(dá)方式等問(wèn)題的歧義性，將語(yǔ)義相近的文檔實(shí)現(xiàn)基于內(nèi)容的聚集。文本通過(guò)知網(wǎng)的內(nèi)容來(lái)構(gòu)建概念語(yǔ)義樹(shù)，進(jìn)行概念語(yǔ)義分析，消除一詞多義、一義多詞及一個(gè)文本語(yǔ)義內(nèi)容可以有多種表達(dá)方式等問(wèn)題的歧義性，并通過(guò)細(xì)粒度計(jì)算來(lái)解決稀疏性問(wèn)題，提高查全率，從而將語(yǔ)義相近的文檔實(shí)現(xiàn)基于內(nèi)容的聚類(lèi)本文。本文的結(jié)構(gòu)如下：第一章，緒論主要介紹了研究背景及意義、文本聚類(lèi)概念及本文的研究目標(biāo)及主要工作；

4、第二介紹了文本聚類(lèi)的主要因素；第三章：語(yǔ)義樹(shù)及語(yǔ)義的相關(guān)度問(wèn)題；第四章：介紹概念離線語(yǔ)義樹(shù)和動(dòng)態(tài)語(yǔ)義樹(shù)的構(gòu)建、查詢(xún)及公式；第五章：實(shí)驗(yàn)部分，給出了實(shí)驗(yàn)結(jié)果以及實(shí)驗(yàn)分析，并對(duì)該工作進(jìn)行總結(jié)，并提出了進(jìn)一步研究設(shè)想，從而為后續(xù)研究提供了基本思路。2東北師范大學(xué)碩士學(xué)位論文1．1研究背景及意義第一章緒論21世紀(jì)，計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)正在推動(dòng)人類(lèi)各方面的進(jìn)步，互聯(lián)網(wǎng)已經(jīng)成為人們不可缺少的信息來(lái)源。目前，網(wǎng)絡(luò)資源數(shù)據(jù)增長(zhǎng)速度飛快，人們要獲取所需的信息要花費(fèi)很多時(shí)間，所以，如何快速準(zhǔn)確獲取信息成為焦點(diǎn)。傳統(tǒng)的信息搜索技術(shù)存在著這局

5、限性，已經(jīng)不能適應(yīng)目前增加的大量文本數(shù)據(jù)處理，文本挖掘(TextMining)成了數(shù)據(jù)挖掘的一個(gè)很有前途的研究方向。文本處理的特殊性，不能像數(shù)據(jù)庫(kù)中的數(shù)據(jù)，文本處理需要有自然語(yǔ)言理解的支持，目前機(jī)器對(duì)自然語(yǔ)言理解還存在很多歧義問(wèn)題，因此文本挖掘還不能很好的表達(dá)理解的層次。文本數(shù)據(jù)挖掘中的概念與方法有很多是直接來(lái)源于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)是一種從大量數(shù)據(jù)中提取其潛在信息的方法論。聚類(lèi)分析是文本挖掘的主要手段之一，他的主要作用是：1)通過(guò)對(duì)檢索結(jié)果的聚類(lèi)，將檢索到的大量網(wǎng)頁(yè)以一定的類(lèi)別提供給用戶(hù)，使用戶(hù)能快速定位查找

6、的目標(biāo)；2)自動(dòng)生成分類(lèi)目錄；3)通過(guò)相似網(wǎng)頁(yè)的歸并便于分析網(wǎng)頁(yè)的共性。其中的一個(gè)重要的應(yīng)用方面就是聚類(lèi)。對(duì)于文本數(shù)據(jù)來(lái)說(shuō)，聚類(lèi)就是嘗試將不同的文檔按照其內(nèi)在的信息進(jìn)行歸類(lèi)，使得聚類(lèi)之后的各類(lèi)文檔，在同一個(gè)類(lèi)中文檔具有最大的相似性，而處于不同的類(lèi)中的文檔具有最大的差異性n川。從數(shù)學(xué)角度來(lái)看，文本聚類(lèi)是一個(gè)映射的過(guò)程，它將未標(biāo)明類(lèi)別的文本映射到根據(jù)文本內(nèi)容自發(fā)形成的類(lèi)別當(dāng)中，該映射可以是一對(duì)一映射，也可以是一對(duì)多的映射，因?yàn)橥ǔＲ黄谋究梢酝鄠€(gè)類(lèi)別相關(guān)聯(lián)。用數(shù)學(xué)公式(卜1)表示如下：廠：彳一B；(卜1)其中，么為等待聚類(lèi)的

7、文本集合，B為聚類(lèi)系統(tǒng)中的類(lèi)別集合；文本聚類(lèi)作為基礎(chǔ)研究，對(duì)已有網(wǎng)絡(luò)信息資源的組織和檢索起到很大作用。過(guò)去都是通過(guò)人工完成文檔分類(lèi)，費(fèi)時(shí)費(fèi)力。利用計(jì)算機(jī)進(jìn)行文本分類(lèi)是一種有效的方法。綜上所述，文本聚類(lèi)隨著網(wǎng)絡(luò)快速發(fā)展而得到重視和發(fā)展，文本聚類(lèi)技術(shù)將成為人工智能領(lǐng)域一個(gè)重要的研究課題。目前，國(guó)內(nèi)很多學(xué)者對(duì)中文文本分類(lèi)進(jìn)行了深入研究，如黃萱箐H5。等提出一種基于機(jī)器學(xué)習(xí)的、獨(dú)立于語(yǔ)種的文本分類(lèi)模型。周水庚H明等在論述隱含語(yǔ)義索引的理論基礎(chǔ)，研究了隱含語(yǔ)義索引在中文文本處理中的應(yīng)用。李榮陸H鉑等使用最大熵模型對(duì)中文文本分類(lèi)進(jìn)行研

8、究。張劍H副等提出一種以wbrdNet語(yǔ)言本體庫(kù)為基礎(chǔ)，建立文本的概念向量空間模型作為文本特征向量的特征提取方法。對(duì)于中文文本分類(lèi)的研究已經(jīng)做了很多工作，中文與英文存在本質(zhì)上的不同，中文存在多義詞、同義詞等等復(fù)雜情況，但是對(duì)東北師范大學(xué)碩士學(xué)位論文于多義詞、同義詞等問(wèn)題也是可以解決的，本文提出了一種方法

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 33



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

基于概念語(yǔ)義分析的文本聚類(lèi)研究

基于概念語(yǔ)義分析的文本聚類(lèi)研究

相關(guān)文章

相關(guān)標(biāo)簽