資源描述:
《基于概念語義分析的文本聚類研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、東北師范大學碩士學位論文不同類別間的事物相似度盡量小哺。聚類作為一種非監(jiān)督型的知識發(fā)現(xiàn)方法,不需要任何事先的訓練數(shù)據(jù),而僅僅按照相似度原則,將一組數(shù)據(jù)劃分為事先未知的分類狀態(tài),因而是一種有效的,得到廣泛應用的模式識別與知識發(fā)現(xiàn)的方法。在文本聚類中,短文檔聚類存在高維稀疏性問題,導致了文檔的查全率低下,本文基于這一問題在知網(wǎng)結構下進行概念語義分析,提出節(jié)點關鍵詞映射知網(wǎng)關鍵詞的匹配法,來解決高維稀疏性問題。文本聚類的方法大致可分為層次凝聚法和平面劃分法兩種類型盯’83傳統(tǒng)的基于文本關鍵字的向量空間模型(VSM),用m個關鍵字
2、構成的文檔向量Dj={dli,d2j,?,“i)表示文檔集中的一個文檔,這種方法存在一定的問題。表現(xiàn)在向量空間應用矢量內積計算文本向量空間的相似度,把詞語看成了獨立的元素,詞語之間沒有聯(lián)系,不能明確表達文本語義內容。其次,語義的向量空間模型只是對文本中存在的詞語進行匹配,忽略詞語中的一詞多義以及一個文本語義的多種表示方法。知網(wǎng)(HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫,知網(wǎng)是面向計算機的雙語常識知識庫。目前,詞條集合并不能完全準確
3、地反映文本的語義,可以通過改變文本聚類的途徑來對文本的語義進行聚類。文本通過知網(wǎng)的內容來構建概念語義樹,消除一詞多義和一義多詞及一個文本語義的內容可以有多種表達方式等問題的歧義性,將語義相近的文檔實現(xiàn)基于內容的聚集。文本通過知網(wǎng)的內容來構建概念語義樹,進行概念語義分析,消除一詞多義、一義多詞及一個文本語義內容可以有多種表達方式等問題的歧義性,并通過細粒度計算來解決稀疏性問題,提高查全率,從而將語義相近的文檔實現(xiàn)基于內容的聚類本文。本文的結構如下:第一章,緒論主要介紹了研究背景及意義、文本聚類概念及本文的研究目標及主要工作;
4、第二介紹了文本聚類的主要因素;第三章:語義樹及語義的相關度問題;第四章:介紹概念離線語義樹和動態(tài)語義樹的構建、查詢及公式;第五章:實驗部分,給出了實驗結果以及實驗分析,并對該工作進行總結,并提出了進一步研究設想,從而為后續(xù)研究提供了基本思路。2東北師范大學碩士學位論文1.1研究背景及意義第一章緒論21世紀,計算機技術和網(wǎng)絡通信技術正在推動人類各方面的進步,互聯(lián)網(wǎng)已經(jīng)成為人們不可缺少的信息來源。目前,網(wǎng)絡資源數(shù)據(jù)增長速度飛快,人們要獲取所需的信息要花費很多時間,所以,如何快速準確獲取信息成為焦點。傳統(tǒng)的信息搜索技術存在著這局
5、限性,已經(jīng)不能適應目前增加的大量文本數(shù)據(jù)處理,文本挖掘(TextMining)成了數(shù)據(jù)挖掘的一個很有前途的研究方向。文本處理的特殊性,不能像數(shù)據(jù)庫中的數(shù)據(jù),文本處理需要有自然語言理解的支持,目前機器對自然語言理解還存在很多歧義問題,因此文本挖掘還不能很好的表達理解的層次。文本數(shù)據(jù)挖掘中的概念與方法有很多是直接來源于傳統(tǒng)的數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘技術是一種從大量數(shù)據(jù)中提取其潛在信息的方法論。聚類分析是文本挖掘的主要手段之一,他的主要作用是:1)通過對檢索結果的聚類,將檢索到的大量網(wǎng)頁以一定的類別提供給用戶,使用戶能快速定位查找
6、的目標;2)自動生成分類目錄;3)通過相似網(wǎng)頁的歸并便于分析網(wǎng)頁的共性。其中的一個重要的應用方面就是聚類。對于文本數(shù)據(jù)來說,聚類就是嘗試將不同的文檔按照其內在的信息進行歸類,使得聚類之后的各類文檔,在同一個類中文檔具有最大的相似性,而處于不同的類中的文檔具有最大的差異性n川。從數(shù)學角度來看,文本聚類是一個映射的過程,它將未標明類別的文本映射到根據(jù)文本內容自發(fā)形成的類別當中,該映射可以是一對一映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關聯(lián)。用數(shù)學公式(卜1)表示如下:廠:彳一B;(卜1)其中,么為等待聚類的
7、文本集合,B為聚類系統(tǒng)中的類別集合;文本聚類作為基礎研究,對已有網(wǎng)絡信息資源的組織和檢索起到很大作用。過去都是通過人工完成文檔分類,費時費力。利用計算機進行文本分類是一種有效的方法。綜上所述,文本聚類隨著網(wǎng)絡快速發(fā)展而得到重視和發(fā)展,文本聚類技術將成為人工智能領域一個重要的研究課題。目前,國內很多學者對中文文本分類進行了深入研究,如黃萱箐H5。等提出一種基于機器學習的、獨立于語種的文本分類模型。周水庚H明等在論述隱含語義索引的理論基礎,研究了隱含語義索引在中文文本處理中的應用。李榮陸H鉑等使用最大熵模型對中文文本分類進行研
8、究。張劍H副等提出一種以wbrdNet語言本體庫為基礎,建立文本的概念向量空間模型作為文本特征向量的特征提取方法。對于中文文本分類的研究已經(jīng)做了很多工作,中文與英文存在本質上的不同,中文存在多義詞、同義詞等等復雜情況,但是對東北師范大學碩士學位論文于多義詞、同義詞等問題也是可以解決的,本文提出了一種方法