資源描述:
《博士論文-基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、上海交通大學(xué)博士學(xué)位論文基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究申請(qǐng)學(xué)位級(jí)別:博士專(zhuān)業(yè):計(jì)算機(jī)軟件與理論基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究摘要隨著信息技術(shù)尤其是因特網(wǎng)相關(guān)技術(shù)的發(fā)展與成熟,人們可獲得的信息越來(lái)越多。面對(duì)海量信息,一方面是人們對(duì)快速、準(zhǔn)確且全面獲取信息的渴望,而另一方面卻是信息的雜亂無(wú)序。如何盡可能有效地組織和管理信息,是信息處理研究的重要問(wèn)題之一。因此,文本分類(lèi)得到了廣泛關(guān)注,成為自然語(yǔ)言處理領(lǐng)域最重要的研究方向之一。本論文研究了文本分類(lèi)中特征提取,大規(guī)模文本分類(lèi)和跨語(yǔ)言文本分類(lèi)等問(wèn)題。我們主要解決下面三個(gè)問(wèn)題,如何高效準(zhǔn)確的進(jìn)行分類(lèi)、如何利用大規(guī)模的文本分類(lèi)數(shù)據(jù)以及如何在多語(yǔ)言環(huán)境下利用某種語(yǔ)
2、言的訓(xùn)練集,去分類(lèi)另外一種語(yǔ)言的文本的問(wèn)題。本文的主要研究工作及創(chuàng)新點(diǎn)體現(xiàn)在以下五個(gè)方面:(1)將一個(gè)基于概率解釋的多類(lèi)特征選擇算法應(yīng)用在文本分類(lèi)中。與將每個(gè)特征作為一個(gè)單一的個(gè)體的信息增益和x2統(tǒng)計(jì)量等傳統(tǒng)方法相比,這種多類(lèi)特征選擇的優(yōu)勢(shì)在于它通過(guò)線(xiàn)性支持向量機(jī)所特有的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則來(lái)選擇一個(gè)好的特征集。實(shí)驗(yàn)中使用了三種常見(jiàn)的多類(lèi)分類(lèi)器測(cè)試了該特征提取方法。實(shí)驗(yàn)結(jié)果均顯示了該方法的有效性。(2)將最近鄰算法的不同投票策略應(yīng)用于文本分類(lèi)中,并結(jié)合最小最大模塊化網(wǎng)絡(luò)來(lái)處理大規(guī)模數(shù)據(jù)的文本分類(lèi)。一般情況下,最近鄰算法在文本中采用相似性累加投票法,類(lèi)似于機(jī)器學(xué)習(xí)中的反距離投票策略。本文將機(jī)器
3、學(xué)習(xí)研究領(lǐng)域中最近鄰算法的不同投票策略引入到文本分類(lèi)中進(jìn)行研究,而且進(jìn)一步將它們引入到最小最大模塊化網(wǎng)絡(luò)中來(lái)處理大規(guī)模的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,高斯投票能在文本分類(lèi)中表現(xiàn)出較好的綜合性能。(3)將最小最大模塊化支持向量機(jī)中的超平面數(shù)據(jù)劃分方法應(yīng)用在大規(guī)模文本分類(lèi)中。最小最大模塊化網(wǎng)絡(luò)在處理大規(guī)模數(shù)據(jù)時(shí),通常有三個(gè)問(wèn)題,一個(gè)是集成什么樣的分類(lèi)器,第二個(gè)是模塊冗余消除問(wèn)題,第三個(gè)是數(shù)據(jù)劃分問(wèn)題。這里研究了第三個(gè)問(wèn)題,即使用超平面劃分方法到文本分類(lèi)領(lǐng)域進(jìn)行研究。傳統(tǒng)的數(shù)據(jù)劃分方法,一般使用隨機(jī)劃分和聚類(lèi)方法劃分。然而,隨機(jī)劃分方法可能會(huì)破壞數(shù)據(jù)本身分布的空間上海交通大學(xué)博士學(xué)位論文屬性,聚類(lèi)方法劃分
4、又過(guò)于消耗計(jì)算資源。超平面劃分方法一定程度上克服了這兩種方法的缺點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。(4)首次提出使用雙語(yǔ)詞典解決跨語(yǔ)言文本分類(lèi)問(wèn)題。在進(jìn)行多語(yǔ)言分析的時(shí)候,通常需要一些額外的雙語(yǔ)資源來(lái)溝通兩種語(yǔ)言的差異,像雙語(yǔ)電子詞典,大規(guī)模的平行語(yǔ)料庫(kù)和自動(dòng)機(jī)器翻譯等等。但是,跨語(yǔ)言文本分類(lèi),至今沒(méi)有使用雙語(yǔ)電子詞典方面的研究。本文提出了一種跨語(yǔ)言樸素貝葉斯算法。該算法借助雙語(yǔ)電子詞典,第一次將單語(yǔ)言的樸素貝葉斯算法擴(kuò)展到了雙語(yǔ)言上。初步的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。(5)提出了一種跨語(yǔ)言文本分類(lèi)的精細(xì)框架??紤]到使用雙語(yǔ)電子詞典的詞匯覆蓋率可能會(huì)影響到最終分類(lèi)的性能,本文提出了在目標(biāo)
5、語(yǔ)言中利用其語(yǔ)料之間的結(jié)構(gòu)屬性更新初始自動(dòng)標(biāo)注信息的思想。初步的實(shí)驗(yàn)結(jié)果顯示了該框架的有效性。關(guān)鍵詞:文本分類(lèi),特征選擇,最小最大模塊化網(wǎng)絡(luò),最近鄰算法,支持向量機(jī),跨語(yǔ)言文本分類(lèi),樸素貝葉斯算法一Ⅱ一AStudyonTextCategOrizatiOnBasedonMachineLearningWiththedevelopmentandmaturityofinformationtechnology,especiallytheInternet-relatedtechnology,peopleCanobtainmoreandmoreinformation.Facedwithadelugeof
6、information,ontheonehand,peoplehaveadesireforfast,accurateandcomprehensiveac—tesstoinformation.Ontheotherhand,informationstaysinanunexpectedwaysandthuslooksdisorderly.Howtoorganizeandmanageinformationaseffectivelyandefficientlyaspossibleisthefocusofinformationprocessing.Consequently,textcategoriza
7、tionhasexten-siveattention,andbecomeoneofthemostimportanttasksinnaturallanguageprocessing.Thisthesiscoversfeatureselection,large—scaletextclassificationandcross—languagetextclassification.Wehaveattemptedtoresolve