面向社區(qū)問答中文短文本分類算法探究

面向社區(qū)問答中文短文本分類算法探究

ID:6053274

大?。?7.50 KB

頁數(shù):15頁

時間:2018-01-01

面向社區(qū)問答中文短文本分類算法探究_第1頁
面向社區(qū)問答中文短文本分類算法探究_第2頁
面向社區(qū)問答中文短文本分類算法探究_第3頁
面向社區(qū)問答中文短文本分類算法探究_第4頁
面向社區(qū)問答中文短文本分類算法探究_第5頁
資源描述:

《面向社區(qū)問答中文短文本分類算法探究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、面向社區(qū)問答中文短文本分類算法探究  〔摘要〕為解決社區(qū)問答系統(tǒng)中的問題短文本特征詞少、描述信息弱的問題,本文利用維基百科進(jìn)行特征擴(kuò)展以輔助中文問題短文本分類。首先通過維基百科概念及鏈接等信息進(jìn)行詞語相關(guān)概念集合抽取,并綜合利用鏈接結(jié)構(gòu)和類別體系信息進(jìn)行概念間相關(guān)度計算。然后以相關(guān)概念集合為基礎(chǔ)進(jìn)行特征擴(kuò)展以補(bǔ)充文本特征語義信息。實驗結(jié)果表明,本文提出的基于特征擴(kuò)展的短文本分類算法能有效提高問題短文本分類效果?!碴P(guān)鍵詞〕社區(qū)問答;維基百科;特征擴(kuò)展;短文本分類〔中圖分類號〕G254〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821

2、(2013)10-0070-05社區(qū)問答系統(tǒng)是一種基于Web的問答系統(tǒng),如百度知道、yahoo!15Answers等。作為一種具有開放性、交互性特點的知識共享模式,它能夠更好的幫助人們利用互聯(lián)網(wǎng)的資源來獲取和分享信息。對用戶提出的問題進(jìn)行分類是社區(qū)問答系統(tǒng)服務(wù)的一個主要任務(wù),將用戶提問發(fā)布到合適的類別,可以方便其他用戶發(fā)現(xiàn)和回答該提問,也有助于對系統(tǒng)積累的海量問答進(jìn)行知識挖掘和興趣推薦[1]。由于問題文本一般較短、特征稀疏,且中文文本特有的語言結(jié)構(gòu),所以傳統(tǒng)的基于長文本的分類方法對于短文本并不能取得令人滿意的效果。因此,研究中

3、文短文本分類技術(shù)成為社區(qū)問答系統(tǒng)構(gòu)建的一個關(guān)鍵問題。短文本的長度通常小于160個字符,詞匯個數(shù)少并且描述信息弱,具有稀疏性和不規(guī)范性,卻隱含大量有價值的信息。目前,一些學(xué)者先后開始研究利用一些額外的信息來擴(kuò)展文本特征輔助中文短文本分類。如王鵬[2]等利用依存關(guān)系對短文本進(jìn)行特征擴(kuò)充以實現(xiàn)有效的短文本分類。王細(xì)薇[3]等、曹葉盛[4]、Fan[5]等利用關(guān)聯(lián)規(guī)則挖掘文本中詞共現(xiàn)關(guān)系以構(gòu)建特征共現(xiàn)集進(jìn)行短文本特征擴(kuò)展。寧亞輝[6]等提出借助知網(wǎng)對領(lǐng)域高頻詞進(jìn)行特征擴(kuò)展的短文本分類方法。王盛[7]等利用知網(wǎng)的上下位關(guān)系對短文本進(jìn)行擴(kuò)

4、展。但是領(lǐng)域知識庫一般由專家進(jìn)行編撰,只包含小范圍的領(lǐng)域和有限的主題,詞匯可擴(kuò)展性差且更新速度慢,難以滿足社區(qū)問答系統(tǒng)中的問題分類的需求。范云杰[8]等利用維基百科對短文本進(jìn)行特征擴(kuò)展,其采用考慮概念類別因素基于tf-idf法計算概念間相關(guān)度。15為提高社區(qū)問答系統(tǒng)中的問題文類效果,本文研究將維基百科知識庫引入到中文短文本分類過程中,提出一種基于特征擴(kuò)展的中文短文本分類算法。本文利用維基百科所含有的類別、概念及其鏈接等信息,以詞語間語義相關(guān)關(guān)系為基礎(chǔ)對短文本特征詞語進(jìn)行語義特征擴(kuò)展,以此提高特征詞所描述概念的準(zhǔn)確性、豐富語義表

5、達(dá),同時在一定程度上降低短文本特征稀疏對分類性能的影響。1維基百科相關(guān)理論維基百科作為一個以開放和用戶協(xié)作編輯為特點的Web2.0知識系統(tǒng),具有知識覆蓋面廣,結(jié)構(gòu)化程度高,信息更新速度快等優(yōu)點[9]。維基百科是一個以頁面為單位組成的具有豐富鏈接結(jié)構(gòu)的超文本文檔集合,它主要包含以下重要元素:1.1主題頁面主題頁面作為維基百科中最基本、重要的元素,其含有惟一的ID標(biāo)識用以描述一個單獨的概念。概念是維基百科的基本單位,即指被解釋的一個對象、事件或命名實體,如“情報”、“北京奧運會”、“姚明”等。1.2類別體系類別是維基百科中對概念頁

6、面信息進(jìn)行組織的一種有效手段。每一個概念頁面通常歸屬于一個類別或多個類別。如“文本挖掘”這個概念頁面歸屬于“數(shù)據(jù)挖掘”、“人工智能應(yīng)用”等多個類別。每個類別可以包含若干子類別,上下層類別之間不僅反映出繼承的關(guān)系,也可能是實例、包含、屬性等不同的語義關(guān)系。類別之間的這種關(guān)系構(gòu)成一個巨大的分類體系。1.3重定向15維基百科將同義的多個概念用一個頁面進(jìn)行描述,這些概念中只有一個概念的頁面包含解釋描述信息,其他的概念則使用重定向鏈接到這個頁面,包含重定向鏈接的頁面稱作重定向頁面[9]。重定向頁面的概念與目標(biāo)頁面概念是同義詞。例如“NB

7、A”被重定向到“國家籃球協(xié)會”,這種重定向頁面的機(jī)制同時能夠處理大小寫、縮寫、拼寫變體、專業(yè)術(shù)語等。1.4消岐頁消岐頁是為了處理一詞多義的機(jī)制[9],例如消歧頁面“風(fēng)車(消歧義)”中,包含指向多個概念頁面的鏈接:“風(fēng)車”,“風(fēng)車(玩具)”,“風(fēng)車(農(nóng)具)”等。1.5鏈接頁面與頁面之間通過主題頁面內(nèi)容中的超鏈接聯(lián)系起來[10]。即概念的描述之間用超鏈接聯(lián)系,其中蘊(yùn)含著重要的事實聯(lián)系或語義關(guān)系。2基于維基百科的特征擴(kuò)展為提高短文本特征詞的類別特征和最大限度的保留其語義信息,本文借助維基百科知識庫來挖掘短文本所蘊(yùn)含的隱性信息,通過選

8、取一些在語義層面與特征詞有高度相關(guān)關(guān)系的詞對特征詞進(jìn)行擴(kuò)展以輔助短文本分類,利用抽取的維基百科詞語相關(guān)概念集合作為擴(kuò)展詞集合,通過擴(kuò)展詞集合從語義層面對特征進(jìn)行擴(kuò)展,以構(gòu)建語義向量空間。15本文中的特征擴(kuò)展以現(xiàn)實世界詞語間的語義相關(guān)關(guān)系為基礎(chǔ),對文本特征詞進(jìn)行擴(kuò)展,通過某個特

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。