基于SVM的漢語問句分類研究【文獻(xiàn)綜述】

基于SVM的漢語問句分類研究【文獻(xiàn)綜述】

ID:472254

大小:19.50 KB

頁數(shù):3頁

時(shí)間:2017-08-07

基于SVM的漢語問句分類研究【文獻(xiàn)綜述】_第1頁
基于SVM的漢語問句分類研究【文獻(xiàn)綜述】_第2頁
基于SVM的漢語問句分類研究【文獻(xiàn)綜述】_第3頁
資源描述:

《基于SVM的漢語問句分類研究【文獻(xiàn)綜述】》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、畢業(yè)設(shè)計(jì)文獻(xiàn)綜述計(jì)算機(jī)科學(xué)技術(shù)基于SVM的漢語問句分類研究摘要:問答系統(tǒng)是信息檢索的高級形式,其中問句理解模塊的問句分類任務(wù)能夠?yàn)楹罄m(xù)的信息檢索模塊縮小搜索范圍,并有助于答案抽取模塊制定抽取策略,對問答系統(tǒng)整體性能的提高具有重要作用。處在發(fā)展初期的中文問答系統(tǒng)尤其需要追求每個(gè)階段的品質(zhì),所以漢語問句分類作為首要子過程極具研究價(jià)值。采取支持向量機(jī)的方法對漢語問句進(jìn)行分類比較可行且有效,因?yàn)樘幚韱栴}集得到的特征空間維數(shù)較高,支持向量機(jī)可以有效解決高維問題;問題向量特征相關(guān)性小,支持向量機(jī)能夠不受特征獨(dú)立性假設(shè)的影響;問題向量特征稀疏,

2、支持向量機(jī)具有主動(dòng)學(xué)習(xí)能力。此外,如果缺乏用于公測的問題集,支持向量機(jī)在自行構(gòu)建的問題集上仍然可以得到相對最優(yōu)的結(jié)果,具有良好的泛化和推廣性。關(guān)鍵詞:問答系統(tǒng);漢語問句分類;支持向量機(jī);統(tǒng)計(jì)學(xué)原理信息時(shí)代,網(wǎng)絡(luò)發(fā)展日行千里,搜索引擎深入到知識工程的各個(gè)領(lǐng)域。人們生活中的科技含量飛速上升,信息需求與日俱增,對搜索引擎性能的要求也愈發(fā)苛刻。問答系統(tǒng)(QuestionAnsweringSystem,QA)正是在這個(gè)關(guān)鍵時(shí)期開發(fā)而成,它屬于信息檢索系統(tǒng)的高級形式,能夠?qū)ψ匀徽Z言表述的問題輸出精準(zhǔn)、明確的答案。自1999年文本檢索會(huì)議(Te

3、xtREtrievalConference,簡稱TREC)引入問答系統(tǒng)評測專項(xiàng)(QuestionAnsweringTrack,簡稱QATrack)后,各種研究機(jī)構(gòu)對基于自然語言的問答系統(tǒng)再次產(chǎn)生了濃厚的興趣,在往年的TREC比賽中,QATrack是最受關(guān)注的評測項(xiàng)目之一。在TREC的支持下,國外已經(jīng)開發(fā)許多成熟的問答系統(tǒng)。在大規(guī)模開放域問答系統(tǒng)方面,有回答領(lǐng)域常識的Start,面向web在線問答的MULDER,具有語義分析功能的AskJeeves和支持多語種提問的AnswerBus等;而在受限域問答系統(tǒng)方面,英日德的發(fā)展水平較為領(lǐng)

4、先,開發(fā)了旅游問答系統(tǒng)TCS和類似于垂直搜索引擎業(yè)務(wù)取向的專業(yè)領(lǐng)域問答系統(tǒng)等。對問答系統(tǒng)的錯(cuò)誤結(jié)果進(jìn)行分析證明,有36.4%的錯(cuò)誤是由于問句分類系統(tǒng)造成的。人工分類固然比較簡單,也不需要大規(guī)模的訓(xùn)練語料,但分類比較粗糙,而且可移植性較差。為了避免這些問題,概率方法逐漸應(yīng)用到問句分類當(dāng)中并取得了很好的成績。一些研究使用的概率方法是基于模板的匹配方法,即每一種類型問題對應(yīng)若干條模板,新的問題利用這些模板分類。另一種概率方法是應(yīng)用機(jī)器學(xué)習(xí)算法,并且取得了較好的成績。Zhang采用支持向量機(jī)(SVM)對問句進(jìn)行訓(xùn)練,采用了一種treeke

5、nel作為SVM的核并利用少許簡單的句法特征,準(zhǔn)確率達(dá)到了90%。英文的問句分類取得了較好的成績,相比之下,漢語問答系統(tǒng)還沒有顯著的成果,業(yè)界的開發(fā)熱情并不高漲,漢語問句分類還在研究起步階段。主要原因是:漢語語言處理基礎(chǔ)資源的極其匱乏,使得許多關(guān)鍵技術(shù)成為瓶頸,與英語相比,漢語語法更復(fù)雜,且順序不定,分析起來更麻煩。另外國家投入和重視程度也不充分。目前國內(nèi)的一些高校和專有機(jī)構(gòu)借助問答系統(tǒng)的思想開發(fā)了一些應(yīng)用類的系統(tǒng),做為科研或商業(yè)用途。哈爾濱工業(yè)大學(xué)是率先研究問答系統(tǒng)的高校之一,歷經(jīng)多年的不懈努力,碩果累累,涉及的領(lǐng)域面非常多元。

6、問句分類的目標(biāo)是:以分類體系為模板,通過分析問句內(nèi)容或判斷問句模式而得到問句的類型。問句類型與分類體系的關(guān)系就相當(dāng)于數(shù)學(xué)概念中的映射關(guān)系,也就是把未知類別的問題映射到已有的類別中。問句分類是問句理解模塊的核心部分,主要有兩方面作用:一、縮小信息檢索范圍,提高效率;二、指導(dǎo)答案抽取策略,提供類別信息。由此可見,信息檢索和答案抽取兩個(gè)模塊的工作流程都需要問句分類輸出的信息,問句分類的效果貫穿整個(gè)問答系統(tǒng)。問句分類的處理對象是大量非結(jié)構(gòu)化的用自然語言描述的無規(guī)律文本數(shù)據(jù),在對問句特征提取前,需要對問句文本進(jìn)行相應(yīng)的預(yù)處理,處理結(jié)果的優(yōu)劣

7、直接影響分類效率和準(zhǔn)確度以及最終模式的有效性。首先調(diào)用中科院開發(fā)的Java版ICTCLAS分詞包,實(shí)現(xiàn)對漢語問句分詞、詞性標(biāo)注、命名實(shí)體識別和新詞識別等功能,其次,問句中的主謂、動(dòng)賓、定語修飾等關(guān)系非常典型,尤其是疑問意向詞指示鮮明,很大程度可以通過判斷意向詞得到問句類型,分類精度依賴待分類向量的特征稠密度,只有得到充分的信息才能保證準(zhǔn)確性。而問題包含的信息非常少,提取出的有效特征往往不足十個(gè),在高維空間中很難對稀疏向量歸類,因此需要對原始問句中的關(guān)鍵詞進(jìn)行詞義擴(kuò)展。董振東和董強(qiáng)兩位專家開發(fā)的《知網(wǎng)》(HowNet),是作為概念擴(kuò)

8、展的基礎(chǔ)資源。分類方法是基于統(tǒng)計(jì)學(xué)習(xí)理論的方法。通過對標(biāo)注的語料統(tǒng)計(jì)學(xué)習(xí),分析問句類型的特征分布規(guī)律,建立模型以實(shí)現(xiàn)分類。統(tǒng)計(jì)法具有通用、易于移植和擴(kuò)展的特點(diǎn),它對不同的語料庫沒有擇優(yōu)或者排斥的現(xiàn)象,處理方式都是遵循數(shù)學(xué)原理或公式,所以很大程度上,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。