基于SVM的漢語問句分類研究【文獻(xiàn)綜述】

ID：472254

大小：19.50 KB

頁數(shù)：3頁

時(shí)間：2017-08-07

資源描述：

《基于SVM的漢語問句分類研究【文獻(xiàn)綜述】》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、畢業(yè)設(shè)計(jì)文獻(xiàn)綜述計(jì)算機(jī)科學(xué)技術(shù)基于SVM的漢語問句分類研究摘要：問答系統(tǒng)是信息檢索的高級形式，其中問句理解模塊的問句分類任務(wù)能夠?yàn)楹罄m(xù)的信息檢索模塊縮小搜索范圍，并有助于答案抽取模塊制定抽取策略，對問答系統(tǒng)整體性能的提高具有重要作用。處在發(fā)展初期的中文問答系統(tǒng)尤其需要追求每個(gè)階段的品質(zhì)，所以漢語問句分類作為首要子過程極具研究價(jià)值。采取支持向量機(jī)的方法對漢語問句進(jìn)行分類比較可行且有效，因?yàn)樘幚韱栴}集得到的特征空間維數(shù)較高，支持向量機(jī)可以有效解決高維問題；問題向量特征相關(guān)性小，支持向量機(jī)能夠不受特征獨(dú)立性假設(shè)的影響；問題向量特征稀疏，

2、支持向量機(jī)具有主動(dòng)學(xué)習(xí)能力。此外，如果缺乏用于公測的問題集，支持向量機(jī)在自行構(gòu)建的問題集上仍然可以得到相對最優(yōu)的結(jié)果，具有良好的泛化和推廣性。關(guān)鍵詞：問答系統(tǒng)；漢語問句分類；支持向量機(jī)；統(tǒng)計(jì)學(xué)原理信息時(shí)代，網(wǎng)絡(luò)發(fā)展日行千里，搜索引擎深入到知識工程的各個(gè)領(lǐng)域。人們生活中的科技含量飛速上升，信息需求與日俱增，對搜索引擎性能的要求也愈發(fā)苛刻。問答系統(tǒng)(QuestionAnsweringSystem,QA)正是在這個(gè)關(guān)鍵時(shí)期開發(fā)而成，它屬于信息檢索系統(tǒng)的高級形式，能夠?qū)ψ匀徽Z言表述的問題輸出精準(zhǔn)、明確的答案。自1999年文本檢索會(huì)議(Te

3、xtREtrievalConference,簡稱TREC)引入問答系統(tǒng)評測專項(xiàng)(QuestionAnsweringTrack,簡稱QATrack)后,各種研究機(jī)構(gòu)對基于自然語言的問答系統(tǒng)再次產(chǎn)生了濃厚的興趣,在往年的TREC比賽中,QATrack是最受關(guān)注的評測項(xiàng)目之一。在TREC的支持下，國外已經(jīng)開發(fā)許多成熟的問答系統(tǒng)。在大規(guī)模開放域問答系統(tǒng)方面，有回答領(lǐng)域常識的Start，面向web在線問答的MULDER，具有語義分析功能的AskJeeves和支持多語種提問的AnswerBus等；而在受限域問答系統(tǒng)方面，英日德的發(fā)展水平較為領(lǐng)

4、先，開發(fā)了旅游問答系統(tǒng)TCS和類似于垂直搜索引擎業(yè)務(wù)取向的專業(yè)領(lǐng)域問答系統(tǒng)等。對問答系統(tǒng)的錯(cuò)誤結(jié)果進(jìn)行分析證明,有36.4%的錯(cuò)誤是由于問句分類系統(tǒng)造成的。人工分類固然比較簡單,也不需要大規(guī)模的訓(xùn)練語料,但分類比較粗糙,而且可移植性較差。為了避免這些問題,概率方法逐漸應(yīng)用到問句分類當(dāng)中并取得了很好的成績。一些研究使用的概率方法是基于模板的匹配方法,即每一種類型問題對應(yīng)若干條模板,新的問題利用這些模板分類。另一種概率方法是應(yīng)用機(jī)器學(xué)習(xí)算法,并且取得了較好的成績。Zhang采用支持向量機(jī)(SVM)對問句進(jìn)行訓(xùn)練,采用了一種treeke

5、nel作為SVM的核并利用少許簡單的句法特征,準(zhǔn)確率達(dá)到了90%。英文的問句分類取得了較好的成績，相比之下，漢語問答系統(tǒng)還沒有顯著的成果，業(yè)界的開發(fā)熱情并不高漲，漢語問句分類還在研究起步階段。主要原因是：漢語語言處理基礎(chǔ)資源的極其匱乏，使得許多關(guān)鍵技術(shù)成為瓶頸，與英語相比,漢語語法更復(fù)雜,且順序不定,分析起來更麻煩。另外國家投入和重視程度也不充分。目前國內(nèi)的一些高校和專有機(jī)構(gòu)借助問答系統(tǒng)的思想開發(fā)了一些應(yīng)用類的系統(tǒng)，做為科研或商業(yè)用途。哈爾濱工業(yè)大學(xué)是率先研究問答系統(tǒng)的高校之一，歷經(jīng)多年的不懈努力，碩果累累，涉及的領(lǐng)域面非常多元。

6、問句分類的目標(biāo)是：以分類體系為模板，通過分析問句內(nèi)容或判斷問句模式而得到問句的類型。問句類型與分類體系的關(guān)系就相當(dāng)于數(shù)學(xué)概念中的映射關(guān)系，也就是把未知類別的問題映射到已有的類別中。問句分類是問句理解模塊的核心部分，主要有兩方面作用：一、縮小信息檢索范圍，提高效率；二、指導(dǎo)答案抽取策略，提供類別信息。由此可見，信息檢索和答案抽取兩個(gè)模塊的工作流程都需要問句分類輸出的信息，問句分類的效果貫穿整個(gè)問答系統(tǒng)。問句分類的處理對象是大量非結(jié)構(gòu)化的用自然語言描述的無規(guī)律文本數(shù)據(jù)，在對問句特征提取前，需要對問句文本進(jìn)行相應(yīng)的預(yù)處理，處理結(jié)果的優(yōu)劣

7、直接影響分類效率和準(zhǔn)確度以及最終模式的有效性。首先調(diào)用中科院開發(fā)的Java版ICTCLAS分詞包，實(shí)現(xiàn)對漢語問句分詞、詞性標(biāo)注、命名實(shí)體識別和新詞識別等功能，其次，問句中的主謂、動(dòng)賓、定語修飾等關(guān)系非常典型，尤其是疑問意向詞指示鮮明，很大程度可以通過判斷意向詞得到問句類型，分類精度依賴待分類向量的特征稠密度，只有得到充分的信息才能保證準(zhǔn)確性。而問題包含的信息非常少，提取出的有效特征往往不足十個(gè)，在高維空間中很難對稀疏向量歸類，因此需要對原始問句中的關(guān)鍵詞進(jìn)行詞義擴(kuò)展。董振東和董強(qiáng)兩位專家開發(fā)的《知網(wǎng)》（HowNet），是作為概念擴(kuò)

8、展的基礎(chǔ)資源。分類方法是基于統(tǒng)計(jì)學(xué)習(xí)理論的方法。通過對標(biāo)注的語料統(tǒng)計(jì)學(xué)習(xí)，分析問句類型的特征分布規(guī)律，建立模型以實(shí)現(xiàn)分類。統(tǒng)計(jì)法具有通用、易于移植和擴(kuò)展的特點(diǎn)，它對不同的語料庫沒有擇優(yōu)或者排斥的現(xiàn)象，處理方式都是遵循數(shù)學(xué)原理或公式，所以很大程度上，

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于SVM的漢語問句分類研究【文獻(xiàn)綜述】

基于SVM的漢語問句分類研究【文獻(xiàn)綜述】

相關(guān)文章

相關(guān)標(biāo)簽