以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究

以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究

ID:47025118

大?。?80.50 KB

頁數(shù):19頁

時間:2019-06-28

以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究_第1頁
以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究_第2頁
以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究_第3頁
以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究_第4頁
以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究_第5頁
資源描述:

《以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)Why問句研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、以網(wǎng)際網(wǎng)路內(nèi)容為基礎(chǔ)之問答系統(tǒng)“Why”問句研究沈天佐 林川傑 陳信希國立臺灣大學資訊工程學系{tzshen,cjlin}@nlg.csie.ntu.edu.tw;hh_chen@csie.ntu.edu.tw摘要以“Why”開頭的問句,問題的答案是“原因”?!霸颉庇胁煌男蛻B(tài),可能是一個片語、一個子句、一個句子,甚至跨越句子的範圍。目前的問答系統(tǒng)特別針對“Why問句”研究的並不多,本文探討如何從文件中擷取出“Why問句”的答案,文件的來源設(shè)定在網(wǎng)際網(wǎng)路。我們運用搜尋引擎取得相關(guān)文件,以描述因果關(guān)係的句型來擷取答案

2、。由於句型本身可能會有歧義性,某個句型的出現(xiàn)並不代表一定是問句的答案,本文也針對這項議題進一步分析。我們並將所發(fā)展的問答系統(tǒng),與另外兩個以網(wǎng)際網(wǎng)路為基礎(chǔ)的問答系統(tǒng)─AnswerBus和LCC,作了效能的評估。在以50個問句的測試中,我們的系統(tǒng)、AnswerBus和LCC的MRR值分別為0.623、0.429和0.229,顯示我們的系統(tǒng)的效能優(yōu)於這兩個系統(tǒng)。1.緒論問答系統(tǒng)接受使用者的自然語言問句,從一堆文件集中,找出問句的答案。透過問答系統(tǒng),使用者可以直接得到答案,而不必自己瀏覽資訊檢索系統(tǒng)所傳回的一堆相關(guān)文件尋找答

3、案。TREC(TextRetrievalConference)自1999年開始舉辦問答系統(tǒng)的效能評比(Voorhees,1999),帶動近年來問答系統(tǒng)的研究風潮。TREC評比的重點隨著研究成果的進展,每年都進行調(diào)整。以2002年為例,評比的重點在於參賽者的系統(tǒng)是否能夠準確地定出答案的範圍,而不是以一個固定長度的文字片段當作答案。完整的問答系統(tǒng)分為兩步驟,第一個步驟是從所有文件中找出與問句相關(guān)的文件,此即「資訊檢索」的部分。如何將自然語言問句轉(zhuǎn)換為適合資訊檢索系統(tǒng)的查詢字串,是個研究課題。第二個步驟是從相關(guān)文件中找出問

4、句的答案,此稱為「答案擷取」,這個部分是問答系統(tǒng)主要研究重點。進行「答案擷取」,問答系統(tǒng)必須針對問句進行分析,以取得答案的類型。常見的「答案擷取」方法是利用“NamedEntityTagging”的技術(shù),再加上“問句與上下文相似度的計算”。從簡單的關(guān)鍵字比對,到較複雜的語意一致性判斷,都是可能的上下文與問句相似度計算方法(Harabagiuetal.,2000a;MoldovanandRus,2001)。以網(wǎng)際網(wǎng)路為基礎(chǔ)的問答系統(tǒng)研究,主要是利用網(wǎng)路上常見的搜尋引擎進行資訊檢索,以取得相關(guān)文件,再利用與TREC問答系

5、統(tǒng)類似的技術(shù)來擷取答案。這種類型的問答系統(tǒng),必須考量即時性,避免太複雜技術(shù)帶來的負擔。目前的研究有Radevetal.(2001)、Radevetal.(2002)、Zheng(2002)、Lin(2002)。另外,網(wǎng)頁文件的一些特性,例如HTML標記、超鏈結(jié)、風格差異、內(nèi)容正確性等,也是在研究上必須考量的議題。目前大部分問答系統(tǒng)擷取答案方法,主要針對答案類型為NamedEntities。對於答案較複雜,沒有固定形式的問句類型,如“Why…?”和“HowdoesSV?”,則較少有深入的探討與分析。Girju與Mold

6、ovan(2002)曾經(jīng)探討過回答“cause-effectquestions”,研究因果關(guān)係在文中的表達方法。不過這篇文章的重點擺在這種pattern上,其中的動詞必須是個“causativeverb”,例如:“cause”、“l(fā)eadto”、“make”等。由於這些動詞未必一定代表因果關(guān)係,如“make”有時的意義為“製造”,所以研究重點在於如何由VERB、NP1和NP2來判斷是否描述因果關(guān)係。在閱讀測驗問答系統(tǒng)(readingcomprehension)的研究上,Anandetal.(2

7、000)和RiloffandThelen(2000)也有相關(guān)研究。系統(tǒng)針對一篇文章,找到問句的答案。TREC問答系統(tǒng)與這類問答系統(tǒng)主要的不同點是答案來源為多篇相關(guān)文件,答案可能重複出現(xiàn)多次,有較多機會找到答案,但雜訊也會比較多。閱讀測驗問答系統(tǒng)則相反,答案可能只出現(xiàn)在文章中一次,所以需要較複雜的方法來找到不是那麼明顯的答案,但另一方面雜訊會比較少。第2節(jié)說明實作系統(tǒng)的架構(gòu),以及各個子系統(tǒng)。第3節(jié)引用PennTreebank語料庫,分析擷取答案patterns的準確率。第4節(jié)為本系統(tǒng)的效能評估,並與另外兩個以網(wǎng)際網(wǎng)路為

8、基礎(chǔ)的問答系統(tǒng)比較。第5節(jié)是結(jié)論與未來研究方向。1.系統(tǒng)概觀1.1資訊檢索系統(tǒng)本文所提的問答系統(tǒng)架構(gòu)如圖1,只針對單一的問句類型(也就是以“why”開頭的問句)進行處理,所以並未包含問句分析子系統(tǒng),同時我們選擇Google來找出與問句相關(guān)的網(wǎng)頁文件。首先將問句轉(zhuǎn)為查詢字串,去掉問句中的停用詞(stopwords,包括疑問詞、介系詞、連接詞、代名

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。