資源描述:
《基于本體的受限領(lǐng)域問(wèn)答系統(tǒng)知識(shí)庫(kù)的構(gòu)建及答案抽取》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、http://www.paper.edu.cn基于本體的受限領(lǐng)域問(wèn)答系統(tǒng)知識(shí)庫(kù)的構(gòu)建及1答案抽取111,21陶利強(qiáng),樊孝忠,劉杰,陳康1北京理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,北京(100081)2首都師范大學(xué)信息工程學(xué)院,北京(100037)E-mail:20501645@bit.edu.cn摘要:本文針對(duì)受限領(lǐng)域自動(dòng)問(wèn)答系統(tǒng),以某不孕不育醫(yī)院為例,詳細(xì)地闡述了基于本體的領(lǐng)域知識(shí)庫(kù)構(gòu)建及答案抽取方法,采用OWL語(yǔ)言描述領(lǐng)域知識(shí)、使知識(shí)的組織更合理、也便于知識(shí)庫(kù)的維護(hù)和共享.另外,在答案抽取中,采取了基于規(guī)則的推理和信息檢索相結(jié)合的方法。實(shí)驗(yàn)結(jié)果表明,該方法提高了準(zhǔn)確率和召回率。關(guān)鍵詞:自動(dòng)問(wèn)答
2、;知識(shí)庫(kù);本體;答案抽取中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A1.引言隨著互聯(lián)網(wǎng)的普及,網(wǎng)上信息越來(lái)越豐富,搜索引擎如Google、Yahoo、百度等已經(jīng)逐漸成為人們生活內(nèi)容的一部分。但是,傳統(tǒng)搜索引擎有許多不足之處,它返回的是許多相關(guān)的網(wǎng)頁(yè),而不是準(zhǔn)確的答案。另外,它僅以關(guān)鍵詞索引,沒(méi)有觸及到語(yǔ)義信息,因此很難真正理解用戶(hù)的意圖。而在QA(AutomaticQuestionandAnswerSystem)中,用戶(hù)可以使用日常生活中的句子進(jìn)行提問(wèn),系統(tǒng)通過(guò)對(duì)問(wèn)題分析、理解,直接返回給用戶(hù)答案。因此自動(dòng)問(wèn)答系統(tǒng)更好地滿(mǎn)足了用戶(hù)的要求。可以說(shuō),問(wèn)答系統(tǒng)就是新一代的搜索引擎。[1]本體(onto
3、logy)是一個(gè)哲學(xué)概念,它指的是對(duì)萬(wàn)物本源的追問(wèn)。近年來(lái),本體受到人工智能領(lǐng)域的普遍關(guān)注,并得到了廣泛應(yīng)用。在受限領(lǐng)域QA中采用本體知識(shí)庫(kù),可以更好的表示知識(shí)之間的內(nèi)在關(guān)系,知識(shí)的組織更加合理,減少冗余存儲(chǔ),也有利于進(jìn)行基于語(yǔ)義的答案抽取。本文的第二部分,簡(jiǎn)述了基于本體知識(shí)庫(kù)的自動(dòng)問(wèn)答系統(tǒng)結(jié)構(gòu);第三和第四部分詳細(xì)的闡釋了本體知識(shí)庫(kù)的構(gòu)建及答案抽取的基本原理與關(guān)鍵技術(shù)。最后,在對(duì)實(shí)驗(yàn)結(jié)果分析的基礎(chǔ)上,分析了優(yōu)缺點(diǎn),并提出了改進(jìn)的方向。2.系統(tǒng)結(jié)構(gòu)及設(shè)計(jì)思想本系統(tǒng)的設(shè)計(jì)方案中,問(wèn)答系統(tǒng)的結(jié)構(gòu)主要包括:知識(shí)庫(kù)、問(wèn)句預(yù)處理模塊、問(wèn)題分析模塊和答案抽取模塊。圖1是這個(gè)系統(tǒng)的高度抽象。1本課題得到
4、教育部高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金(項(xiàng)目名稱(chēng):受限領(lǐng)域自動(dòng)問(wèn)答系統(tǒng),項(xiàng)目編號(hào):20050007023)資助1http://www.paper.edu.cn提交問(wèn)題返回答案知網(wǎng)同義詞庫(kù)答預(yù)處理模塊案領(lǐng)域詞庫(kù)抽領(lǐng)域本體知取識(shí)庫(kù)模通用詞庫(kù)塊用戶(hù)交互問(wèn)句實(shí)例庫(kù)問(wèn)句分析問(wèn)句模板庫(kù)不成功成功生成問(wèn)句向量匹配圖1受限領(lǐng)域QA系統(tǒng)結(jié)構(gòu)圖首先,對(duì)用戶(hù)提交的問(wèn)句進(jìn)行預(yù)處理,即:刪除停用詞、分詞、詞性標(biāo)注、同義詞替換、命名實(shí)體識(shí)別等,這是后續(xù)處理的基礎(chǔ)。這一步進(jìn)行了簡(jiǎn)單的語(yǔ)義分析,同義詞的替換,使用了知網(wǎng)、同義詞詞庫(kù)和領(lǐng)域詞庫(kù);分詞和詞性標(biāo)注用到了通用詞庫(kù)。在預(yù)處理的基礎(chǔ)上,進(jìn)行深入的語(yǔ)義分析。其目的是分析
5、出用戶(hù)的真正意圖,確定檢索類(lèi)型及檢索策略。采用基于組塊分析和問(wèn)句規(guī)則模板的方法,分析問(wèn)題的句法結(jié)構(gòu)關(guān)系、提取關(guān)鍵詞、關(guān)鍵詞擴(kuò)展。在這一步問(wèn)句模板庫(kù)和問(wèn)句實(shí)例庫(kù)起到了關(guān)鍵的支持作用。答案抽取模塊進(jìn)行答案查找,其入口是問(wèn)句的語(yǔ)義表征,即問(wèn)句向量形式。問(wèn)句向量中包含了用戶(hù)問(wèn)題的焦點(diǎn)。即:?jiǎn)枌?shí)體之間的關(guān)系、還是問(wèn)實(shí)體的屬性,包括時(shí)間屬性、地點(diǎn)、[2,3]原因、治療方法等,可以在知識(shí)庫(kù)中檢索、推理并返回答案。3.基于本體的不孕不育領(lǐng)域知識(shí)庫(kù)的設(shè)計(jì)[4]1993年Gruber曾給出本體的定義“概念體系的規(guī)范”,后來(lái)Studer等人在這個(gè)定義的基礎(chǔ)上做了更進(jìn)一步的解釋?zhuān)骸氨倔w是對(duì)概念體系明確的,形式化
6、,可共享的規(guī)范說(shuō)明”。[5]OWL(OntologyWebLanguage)語(yǔ)言是W3C力推的本體描述語(yǔ)言,它以描述邏輯為基礎(chǔ),具有良好的語(yǔ)義表示和邏輯推理能力。它包含三個(gè)子集:OWLLite,OWLDL,OWLFull,其描述能力依次遞增,本系統(tǒng)采用OWLDL,因?yàn)樗强膳卸ǖ模颐枋瞿芰?qiáng)于OWLLite。構(gòu)建本體的目標(biāo)是創(chuàng)造一個(gè)哲學(xué),邏輯框架,分類(lèi)或者達(dá)成一個(gè)領(lǐng)域中共同的理解。這個(gè)目標(biāo)決定了這個(gè)過(guò)程的范圍和復(fù)雜程度。所以在創(chuàng)建一個(gè)本體之前,必須要明確以下問(wèn)題:為什么要構(gòu)建本體?想用它來(lái)做什么?這是創(chuàng)建一個(gè)本體的最初始的步驟。圖2示出了本體2http://www.paper.edu.
7、cn[6]知識(shí)庫(kù)的構(gòu)建過(guò)程。本體創(chuàng)建階段建立本體的目標(biāo),范圍,需求分析領(lǐng)域概念抽取知識(shí)庫(kù)本體關(guān)系分析本體編碼通用本體領(lǐng)域本體本體的維護(hù)與演進(jìn)本體維護(hù)圖2本體知識(shí)庫(kù)的建立過(guò)程本文針對(duì)某不孕不育醫(yī)院,構(gòu)建了不孕不育領(lǐng)域的本體,并且將其作為自動(dòng)問(wèn)答系統(tǒng)的知識(shí)庫(kù)。其目的是為病人及其家屬服務(wù)的,并且可以減輕醫(yī)生及工作人員的負(fù)擔(dān)。但是不孕不育領(lǐng)域已經(jīng)超出了計(jì)算機(jī)科學(xué)的范圍,為此,我們找了許多關(guān)于不孕不育的文獻(xiàn)資料,并請(qǐng)教了該領(lǐng)域的專(zhuān)家。圖3示出