GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf

GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf

ID:52470001

大?。?.41 MB

頁(yè)數(shù):4頁(yè)

時(shí)間:2020-03-27

GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf_第1頁(yè)
GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf_第2頁(yè)
GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf_第3頁(yè)
GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf_第4頁(yè)
資源描述:

《GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、第31卷第4期武漢大學(xué)學(xué)報(bào)信息科學(xué)版Vol.31No.42006年4月GeomaticsandInformationScienceofWuhanUniversityApr.2006文章編號(hào):16718860(2006)04034804文獻(xiàn)標(biāo)志碼:AGIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究1,21徐愛(ài)萍邊馥苓(1武漢大學(xué)空間信息與數(shù)字工程研究中心,武漢市珞喻路129號(hào),430079)(2武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢市珞喻路129號(hào),430079)摘要:在分析系統(tǒng)應(yīng)用領(lǐng)域的基礎(chǔ)上設(shè)計(jì)了系統(tǒng)詞典

2、,提出了基于擴(kuò)展ER空間數(shù)據(jù)庫(kù)環(huán)境的全匹配分詞算法,分析了算法的復(fù)雜度,解決了切分歧義和未登錄詞的問(wèn)題,并通過(guò)一個(gè)實(shí)驗(yàn)原型對(duì)設(shè)計(jì)進(jìn)行了驗(yàn)證,為GIS中文查詢語(yǔ)句的正確理解提供了有效的語(yǔ)義信息。關(guān)鍵詞:GIS;中文查詢;系統(tǒng)詞典;分詞;全匹配中圖法分類號(hào):P208國(guó)內(nèi)外學(xué)者在數(shù)據(jù)庫(kù)的自然語(yǔ)言查詢中已經(jīng)[1]進(jìn)行了多年的研究和探索,取得了很大的進(jìn)步,但基于中文語(yǔ)句的數(shù)據(jù)庫(kù)查詢離實(shí)際應(yīng)用仍然有距離,其主要原因是漢語(yǔ)不同于西方語(yǔ)言,存在切[2][3]分歧義和未登錄詞問(wèn)題。受限語(yǔ)言的基本思想是在系統(tǒng)應(yīng)用領(lǐng)

3、域的基礎(chǔ)上,對(duì)自然語(yǔ)言適當(dāng)加以限制,以顯著降低復(fù)雜性和減少機(jī)器處理的困圖1擴(kuò)展ER空間數(shù)據(jù)庫(kù)實(shí)體關(guān)系模型難。因此,研究基于系統(tǒng)應(yīng)用領(lǐng)域的中文數(shù)據(jù)庫(kù)Fig.1RelationshipModelofExtendedER查詢接口是可行的,因?yàn)閿?shù)據(jù)庫(kù)查詢句相對(duì)簡(jiǎn)單,SpatialDatabaseEntity表達(dá)的語(yǔ)義和查詢的內(nèi)容比較明確,歧義大大減少,因此,對(duì)添加的限制是可以接受的,相關(guān)研究1.1通用詞典可參見(jiàn)文獻(xiàn)[46]。但現(xiàn)有文獻(xiàn)中,對(duì)空間數(shù)據(jù)庫(kù)屬于領(lǐng)域無(wú)關(guān)詞類的詞存儲(chǔ)于系統(tǒng)的通用詞[7]進(jìn)行中

4、文查詢的研究成果還不多見(jiàn)。本文在分析庫(kù)中,在系統(tǒng)移植時(shí),這些詞一般不需要修改。系統(tǒng)應(yīng)用領(lǐng)域的基礎(chǔ)上設(shè)計(jì)了系統(tǒng)詞典,提出了其分類如下:①連詞、介詞、量詞、助詞、數(shù)詞和限基于擴(kuò)展ER空間數(shù)據(jù)庫(kù)的全匹配分詞算法。定詞,在詞典里沒(méi)有形式描述;②查詢動(dòng)詞放在查詢語(yǔ)句的最前面;③疑問(wèn)詞是判斷查詢語(yǔ)句結(jié)1系統(tǒng)詞典設(shè)計(jì)構(gòu)的關(guān)鍵詞;④關(guān)系詞用于形成關(guān)系表達(dá)式,如等于/為、以上/大于、不小于、小于/以下、不大自然語(yǔ)言理解中,詞典是中文分詞、語(yǔ)法分于/不超過(guò)、不等于等,它們?cè)谠~典中的語(yǔ)義描述析、語(yǔ)義理解的基礎(chǔ),基于

5、受限漢字的詞典設(shè)計(jì)必分別為=、>、、<、、<>等;⑤邏輯詞指須對(duì)應(yīng)用領(lǐng)域進(jìn)行分析和研究,本系統(tǒng)的應(yīng)用領(lǐng)是/真、不/假/否、或/或者、異或、并/并且/和之域是基于擴(kuò)展ER空間數(shù)據(jù)庫(kù)實(shí)體關(guān)系模型(如類的詞匯,它們?cè)谠~典中的語(yǔ)義描述分別為圖1所示)的一系列中文查詢語(yǔ)句。TRUE,FALSE,NOT,OR,XOR,AND等;為便于實(shí)現(xiàn)通用、可靠的分詞系統(tǒng),把要提?、藓瘮?shù)詞對(duì)應(yīng)著一個(gè)函數(shù),如總數(shù)、平均數(shù)、計(jì)的詞條分為三大類:通用詞、空間對(duì)象專用詞、空數(shù)、距離、面積、長(zhǎng)度等,它們?cè)谠~典中的語(yǔ)

6、義描間關(guān)系詞,分別存放在相應(yīng)的詞典中。述分別為SUM,AVG,COUNT,Distance收稿日期:20060117。項(xiàng)目來(lái)源:武漢市青年科技晨光計(jì)劃資助項(xiàng)目(200450060716)。第31卷第4期徐愛(ài)萍等:GIS中文查詢系統(tǒng)的詞典設(shè)計(jì)與分詞研究349(Shape1,Shape2),Area(Shape),Length在定義時(shí),要避免這種二義性,在詞典中不要出現(xiàn)(Shape)等;⑦排序詞主要用在排序短語(yǔ)中,如名稱的詞,而要用城市名稱和河流名稱,并從大到小、從高到低等,

7、這類詞在詞典里的形式且還要有城市的名稱和河流的名稱,其中,描述為ORDERBY。城市名稱和城市的名稱對(duì)應(yīng)的詞類和描述完1.2空間對(duì)象專用詞典全相同。所謂空間對(duì)象詞,是空間對(duì)象自然語(yǔ)義的標(biāo)表4部分專用詞典[7]識(shí)。在空間數(shù)據(jù)庫(kù)中,同一層內(nèi)的空間對(duì)象都Tab.4PartSpecialDictionary有一個(gè)FID作為標(biāo)識(shí)符,在相應(yīng)的屬性字段中,WordWordtypeDescribe城市實(shí)體湖北及鄰區(qū)中國(guó)底圖一般有一個(gè)字段存放該空間對(duì)象的自然名稱,則城市名稱屬性湖北及鄰區(qū)中國(guó)

8、底圖.Name該字段就可以作為空間對(duì)象的自然語(yǔ)義標(biāo)識(shí)。湖北屬性值湖北及鄰區(qū)中國(guó)底圖.Name=空間對(duì)象詞分為兩類,一類表示空間對(duì)象集湖北合,一類表示空間對(duì)象個(gè)體。如在空間數(shù)據(jù)庫(kù)中,1.3空間關(guān)系詞典有一個(gè)河流層,則該層所表示的空間對(duì)象的集合空間關(guān)系詞典要根據(jù)幾何對(duì)象之間的空間關(guān)為河流(名稱、經(jīng)度、緯度、長(zhǎng)度,視具體情況而定),系而建立,本測(cè)試系統(tǒng)是在MapInfoMapXtreme平在該層中,有若干線空間對(duì)象,每一個(gè)線空間對(duì)象臺(tái)下完成的。在MapInfoMa

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。