GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf

GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf

ID:52470001

大?。?.41 MB

頁數(shù):4頁

時間:2020-03-27

GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf_第1頁
GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf_第2頁
GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf_第3頁
GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf_第4頁
資源描述:

《GIS中文查詢系統(tǒng)的詞典設計與分詞研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第31卷第4期武漢大學學報信息科學版Vol.31No.42006年4月GeomaticsandInformationScienceofWuhanUniversityApr.2006文章編號:16718860(2006)04034804文獻標志碼:AGIS中文查詢系統(tǒng)的詞典設計與分詞研究1,21徐愛萍邊馥苓(1武漢大學空間信息與數(shù)字工程研究中心,武漢市珞喻路129號,430079)(2武漢大學計算機學院,武漢市珞喻路129號,430079)摘要:在分析系統(tǒng)應用領域的基礎上設計了系統(tǒng)詞典

2、,提出了基于擴展ER空間數(shù)據(jù)庫環(huán)境的全匹配分詞算法,分析了算法的復雜度,解決了切分歧義和未登錄詞的問題,并通過一個實驗原型對設計進行了驗證,為GIS中文查詢語句的正確理解提供了有效的語義信息。關(guān)鍵詞:GIS;中文查詢;系統(tǒng)詞典;分詞;全匹配中圖法分類號:P208國內(nèi)外學者在數(shù)據(jù)庫的自然語言查詢中已經(jīng)[1]進行了多年的研究和探索,取得了很大的進步,但基于中文語句的數(shù)據(jù)庫查詢離實際應用仍然有距離,其主要原因是漢語不同于西方語言,存在切[2][3]分歧義和未登錄詞問題。受限語言的基本思想是在系統(tǒng)應用領

3、域的基礎上,對自然語言適當加以限制,以顯著降低復雜性和減少機器處理的困圖1擴展ER空間數(shù)據(jù)庫實體關(guān)系模型難。因此,研究基于系統(tǒng)應用領域的中文數(shù)據(jù)庫Fig.1RelationshipModelofExtendedER查詢接口是可行的,因為數(shù)據(jù)庫查詢句相對簡單,SpatialDatabaseEntity表達的語義和查詢的內(nèi)容比較明確,歧義大大減少,因此,對添加的限制是可以接受的,相關(guān)研究1.1通用詞典可參見文獻[46]。但現(xiàn)有文獻中,對空間數(shù)據(jù)庫屬于領域無關(guān)詞類的詞存儲于系統(tǒng)的通用詞[7]進行中

4、文查詢的研究成果還不多見。本文在分析庫中,在系統(tǒng)移植時,這些詞一般不需要修改。系統(tǒng)應用領域的基礎上設計了系統(tǒng)詞典,提出了其分類如下:①連詞、介詞、量詞、助詞、數(shù)詞和限基于擴展ER空間數(shù)據(jù)庫的全匹配分詞算法。定詞,在詞典里沒有形式描述;②查詢動詞放在查詢語句的最前面;③疑問詞是判斷查詢語句結(jié)1系統(tǒng)詞典設計構(gòu)的關(guān)鍵詞;④關(guān)系詞用于形成關(guān)系表達式,如等于/為、以上/大于、不小于、小于/以下、不大自然語言理解中,詞典是中文分詞、語法分于/不超過、不等于等,它們在詞典中的語義描述析、語義理解的基礎,基于

5、受限漢字的詞典設計必分別為=、>、、<、、<>等;⑤邏輯詞指須對應用領域進行分析和研究,本系統(tǒng)的應用領是/真、不/假/否、或/或者、異或、并/并且/和之域是基于擴展ER空間數(shù)據(jù)庫實體關(guān)系模型(如類的詞匯,它們在詞典中的語義描述分別為圖1所示)的一系列中文查詢語句。TRUE,FALSE,NOT,OR,XOR,AND等;為便于實現(xiàn)通用、可靠的分詞系統(tǒng),把要提取⑥函數(shù)詞對應著一個函數(shù),如總數(shù)、平均數(shù)、計的詞條分為三大類:通用詞、空間對象專用詞、空數(shù)、距離、面積、長度等,它們在詞典中的語

6、義描間關(guān)系詞,分別存放在相應的詞典中。述分別為SUM,AVG,COUNT,Distance收稿日期:20060117。項目來源:武漢市青年科技晨光計劃資助項目(200450060716)。第31卷第4期徐愛萍等:GIS中文查詢系統(tǒng)的詞典設計與分詞研究349(Shape1,Shape2),Area(Shape),Length在定義時,要避免這種二義性,在詞典中不要出現(xiàn)(Shape)等;⑦排序詞主要用在排序短語中,如名稱的詞,而要用城市名稱和河流名稱,并從大到小、從高到低等,

7、這類詞在詞典里的形式且還要有城市的名稱和河流的名稱,其中,描述為ORDERBY。城市名稱和城市的名稱對應的詞類和描述完1.2空間對象專用詞典全相同。所謂空間對象詞,是空間對象自然語義的標表4部分專用詞典[7]識。在空間數(shù)據(jù)庫中,同一層內(nèi)的空間對象都Tab.4PartSpecialDictionary有一個FID作為標識符,在相應的屬性字段中,WordWordtypeDescribe城市實體湖北及鄰區(qū)中國底圖一般有一個字段存放該空間對象的自然名稱,則城市名稱屬性湖北及鄰區(qū)中國

8、底圖.Name該字段就可以作為空間對象的自然語義標識。湖北屬性值湖北及鄰區(qū)中國底圖.Name=空間對象詞分為兩類,一類表示空間對象集湖北合,一類表示空間對象個體。如在空間數(shù)據(jù)庫中,1.3空間關(guān)系詞典有一個河流層,則該層所表示的空間對象的集合空間關(guān)系詞典要根據(jù)幾何對象之間的空間關(guān)為河流(名稱、經(jīng)度、緯度、長度,視具體情況而定),系而建立,本測試系統(tǒng)是在MapInfoMapXtreme平在該層中,有若干線空間對象,每一個線空間對象臺下完成的。在MapInfoMa

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。