基于規(guī)則的中文分詞與地址匹配

基于規(guī)則的中文分詞與地址匹配

ID:41109242

大小:892.22 KB

頁(yè)數(shù):17頁(yè)

時(shí)間:2019-08-16

基于規(guī)則的中文分詞與地址匹配_第1頁(yè)
基于規(guī)則的中文分詞與地址匹配_第2頁(yè)
基于規(guī)則的中文分詞與地址匹配_第3頁(yè)
基于規(guī)則的中文分詞與地址匹配_第4頁(yè)
基于規(guī)則的中文分詞與地址匹配_第5頁(yè)
資源描述:

《基于規(guī)則的中文分詞與地址匹配》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、基于規(guī)則的中文地址分詞與匹配方法計(jì)算機(jī)技術(shù)研究背景及意義隨著地理信息系統(tǒng)(GIS)的不斷發(fā)展和其在各行業(yè)的廣泛應(yīng)用,人們對(duì)信息共享的要求也越來(lái)越迫切。例如在城市管網(wǎng)、交通導(dǎo)航、工商管理、公共衛(wèi)生、災(zāi)害管理等領(lǐng)域,地理信息系統(tǒng)作為信息共享的平臺(tái),其應(yīng)用越來(lái)越廣泛。城市各行業(yè)的數(shù)據(jù)庫(kù)都保存著大量和地理位置有關(guān)的非空間數(shù)據(jù)。但是這些行業(yè)建設(shè)的GIS系統(tǒng)并沒(méi)有足夠的空間位置數(shù)據(jù)進(jìn)行支撐,因?yàn)榈刂窋?shù)據(jù)并不能夠批量、準(zhǔn)確地轉(zhuǎn)化為空間化的信息。這些數(shù)據(jù)大多都沒(méi)有空間位置坐標(biāo),無(wú)法對(duì)應(yīng)到電子地圖上,也就無(wú)法進(jìn)行空間分析和管理決策。地址匹配技術(shù)正是這一問(wèn)題的解決方法。地址匹配技術(shù)就是把自然語(yǔ)言描述的地理位置

2、信息轉(zhuǎn)換成地理坐標(biāo)的過(guò)程。通過(guò)地址匹配技術(shù),可以把城市各個(gè)行業(yè)的非空間信息數(shù)據(jù)進(jìn)行空間化,進(jìn)而運(yùn)用到GIS實(shí)際應(yīng)用中,實(shí)現(xiàn)信息的集成與數(shù)據(jù)共享。GIS例如,百度地圖引入一些地址組成的基本概念:(1)地址串:就是一般的地址,日常的通信地址。例如:青島市黃島區(qū)前灣港路579號(hào)。(2)地址要素:組成地址串的若干詞組,如上面的地址就是由4個(gè)地址要素組成的,分別是“青島市”、“黃島區(qū)”、“前灣港路”和“579號(hào)”,每個(gè)地址要素相對(duì)獨(dú)立。(3)地址通名:顧名思義,就是地址要素中通用的那些字段。例如:地址要素“黃島區(qū)”中“區(qū)”為地址通名,“前灣港路”中“路”為地址通名。(4)地址專(zhuān)名:例如:“黃島區(qū)”中

3、“黃島”為地址專(zhuān)名。地址要素中去掉地址通名后剩余的部分就稱(chēng)為地址專(zhuān)名。KeytechnologiesonAddressmatchingStandardaddressmodel標(biāo)準(zhǔn)地址模型舉例中文分詞方法:1.基于字典的分詞方法(1)正向最大匹配法(2)逆向最大匹配法(3)最少切分詞方法(4)逐詞遍歷法2.基于理解的分詞方法3.基于統(tǒng)計(jì)的分詞方法在人工智能的自然語(yǔ)言處理(NLP)領(lǐng)域也會(huì)用到中文分詞技術(shù)。正向最大匹配法:它的基本思想是:首先創(chuàng)建一個(gè)用于自動(dòng)分詞的中文詞典,可以得知詞典中的最長(zhǎng)詞條的漢字個(gè)數(shù),假設(shè)個(gè)數(shù)為n。然后,取待切分句子的前n個(gè)字符作為匹配字段,在分詞詞典中進(jìn)行字段的查詢(xún)匹

4、配。如果詞典中有這樣的字段,則匹配成功。這樣,由n個(gè)字符組成的字段被切分出來(lái),作為一個(gè)詞。如果詞典中不存在這樣的字段,則匹配失敗,將字段末尾去一個(gè)漢字,剩下的n-1個(gè)字符作為新的字段,再進(jìn)行匹配,如此重復(fù),直到匹配成功為止。例如句子“我們是中華人民共和國(guó)的公民”,假設(shè)字典的最長(zhǎng)詞長(zhǎng)為7,它的正向最大匹配法的分詞流程如下表所示。分詞過(guò)程實(shí)例Processofsegmentation標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的創(chuàng)建:建立地址標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)系統(tǒng)是地址匹配的前提工作,需要將采集的城市地址按照確定的標(biāo)準(zhǔn)地址模型進(jìn)行標(biāo)準(zhǔn)化。在創(chuàng)建的標(biāo)準(zhǔn)地址庫(kù)中,分別存儲(chǔ)地址的行政區(qū)劃部分和詳細(xì)街道地址部分。中文地址的組成復(fù)雜多樣,對(duì)比標(biāo)

5、準(zhǔn)地址模型,可能存在地址表達(dá)不完整、殘缺的情況。(設(shè)定:1道路名,2門(mén)牌號(hào),3住宅小區(qū),4樓牌號(hào),5建筑物。)例如地址址武漢市青山區(qū)工業(yè)一路21號(hào),是1(道路名)+2(門(mén)牌號(hào))的模式,沒(méi)有3、4、5三種地址要素。因此需要定義規(guī)則以便于后面地址匹配的進(jìn)行。如下表所示。地址匹配規(guī)則樹(shù)Geocodingruletree對(duì)于存在語(yǔ)義歧義的模糊地址,可以利用棧存儲(chǔ)所有歧義情況,并構(gòu)建一棵歧義地址樹(shù),按照深度優(yōu)先原則遍歷該樹(shù),直至查詢(xún)到滿(mǎn)足規(guī)則的地址記錄為止。當(dāng)查詢(xún)失敗時(shí),可以讀取棧中上一層的歧義地址繼續(xù)查詢(xún)。雖然一定程度上加大了查詢(xún)的復(fù)雜度,但可以比較好的應(yīng)對(duì)歧義模糊地址的匹配問(wèn)題。例如,地址“江漢

6、墨水湖東側(cè)12號(hào)樓B座301室”,首先,行政區(qū)劃部分應(yīng)該是“江漢區(qū)”,缺少地址通名“區(qū)”;“墨水湖”表述有歧義,可能是墨水湖路,也可能是墨水湖小區(qū);另外,“東側(cè)、B座301室”為多余信息,應(yīng)該去掉。以此地址為例,算法的具體步驟如下:(1)判斷字符串中是否存在行政區(qū)劃。通過(guò)搜索標(biāo)準(zhǔn)地址庫(kù)中行政區(qū)劃表,查找到“江漢”一詞與記錄“江漢區(qū)”模糊匹配,將其分割出來(lái)。(2)對(duì)剩余字符串“墨水湖東側(cè)12號(hào)樓B座301室”進(jìn)行地址分詞匹配。通過(guò)匹配規(guī)則樹(shù),限定了搜索字段為1(道路名)、3(住宅小區(qū)名)、5(建筑物)。調(diào)用最大正向匹配算法,查詢(xún)到“墨水湖”分別與1墨水湖路和3墨水湖小區(qū)兩個(gè)字段模糊匹配,因此

7、產(chǎn)生語(yǔ)義歧義。并將1與3先后入棧,棧頂為3,故先將“墨水湖”匹配到3,查詢(xún)規(guī)則庫(kù),沒(méi)有滿(mǎn)足條件的規(guī)則,故對(duì)“東側(cè)12號(hào)樓B座301室”繼續(xù)進(jìn)行分詞匹配。通過(guò)規(guī)則樹(shù),3后面只有4。繼續(xù)調(diào)用最大匹配算法,在標(biāo)準(zhǔn)地址庫(kù)中的4字段中查詢(xún)剩余子串“東側(cè)12號(hào)樓B座301室”,無(wú)匹配結(jié)果。故重新選取棧頂元素,將“墨水湖”匹配到1,查詢(xún)規(guī)則庫(kù)無(wú)滿(mǎn)足的規(guī)則,故繼續(xù)分詞匹配。查詢(xún)規(guī)則樹(shù)并確定備選字段為2、3、4、5。搜尋字符串“東側(cè)12號(hào)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。