>edu.5151doc.教育資源庫中文自動分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中,中文與英文的處理方式是不同的,這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒有">
中文自動分詞在seo優(yōu)化中的作用

中文自動分詞在seo優(yōu)化中的作用

ID:24789217

大小:49.00 KB

頁數(shù):4頁

時(shí)間:2018-11-15

中文自動分詞在seo優(yōu)化中的作用_第1頁
中文自動分詞在seo優(yōu)化中的作用_第2頁
中文自動分詞在seo優(yōu)化中的作用_第3頁
中文自動分詞在seo優(yōu)化中的作用_第4頁
資源描述:

《中文自動分詞在seo優(yōu)化中的作用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、中文自動分詞在SEO優(yōu)化中的作用>>edu.5151doc.教育資源庫中文自動分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中,中文與英文的處理方式是不同的,這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒有分割符。這就要求在對中文網(wǎng)頁進(jìn)行分析之前,先要將網(wǎng)頁中的句子切割成一個(gè)個(gè)的詞的序列,這就是中文分詞。中文自動分詞涉及到許多自然語言處理技術(shù)和評價(jià)標(biāo)準(zhǔn),在搜索引擎中,我們主要關(guān)心中文自動分詞的速度和準(zhǔn)確度。分詞準(zhǔn)確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚?/p>

2、數(shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長,會嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此,搜索引擎對分詞的準(zhǔn)確性和速度都提出了很高的要求。目前,中文自動分詞比較成熟的技術(shù)是基于分詞詞典的機(jī)械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進(jìn)行匹配。根據(jù)匹配策略的不同,機(jī)械分詞方法又有如下幾種算法:正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點(diǎn)是分詞的速度快,準(zhǔn)確度有一定的保證,但對未登錄詞的處理效果較差。實(shí)驗(yàn)結(jié)果表明:正向最大匹配的錯(cuò)誤率為1/169左右,逆向最大匹配的錯(cuò)誤率為1/245左右。另一種比較常用的中文自動分詞方法是基于統(tǒng)

3、計(jì)的分詞方法,這種方法是對語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因此也稱為無詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當(dāng)成詞,對常用詞的識別精度較差,時(shí)空開銷也比較大。在搜索引擎領(lǐng)域的實(shí)際應(yīng)用中,一般將機(jī)械分詞方法與統(tǒng)計(jì)分詞方法相結(jié)合,先進(jìn)行串匹配分詞,然后使用統(tǒng)計(jì)方法識別一些未登錄的新詞,這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢,又利用了統(tǒng)計(jì)分詞中新詞自動識別和自動消除分詞歧義的特點(diǎn)。分詞詞典是影響中文自動分詞的一個(gè)重要因素,其規(guī)模一般在6萬條詞左右,詞典太大或太小都是不合適的;辭典太小,有些詞切分不出來,辭典太大,切分過程中起義現(xiàn)象將大大增加,同樣

4、影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴(yán)格的。對于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域,僅僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導(dǎo)致分詞精度下降,一般的解決方法是使用輔助詞典,其規(guī)模在50萬詞條左右。另外,中文自動分詞的難點(diǎn)在于分詞歧義的處理和未登錄詞的識別,如何處理這兩個(gè)問題一直是該領(lǐng)域研究的熱點(diǎn)?! ≡趕eo優(yōu)化中,了解搜索引擎是怎么準(zhǔn)確的去進(jìn)行合理的分詞,搜索引擎又是怎么去準(zhǔn)確定位到某一關(guān)鍵字上。這些seo優(yōu)化知識對于seo優(yōu)化人員來說,應(yīng)該要了解一下。搜索引擎不管它的算法在怎么復(fù)雜,它也都是由人去編寫完成的,所以在復(fù)雜的算法也

5、都是具備人性化的一面。但對于搜索引擎分詞這一系統(tǒng),簡單的說,搜索引擎就像本詞典,這本詞典會聚了我們?nèi)粘I钪谐S玫脑~匯。當(dāng)一個(gè)網(wǎng)頁中的詞匯與搜索引擎這本詞典中的詞匯相匹配,那么這樣就可以得到我們常說的關(guān)鍵字或一個(gè)日常生活中常用的短語。如果有些詞在搜索引擎中不存在,那該怎么辦?遇到這種情況,搜索引擎會通過自身的統(tǒng)計(jì),把統(tǒng)計(jì)中搜索引擎量高的(例如:驢媽媽如下圖)這個(gè)詞開始在搜索引擎字典中,肯定是沒有的,但是后來搜索驢媽媽這個(gè)詞多了,那么搜索引擎自然回把這個(gè)次注入到搜索引擎字典中,從而得到自我補(bǔ)充,更新新的詞匯,這樣也是方便擁護(hù)尋找起信息。(人性化)  舉個(gè)簡單的

6、例子,就以個(gè)人博客標(biāo)題為例。如下圖  標(biāo)題是:seo優(yōu)化技術(shù)按常理這句短語可以分成多個(gè)詞組,如:seo,優(yōu)化,技術(shù),seo優(yōu)化,seo技術(shù),優(yōu)化技術(shù),seo優(yōu)化技術(shù),這些按常人字典里,可能就會解出這些詞組。而搜索引擎字典中也于之匹配,那么關(guān)鍵字自然會定位到這幾個(gè)詞組上面,至于在搜索引擎排名又是一回事,這里只是說分詞。這些也都是符合常里的,搜索引擎也不會去改變常里。同時(shí)這也是seo優(yōu)化人員在優(yōu)化某關(guān)鍵字時(shí),盡量把關(guān)鍵字包含在標(biāo)題中或描述中的原因,當(dāng)然了,對于搜索引擎分詞系統(tǒng)也要看開發(fā)者對不同語言的日常用語的理解。  再看下圖,這張圖中的輸入的關(guān)鍵字,是老家的一

7、個(gè)方言。搜索引擎返回的是沒有找到于知想匹配的頁面,這個(gè)是肯定的,因?yàn)橹袊Z言是以漢語為基礎(chǔ),而不是這個(gè)方言。這里重要是要說明一下.我們在選用關(guān)鍵詞,最好是選擇我們生活日常常用的,除非你是要做某一品牌,就像“驢媽媽”這個(gè)關(guān)鍵詞?! ∫陨系囊仓皇莻€(gè)人對搜索引擎分詞的分析觀點(diǎn),或?qū)蝈e(cuò),也不在乎,希望有對搜索引擎分詞研究深的指點(diǎn)。但是肯定有點(diǎn)是對的,搜索引擎對事物的理解,還是脫不了人們?nèi)粘I钣谜Z?! ”疚氖装l(fā):.yushiqing.。[這篇文章來自..,]

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。