網(wǎng)站seo中的分詞技術(shù)

網(wǎng)站seo中的分詞技術(shù)

ID:4118918

大小:254.57 KB

頁(yè)數(shù):2頁(yè)

時(shí)間:2017-11-28

網(wǎng)站seo中的分詞技術(shù)_第1頁(yè)
網(wǎng)站seo中的分詞技術(shù)_第2頁(yè)
資源描述:

《網(wǎng)站seo中的分詞技術(shù)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、網(wǎng)站SEO中的分詞技術(shù)記得以前剛開(kāi)始接觸SEO的時(shí)候就知道關(guān)鍵字出現(xiàn)在標(biāo)題很重要。后來(lái)知道有“分詞技術(shù)”這個(gè)說(shuō)法,對(duì)關(guān)鍵詞分詞,對(duì)標(biāo)題關(guān)鍵字安排都有很大的幫助。剛開(kāi)始學(xué)習(xí)SEO的時(shí)候,會(huì)把重要的關(guān)鍵詞一個(gè)一個(gè)堆積在標(biāo)題,比如標(biāo)題會(huì)這樣寫(xiě):站長(zhǎng)網(wǎng),個(gè)人站長(zhǎng),站長(zhǎng)工具,站長(zhǎng)下載,站長(zhǎng)幫手——中國(guó)站長(zhǎng)網(wǎng)。這樣寫(xiě)雖然是可以,但是用戶看一個(gè)網(wǎng)站,一篇文章標(biāo)題的時(shí)候最好是一句話就可以表達(dá)清楚,而不是簡(jiǎn)單的把關(guān)鍵詞羅列出來(lái),盡量讓用戶讀起來(lái)能夠比較順暢??梢詫?xiě)成:中國(guó)站長(zhǎng)網(wǎng)—提供站長(zhǎng)工具,下載和站長(zhǎng)資訊,是個(gè)人站長(zhǎng)們的好幫手。這

2、里就涉及到對(duì)分詞技術(shù)的理解了。分詞技術(shù)就是當(dāng)用戶提交一個(gè)關(guān)鍵詞串給搜索引擎查詢的時(shí)候,搜索引擎要對(duì)這個(gè)關(guān)鍵詞串做一系列的匹配處理的一個(gè)技術(shù)方法。搜索引擎查詢處理方法如果關(guān)鍵詞不超過(guò)三個(gè)中文的話就直接到數(shù)據(jù)庫(kù)索引詞匯里面查找,超過(guò)了三個(gè)中文漢字的話就用空格,逗號(hào)等分割開(kāi)來(lái)。將用戶提交的關(guān)鍵詞串分割成若干個(gè)詞來(lái)查詢。比如:絲蘭卡假發(fā)網(wǎng)—銷售時(shí)尚、非主流假發(fā)品牌。搜索引擎就會(huì)分成,絲蘭卡,假發(fā),假發(fā)網(wǎng),銷售,時(shí)尚,非主流,品牌,這種分詞方法成為反向匹配法。另外再查看這個(gè)詞有沒(méi)有重復(fù)的詞匯,有的話會(huì)省略掉。比如:中國(guó)站長(zhǎng)網(wǎng)

3、—提供站長(zhǎng)工具,下載和站長(zhǎng)資訊,是個(gè)人站長(zhǎng)們的好幫手。會(huì)把出現(xiàn)的四次的“站長(zhǎng)”作為一個(gè)詞來(lái)匹配,默認(rèn)為一個(gè)詞。這個(gè)就是搜索引擎的查詢處理。分詞技術(shù)發(fā)展到目前已經(jīng)很成熟的了,google是購(gòu)買(mǎi)第三方公司的分詞技術(shù),百度是自己開(kāi)發(fā)的分詞技術(shù),在中文分詞這塊百度要稍稍領(lǐng)先于google。英文的詞與詞之間是用空格隔開(kāi)的。這個(gè)分詞比較好做,比如:IamaChinese,中文為“我是一名中國(guó)人”,搜索引擎可以識(shí)別,chinese是一個(gè)單詞,但是比較難識(shí)別“中,國(guó),人”是三個(gè)字要合起來(lái)才是一個(gè)詞。另外中問(wèn)分詞也有人叫切詞。相關(guān)排

4、序和搜索引擎搜索引擎的工作就是把網(wǎng)頁(yè)搜集起來(lái),然后按照一定的規(guī)則進(jìn)行排名,目前估計(jì)已經(jīng)有超過(guò)100億的網(wǎng)頁(yè)被收錄,而且還在不斷增加。搜索引擎就是把跟用戶提交的關(guān)鍵詞最相關(guān)的網(wǎng)頁(yè)呈現(xiàn)出來(lái),我們看到百度的“76頁(yè)”現(xiàn)象就是這個(gè)問(wèn)題,因?yàn)榘阉械木W(wǎng)頁(yè)都做排名的話沒(méi)有多大意思,用戶只要最相關(guān)的那部分就可以了。也可以叫相關(guān)排序。我們?cè)谧鲫P(guān)鍵詞分析的時(shí)候盡可能用相關(guān)度比較高的長(zhǎng)尾關(guān)鍵詞來(lái)做也是基于這點(diǎn)理論。1、分詞技術(shù)利用字符串匹配的分詞方法可以分為三大類:第一種正向最大匹配法,從閱讀習(xí)慣左到右分詞。第二種反向最大匹配法,跟第

5、一種反過(guò)來(lái),從右到左。第三種最少關(guān)鍵詞分詞法,就是說(shuō)把一句話盡可能分出少幾個(gè)關(guān)鍵詞。比如:絲蘭卡假發(fā)網(wǎng),銷售時(shí)尚‘非主流假發(fā)會(huì)分出:絲蘭卡假發(fā)網(wǎng)、銷售、時(shí)尚、非主流假發(fā)。搜索引擎一般會(huì)是上面的三種方法組合起來(lái)使用,盡可能減少分詞中的錯(cuò)誤率,為用戶提供匹配度最高的網(wǎng)頁(yè)信息。2、基于理解的分詞方法這種方法就是利用對(duì)整個(gè)句子的理解,通過(guò)對(duì)語(yǔ)法,語(yǔ)義,詞義,描述等來(lái)理解用戶的需求處理歧義的現(xiàn)象,也叫詞義分詞法,這種方法目前還不是很成熟,處于測(cè)試階段。3、利用統(tǒng)計(jì)分詞的方法這種方法就是利用自身數(shù)據(jù)庫(kù)來(lái)長(zhǎng)期檢測(cè)出那兩個(gè)詞同時(shí)出

6、現(xiàn)的次數(shù)最多,相鄰的頻率最多的時(shí)候就有可能構(gòu)成一個(gè)詞。不過(guò)這個(gè)方法有時(shí)候出現(xiàn)的錯(cuò)誤也比較多,比如會(huì)經(jīng)??吹揭恍业?,之一,有的等,對(duì)這些詞識(shí)別就比較差了。百度的相關(guān)搜索功能對(duì)這個(gè)統(tǒng)計(jì)分詞方法比較有幫助。

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。