網站seo中的分詞技術

網站seo中的分詞技術

ID:4118918

大小:254.57 KB

頁數(shù):2頁

時間:2017-11-28

網站seo中的分詞技術_第1頁
網站seo中的分詞技術_第2頁
資源描述:

《網站seo中的分詞技術》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、網站SEO中的分詞技術記得以前剛開始接觸SEO的時候就知道關鍵字出現(xiàn)在標題很重要。后來知道有“分詞技術”這個說法,對關鍵詞分詞,對標題關鍵字安排都有很大的幫助。剛開始學習SEO的時候,會把重要的關鍵詞一個一個堆積在標題,比如標題會這樣寫:站長網,個人站長,站長工具,站長下載,站長幫手——中國站長網。這樣寫雖然是可以,但是用戶看一個網站,一篇文章標題的時候最好是一句話就可以表達清楚,而不是簡單的把關鍵詞羅列出來,盡量讓用戶讀起來能夠比較順暢。可以寫成:中國站長網—提供站長工具,下載和站長資訊,是個人站長們的好幫手。這

2、里就涉及到對分詞技術的理解了。分詞技術就是當用戶提交一個關鍵詞串給搜索引擎查詢的時候,搜索引擎要對這個關鍵詞串做一系列的匹配處理的一個技術方法。搜索引擎查詢處理方法如果關鍵詞不超過三個中文的話就直接到數(shù)據庫索引詞匯里面查找,超過了三個中文漢字的話就用空格,逗號等分割開來。將用戶提交的關鍵詞串分割成若干個詞來查詢。比如:絲蘭卡假發(fā)網—銷售時尚、非主流假發(fā)品牌。搜索引擎就會分成,絲蘭卡,假發(fā),假發(fā)網,銷售,時尚,非主流,品牌,這種分詞方法成為反向匹配法。另外再查看這個詞有沒有重復的詞匯,有的話會省略掉。比如:中國站長網

3、—提供站長工具,下載和站長資訊,是個人站長們的好幫手。會把出現(xiàn)的四次的“站長”作為一個詞來匹配,默認為一個詞。這個就是搜索引擎的查詢處理。分詞技術發(fā)展到目前已經很成熟的了,google是購買第三方公司的分詞技術,百度是自己開發(fā)的分詞技術,在中文分詞這塊百度要稍稍領先于google。英文的詞與詞之間是用空格隔開的。這個分詞比較好做,比如:IamaChinese,中文為“我是一名中國人”,搜索引擎可以識別,chinese是一個單詞,但是比較難識別“中,國,人”是三個字要合起來才是一個詞。另外中問分詞也有人叫切詞。相關排

4、序和搜索引擎搜索引擎的工作就是把網頁搜集起來,然后按照一定的規(guī)則進行排名,目前估計已經有超過100億的網頁被收錄,而且還在不斷增加。搜索引擎就是把跟用戶提交的關鍵詞最相關的網頁呈現(xiàn)出來,我們看到百度的“76頁”現(xiàn)象就是這個問題,因為把所有的網頁都做排名的話沒有多大意思,用戶只要最相關的那部分就可以了。也可以叫相關排序。我們在做關鍵詞分析的時候盡可能用相關度比較高的長尾關鍵詞來做也是基于這點理論。1、分詞技術利用字符串匹配的分詞方法可以分為三大類:第一種正向最大匹配法,從閱讀習慣左到右分詞。第二種反向最大匹配法,跟第

5、一種反過來,從右到左。第三種最少關鍵詞分詞法,就是說把一句話盡可能分出少幾個關鍵詞。比如:絲蘭卡假發(fā)網,銷售時尚‘非主流假發(fā)會分出:絲蘭卡假發(fā)網、銷售、時尚、非主流假發(fā)。搜索引擎一般會是上面的三種方法組合起來使用,盡可能減少分詞中的錯誤率,為用戶提供匹配度最高的網頁信息。2、基于理解的分詞方法這種方法就是利用對整個句子的理解,通過對語法,語義,詞義,描述等來理解用戶的需求處理歧義的現(xiàn)象,也叫詞義分詞法,這種方法目前還不是很成熟,處于測試階段。3、利用統(tǒng)計分詞的方法這種方法就是利用自身數(shù)據庫來長期檢測出那兩個詞同時出

6、現(xiàn)的次數(shù)最多,相鄰的頻率最多的時候就有可能構成一個詞。不過這個方法有時候出現(xiàn)的錯誤也比較多,比如會經??吹揭恍业?,之一,有的等,對這些詞識別就比較差了。百度的相關搜索功能對這個統(tǒng)計分詞方法比較有幫助。

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。