資源描述:
《google搜索引擎的工作原理》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、Google搜索引擎的工作原理2010-07-050&41推薦:PJ4瀏覽:24,665views我要評(píng)論(6條)字號(hào):左出塵分亨到:新浪微博騰訊微博QQ空間Gmail郵箱豆瓣網(wǎng)搜狐微博開心網(wǎng)摘要:PPCblog.com呈現(xiàn)給我們一幅由JessBachman(在WallStats.com工作)精心描繪的示意圖,這張流程圖展示了每天擁有3億次點(diǎn)擊量的Google搜索按鈕背后搜索引擎在那不到1秒的響應(yīng)時(shí)間內(nèi)所進(jìn)行的處理。這是我剛付印的最新示意圖,這張流程…PPCblog.com呈現(xiàn)給我們一幅由JessBachman(在WallStats.comT作)精心描繪的示意圖
2、,這張流程圖展示了每天擁有3億次點(diǎn)擊量的Google搜索按鈕背后搜索引擎在那不到1秒的響應(yīng)時(shí)間內(nèi)所進(jìn)行的處理。這是我剛付印的最新示意圖,這張流程圖演示了在你點(diǎn)擊Google搜索按鈕后,在Google返回查詢結(jié)果前那一眨眼的功夫里,Google是如何處理你的搜索請(qǐng)求的?這可是搜索巨人Google年贏利額高達(dá)200億美元的殺手級(jí)應(yīng)用,也是Internet首屈一指的商業(yè)和技術(shù)神話,大家肯定都想知道Google這棵搖錢樹背后的秘密。一、Google官方對(duì)其搜索技術(shù)的敘述我們搜索技術(shù)的后端軟件會(huì)在服務(wù)器側(cè)觸發(fā)一系列執(zhí)行時(shí)間不到1秒的并行計(jì)算,Google問世前的傳統(tǒng)搜索引
3、擎的搜索結(jié)果嚴(yán)重依賴于關(guān)鍵詞在頁面上出現(xiàn)的頻度,我們使用了200多個(gè)指標(biāo)信號(hào)(其屮包括我們擁有專利的PagcRank頁面等級(jí)加權(quán)算法)用來檢查萬維網(wǎng)的鏈接結(jié)構(gòu)(佩奇和布林最初的想法是把萬維網(wǎng)的鏈接結(jié)構(gòu)用圖論的有向無環(huán)圖來建模)并決定網(wǎng)頁的重要程度,我們假定一個(gè)網(wǎng)頁的重要程度取決于別的頁面對(duì)它的引用,就像學(xué)術(shù)論文屮的引用指數(shù)一樣,重要的論文總是會(huì)被很多其他論文引用。然后我們?cè)俑鶕?jù)搜索條件進(jìn)行超文本匹配分析(對(duì)bot抓取的頁面內(nèi)容進(jìn)行關(guān)鍵詞倒排索引檢索)確定跟搜索請(qǐng)求最相關(guān)的網(wǎng)頁。綜合最重要的網(wǎng)頁和跟搜索請(qǐng)求最相關(guān)的網(wǎng)頁兩個(gè)方面,我們就能按重要程度和用戶搜索請(qǐng)求相關(guān)
4、程度把查詢結(jié)果排序后呈現(xiàn)給我們的用戶。二、數(shù)據(jù)中心:Google用來索引世界的塔Google的數(shù)據(jù)中心高度機(jī)密,我們能了解到的不多:1.在美國(guó)本土有19個(gè)以上的數(shù)據(jù)中心,其余17個(gè)數(shù)據(jù)中心分布在美國(guó)以外的世界各地。2.每個(gè)數(shù)據(jù)中心有50萬平方英尺那么大,建造一個(gè)數(shù)據(jù)中心要花費(fèi)約6億美元。3.Google數(shù)據(jù)中心是世界上最高效的設(shè)施之一,而且也非常環(huán)保,兒乎沒有碳排放。4.數(shù)據(jù)中心使用50到100兆瓦的電力,由于需要冷卻,通常建在便于用水的地方。5.Google服務(wù)器安置在一個(gè)一組容得下1160臺(tái)服務(wù)器的有房子那么大的標(biāo)準(zhǔn)集裝箱容器中。三、處理流程:1.你寫博客、
5、或在Twitter±推微博、更新站點(diǎn)等諸如此類往web上添加內(nèi)容的操作2.Google爬蟲(一種作為搜索引擎構(gòu)件的智能代理程序)抓取你網(wǎng)頁的title和description、keyword等內(nèi)容(1)Googlebots程序沿鏈接路徑周游萬維網(wǎng),如果沒有http路徑到你的站點(diǎn),你的站點(diǎn)將不會(huì)被索引(2)如果你在robots,txt中設(shè)置不許索引,Googlebots程序?qū)⒉粫?huì)抓取你的網(wǎng)頁(3)如果鏈接到你站點(diǎn)的html鏈接上有nofollow標(biāo)簽,Googlebots將不會(huì)從這些鏈接路徑周游到你的站點(diǎn)。(4)Google也能通過blog軟件或xml站點(diǎn)地圖找到
6、你的網(wǎng)站(5)從PageRank越高的網(wǎng)站鏈接到你的網(wǎng)站的鏈接越多,你的網(wǎng)站的PageRank就越高。(6)Google爬蟲將周游所有未標(biāo)注為nofollow的鏈接3.一旦被Google爬蟲訪問到,網(wǎng)頁幾秒內(nèi)就被索引了(1)網(wǎng)頁內(nèi)容被存儲(chǔ)在一個(gè)倒排索引中①網(wǎng)頁標(biāo)題和鏈接數(shù)據(jù)被保存在一個(gè)索引中,用于廣度優(yōu)先搜索②網(wǎng)頁內(nèi)容保存在另一個(gè)索引中,以用于檢索頻率不高的長(zhǎng)尾、個(gè)性化、深度優(yōu)先搜索(2)當(dāng)你用Google搜索時(shí),你并沒有在檢索時(shí)時(shí)更新的萬維網(wǎng),而是在檢索Google的緩存,Google定期更新其索引庫,在Twitter實(shí)時(shí)搜索等的競(jìng)爭(zhēng)下,Google的索引庫更
7、新周期趨短。4.Google基丁?鏈接評(píng)估域名和網(wǎng)頁的總體PageRank值。5.檢查網(wǎng)頁以防止作弊行為(1)Google的搜索質(zhì)量和反垃圾信息審查和優(yōu)化算法(1)1萬多遠(yuǎn)程測(cè)試用戶評(píng)價(jià)搜索結(jié)果的質(zhì)量(2)Google征請(qǐng)用戶對(duì)有PageRank訛詐嫌疑的垃圾信息進(jìn)行舉報(bào)(3)Google接到(美國(guó))數(shù)字千年版權(quán)法案的通知,要求Google把盜版行為記錄備案1.在對(duì)頁面做了損害分析后,現(xiàn)在毎個(gè)頁面都有很多用于輔助用戶搜索的數(shù)據(jù)片(比如檢索關(guān)鍵詞)反向引用著它2.用戶發(fā)出搜索請(qǐng)求(1)Google搜索質(zhì)量工程師PatrickRiley:在大多數(shù)Google搜索中,
8、你的搜索處于許多并行的控