不過(guò),這也是往往易被高估的一個(gè)環(huán)節,比如說(shuō)我們時(shí)??梢钥吹侥承┤诵Q(chēng)自己的網(wǎng)站被Google收錄了多少頁(yè)面如幾K甚至幾十K等以證明SEO工作的成功。但客觀(guān)地說(shuō),網(wǎng)頁(yè)僅僅被搜索引擎索引、收錄是沒(méi)有太大的實(shí)際意義,往往只能淪為浩如煙海的Internet世界中的殉葬品,更重要的是如何讓網(wǎng)頁(yè)出現在針對特定搜索項的SERP(搜索結果頁(yè)面)前幾頁(yè)?!S多人相信,讓網(wǎng)站內盡可能多的頁(yè)面被收錄進(jìn)搜索引擎索引數據庫終歸不是一件壞事,網(wǎng)頁(yè)越多,暴光的機會(huì )也便越大,雖然最終效果如何存在疑問(wèn)。 Anyway,如果在對網(wǎng)站實(shí)施SEO時(shí)將重點(diǎn)放在網(wǎng)頁(yè)被索引、收錄的速度與效率,當然也無(wú)可厚非,而要想實(shí)現這一點(diǎn),需要我們對搜索引擎如何收錄、索引網(wǎng)頁(yè)的機制有所了解。下面我們以Google為例,介紹搜索引擎收錄、索引網(wǎng)頁(yè)的過(guò)程,希望能對朋友們有后助益?!獙ζ渌阉饕嫒鏨ahoo!、Live搜索及百度而言,盡管可能在具體細節上存在差別,不過(guò),基本策略應該是類(lèi)似的。 1、收集待索引網(wǎng)頁(yè)的url Internet上存在的網(wǎng)頁(yè)數量絕對是個(gè)天文數字,每天新增的網(wǎng)頁(yè)也不計其數,搜索引擎需要首先找到要索引收錄的對象。 具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區別存在爭議——至于是否叫這么兩個(gè)名字更是眾說(shuō)紛耘,當然,名字本身并不重要——至少到目前為止,主流的看法是,在Google的robots中,的確存在著(zhù)相當部分專(zhuān)門(mén)為真正的索引收錄頁(yè)頁(yè)準備“素材”的robots——在這里我們姑且仍稱(chēng)之為FreshBot吧——它們的任務(wù)便是每天不停地掃描Internet,以發(fā)現并維護一個(gè)龐大的url列表供DeepBot使用,換言之,當其訪(fǎng)問(wèn)、讀取其一個(gè)網(wǎng)頁(yè)時(shí),目的并不在于索引這個(gè)網(wǎng)頁(yè),而是找出這個(gè)網(wǎng)頁(yè)中的所有鏈接?!斎?,這樣似乎在效率上存在矛盾,有點(diǎn)不太可信。不過(guò),我們可以簡(jiǎn)單地通過(guò)以下方式判斷:FreshBot在掃描網(wǎng)頁(yè)時(shí)不具備“排它性”,也即是說(shuō),位于Google不同的數據中心的多個(gè)robots可能在某個(gè)很短的時(shí)間周期,比如說(shuō)一天甚至一小時(shí),訪(fǎng)問(wèn)同一個(gè)頁(yè)面,而DeepBot在索引、緩存頁(yè)面時(shí)則不會(huì )出現類(lèi)似的情況,即Google會(huì )限制由某個(gè)數據中心的robots來(lái)完成這項工作的,而不會(huì )出現兩個(gè)數據中心同時(shí)索引網(wǎng)頁(yè)同一個(gè)版本的情況,如果這種說(shuō)法沒(méi)有破綻的話(huà),則似乎可以從服務(wù)器訪(fǎng)問(wèn)日志中時(shí)??梢钥吹皆醋圆煌琁P的GoogleBot在很短的時(shí)間內多次訪(fǎng)問(wèn)同一個(gè)網(wǎng)頁(yè)證明FreshBot的存在。因此,有時(shí)候發(fā)現GoogleBot頻繁訪(fǎng)問(wèn)網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁(yè)而只是在掃描url。 FreshBot記錄的信息包括網(wǎng)頁(yè)的url、Time Stamp(網(wǎng)頁(yè)創(chuàng )建或更新的時(shí)間戳),以及網(wǎng)頁(yè)的Head信息(注:這一點(diǎn)存在爭議,也有不少人相信FreshBot不會(huì )去讀取目標網(wǎng)頁(yè)信息的,而是將這部分工作交由DeepBot完成。不過(guò),筆者傾向于前一種說(shuō)法,因為在FreshBot向DeepBot提交的url列表中,會(huì )將網(wǎng)站設置禁止索引、收錄的頁(yè)面排除在外,以提高效率,而網(wǎng)站進(jìn)行此類(lèi)設置時(shí)除使用robots.txt外還有相當部分是通過(guò)mata標簽中的“noindex”實(shí)現的,不讀取目標網(wǎng)頁(yè)的head似乎是無(wú)法實(shí)現這一點(diǎn)的),如果網(wǎng)頁(yè)不可訪(fǎng)問(wèn),比如說(shuō)網(wǎng)絡(luò )中斷或服務(wù)器故障,FreshBot則會(huì )記下該url并擇機重試,但在該url可訪(fǎng)問(wèn)之前,不會(huì )將其加入向DeepBot提交的url列表。 總的來(lái)說(shuō),FreshBot對服務(wù)器帶寬、資源的占用還是比較小的。最后,FreshBot對記錄信息按不同的優(yōu)先級進(jìn)行分類(lèi),向DeepBot提交,根據優(yōu)先級不同,主要有以下幾種: A:新建網(wǎng)頁(yè);B:舊網(wǎng)頁(yè)/新的Time Stamp,即存在更新的網(wǎng)頁(yè);C:使用301/302重定向的網(wǎng)頁(yè);D:復雜的動(dòng)態(tài)url,如使用多個(gè)參數的動(dòng)態(tài)url,Google可能需要附加的工作才能正確分析其內容?!S著(zhù)Google對動(dòng)態(tài)網(wǎng)頁(yè)支持能力的提高,這一分類(lèi)可能已經(jīng)取消;E:其他類(lèi)型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作;F:舊網(wǎng)頁(yè)/舊的Time Stamp,即未更新的網(wǎng)頁(yè),注意,這里的時(shí)間戳不是以Google搜索結果中顯示的日期為準,而是與Google索引數據庫中的日期比對;G:錯誤的url,即訪(fǎng)問(wèn)時(shí)返回404回應的頁(yè)面; 優(yōu)先級按由A至G的順序排列,依次降低。需要強調的是,這里所言之優(yōu)先級是相對的,比如說(shuō)同樣是新建網(wǎng)頁(yè),根據指向其的鏈接質(zhì)量、數量的不同,優(yōu)先級也有著(zhù)很大的區別,具有源自相關(guān)的權威網(wǎng)站鏈接的網(wǎng)頁(yè)具有較高的優(yōu)先級。此外,這里所指的優(yōu)先級僅針對同一網(wǎng)站內部的頁(yè)面,事實(shí)上,不同網(wǎng)站也有有著(zhù)不同的優(yōu)先級,換言之,對權威網(wǎng)站中的網(wǎng)頁(yè)而言,即使其最低優(yōu)先級的404 url,也可能比許多其他網(wǎng)站優(yōu)先級最高的新建網(wǎng)頁(yè)更具優(yōu)勢。 2、網(wǎng)頁(yè)的索引與收錄 接下來(lái)才進(jìn)入真正的索引與收錄網(wǎng)頁(yè)過(guò)程。從上面的介紹可以看出,FreshBot提交的url列表是相當龐大的,根據語(yǔ)言、網(wǎng)站位置等不同,對特定網(wǎng)站的索引工作將分配至不同的數據中心完成。整個(gè)索引過(guò)程,由于龐大的數據量,可能需要幾周甚至更長(cháng)時(shí)間才能完成。 正如上文所言,DeepBot會(huì )首先索引優(yōu)先級較高的網(wǎng)站/網(wǎng)頁(yè),優(yōu)先級越高,出現在Google索引數據庫及至最終出現在Google搜索結果頁(yè)面中的速度便越快。對新建網(wǎng)頁(yè)而言,只要進(jìn)入到這個(gè)階段,即使整個(gè)索引過(guò)程沒(méi)有完成,相應的網(wǎng)頁(yè)便已具備出現在Google索引庫中的可能,相信許多朋友在Google中使用“site:somedomain.com”搜索時(shí)常??吹綐俗檠a充結果只顯示網(wǎng)頁(yè)url或只顯示網(wǎng)頁(yè)標題與url但沒(méi)有描述的頁(yè)面,此即是處于這一階段網(wǎng)頁(yè)的正常結果。當Google真正讀取、分析、緩存了這個(gè)頁(yè)面后,其便會(huì )從補充結果中逃出而顯示正常的信息?!斎?,前提是該網(wǎng)頁(yè)具有足夠的鏈接,特別是來(lái)自權威網(wǎng)站的鏈接,并且,索引庫中沒(méi)有與該網(wǎng)頁(yè)內容相同或近似的記錄(Duplicate Content過(guò)濾)。 對動(dòng)態(tài)url而言,雖然如今Google宣稱(chēng)在對其處理方面已不存在障礙,不過(guò),可以觀(guān)察到的事實(shí)仍然顯示動(dòng)態(tài)url出現在補充結果中的幾率遠大于使用靜態(tài)url的網(wǎng)頁(yè),往往需要更多、更有價(jià)值的鏈接才能從補充結果中逸出。 而對于上文中之“F”類(lèi),即未更新的網(wǎng)頁(yè),DeepBot會(huì )將其時(shí)間戳與Google索引數據庫中的日期比對,確認盡管可能搜索結果中相應頁(yè)面信息未來(lái)得及更新但只要索引了最新版本即可——考慮網(wǎng)頁(yè)多次更新、修改的情況——;至于“G”類(lèi)即404 url,則會(huì )查找索引庫中是否存在相應的記錄,如果有,將其刪除。 3、數據中心間的同步 前文我們提到過(guò),DeepBot索引某個(gè)網(wǎng)頁(yè)時(shí)會(huì )由特定的數據中心完成,而不會(huì )出現多個(gè)數據中心同時(shí)讀取該網(wǎng)頁(yè),分別獲得網(wǎng)頁(yè)最近版本的情況,這樣,在索引過(guò)程完成后,便需要一個(gè)數據同步過(guò)程,將網(wǎng)頁(yè)的最新版本在多個(gè)數據中心得到更新。 這就是之前著(zhù)名的Google Dance。不過(guò),在BigDaddy更新后,數據中心間的同步不再象那樣集中在特定的時(shí)間段,而是以一種連續的、時(shí)效性更強的方式進(jìn)行。盡管不同數據中心間仍存在一定的差異,但差異已經(jīng)不大,而且,維持的時(shí)間也很短。 提高搜索引擎索引收錄網(wǎng)頁(yè)的效率,根據上面的介紹,可以看出,要想讓您的網(wǎng)頁(yè)盡可能快、盡可能多地被搜索引擎收錄,至少應從如下幾方面進(jìn)行優(yōu)化: 提高網(wǎng)站反相鏈接的數量與質(zhì)量,源自權威網(wǎng)站的鏈接可以讓您的網(wǎng)站/網(wǎng)頁(yè)在第一時(shí)間內被搜索引擎“看到”。當然,這也是老生常談了。從上面的介紹可以看出,要提高網(wǎng)頁(yè)被搜索引擎收錄的效率,首先要讓搜索引擎找到您的網(wǎng)頁(yè),鏈接是搜索引擎找到網(wǎng)頁(yè)的唯一途徑——“唯一”一詞存在些許爭議,見(jiàn)下面的SiteMaps部分——從這個(gè)角度看,向搜索引擎提交網(wǎng)站之類(lèi)的作法沒(méi)有必要且沒(méi)有意義,相對而言,要想讓您的網(wǎng)站被收錄,獲得外部網(wǎng)站的鏈接才是根本,同時(shí),高質(zhì)量的鏈接也是讓網(wǎng)頁(yè)步出補充結果的關(guān)鍵因素。 網(wǎng)頁(yè)設計要秉持“搜索引擎友好”的原則,從搜索引擎spider的視角設計與優(yōu)化網(wǎng)頁(yè),確保網(wǎng)站的內部鏈接對搜索引擎“可見(jiàn)”,相對于獲得外部網(wǎng)站鏈接的難度,合理規劃的內部鏈接是提高搜索引擎索引與收錄效率更經(jīng)濟、有效的途徑——除非網(wǎng)站根本未被搜索引擎收錄。 如果您的網(wǎng)站使用動(dòng)態(tài)url,或者導航菜單使用JavaScript,那么,當在網(wǎng)頁(yè)收錄方面遇到障礙時(shí),應首先從這里著(zhù)手。 使用SiteMaps。事實(shí)上,許多人認為Google取消了FreshBot的一個(gè)主要原因便是SiteMaps(xml)協(xié)議的廣泛應用,認為這樣只需讀取網(wǎng)站提供的SiteMaps便可得到網(wǎng)頁(yè)更新信息,而不需FreshBot耗時(shí)費力地掃描。這種說(shuō)法還是有一定道理的,雖然目前不能確定Google究竟直接使用SiteMaps作為DeepBot的索引列表還是用做FreshBot的掃描路標,但SiteMaps能夠提高網(wǎng)站索引收錄的效率則是不爭的事實(shí)。比如說(shuō),SEO探索曾做過(guò)如下的測試: 兩個(gè)網(wǎng)頁(yè),獲得的鏈接情況相同,一個(gè)加入SiteMaps而另一未加入,出現在SiteMaps中的網(wǎng)頁(yè)很快被收錄,而另一個(gè)頁(yè)面則在過(guò)了很長(cháng)時(shí)間后才被收錄; 某個(gè)孤島頁(yè)面,沒(méi)有任何指向其的鏈接,但將其加入SiteMaps一段時(shí)間后,同樣被Google索引,只不過(guò),出現在補充結果中。 當然,從盡管網(wǎng)頁(yè)未出現在SiteMaps中但仍能被Google索引也可以看出,Google仍然使用FreshBot或類(lèi)似FreshBot的機制,當然這也容易理解,畢竟仍然有那么多未使用SiteMaps的網(wǎng)站,Google不可能將其拒之門(mén)外。 有關(guān)SiteMaps的詳細介紹,請參考Google SiteMaps:Google的“后門(mén)”。需要指出的是,如今Sitemaps協(xié)議已成為行業(yè)標準,不獨對Google有效,其他主流搜索引擎包括Yahoo!、Live搜索及Ask均已提供支持。 |
嘉興雷鳥(niǎo)是一家集企業(yè)軟件開(kāi)發(fā),WEB網(wǎng)站建設,移動(dòng)APP制作等綜合型的互聯(lián)網(wǎng)公司,為嘉興顧客提供一站式的企業(yè)軟件開(kāi)發(fā),安卓app開(kāi)發(fā),ios開(kāi)發(fā)服務(wù),同時(shí)為嘉興企業(yè)提供全面移動(dòng)互聯(lián)軟件技術(shù)解決方案,是嘉興知名的綜合型APP軟件外包開(kāi)發(fā)公司。根據前期調研方案和客戶(hù)實(shí)際需求,以專(zhuān)業(yè)獨到的設計理念、精益求精的技術(shù)精神、嚴格完善的品控系統,為嘉興每一位客戶(hù)提供專(zhuān)屬的移動(dòng)互聯(lián)軟件技術(shù)解決方案。經(jīng)過(guò)不斷積累,嘉興雷鳥(niǎo)陸續推出視頻直播APP、電商商城APP、P2P網(wǎng)貸APP、智能硬件APP開(kāi)發(fā)、移動(dòng)APP開(kāi)發(fā)、微信公眾平臺開(kāi)發(fā)、一元購APP、智慧社區服務(wù)APP、生活服務(wù)O2O系統APP等各類(lèi)APP產(chǎn)品,為嘉興各行企業(yè)向移動(dòng)互聯(lián)網(wǎng)轉型奠定了堅實(shí)基礎。在激烈的市場(chǎng)競爭中,嘉興雷鳥(niǎo)創(chuàng )造了嘉興軟件定制開(kāi)發(fā)行業(yè)的卓越口碑,是具有更高品質(zhì)的移動(dòng)互聯(lián)網(wǎng)軟件技術(shù)定制服務(wù)商。