作為(wei)SEO從業者,不僅要被搜索引擎抓(zhua)取,還要被收(shou)錄,最重要的是在收(shou)錄后有良(liang)好的排名,本文(wen)將簡(jian)單分(fen)析下搜索引擎收(shou)錄網頁的四個(ge)階段。每(mei)個(ge)網站、每(mei)個(ge)網頁的排名都(dou)是不一樣(yang)的,看(kan)看(kan)你(ni)的網站處于哪個(ge)階段呢?
網頁收錄第一階段(duan):大小通(tong)吃(chi)
搜索引擎的(de)(de)網(wang)頁(ye)(ye)抓(zhua)取都是(shi)采取「大小通吃」的(de)(de)策略,也就(jiu)是(shi)把(ba)網(wang)頁(ye)(ye)中(zhong)能發現的(de)(de)鏈接(jie)逐一加(jia)入到待抓(zhua)取URL中(zhong),機(ji)械性的(de)(de)將新抓(zhua)取的(de)(de)網(wang)頁(ye)(ye)中(zhong)的(de)(de)URL提取出來,這種方式(shi)雖然比較(jiao)古老,但(dan)效果很(hen)好,這就(jiu)是(shi)為什么很(hen)多站長反(fan)應蜘蛛來訪問(wen)了(le),但(dan)沒有收錄(lu)的(de)(de)原(yuan)因,這僅僅是(shi)第一階段。
網頁收錄第二階段:網頁評級(ji)
而第二階段則是對網(wang)頁的(de)(de)(de)重要(yao)性(xing)進(jin)行評級,PageRank是一(yi)種*的(de)(de)(de)鏈接分(fen)析算法(fa),可以用來衡量網(wang)頁的(de)(de)(de)重要(yao)性(xing),很自然的(de)(de)(de),站(zhan)長可以用PageRank的(de)(de)(de)思(si)路來對URL進(jin)行排序,這(zhe)就是各位熱衷的(de)(de)(de)「發(fa)外鏈」,據一(yi)位朋友了解,在中(zhong)國「發(fa)外鏈」這(zhe)個市場(chang)每年有上(shang)億元的(de)(de)(de)規模。
爬蟲的目(mu)的就(jiu)是去下載網頁,但PageRank是個全局(ju)性算(suan)法,也就(jiu)是當所有(you)網頁有(you)下載完成后(hou),其計算(suan)結果才是可靠的。對于中(zhong)小網站來講,服務器如(ru)果質量不(bu)好,如(ru)果在抓取過(guo)程中(zhong),只看到(dao)部(bu)分內容,在抓取階段是無(wu)法獲得(de)可靠的PageRank得(de)分。
網頁收錄第三階段:OCIP策略
OCIP策略更像(xiang)是PageRank算(suan)法的(de)(de)改進。在算(suan)法開始之前,每個(ge)網頁都給予(yu)相(xiang)同的(de)(de)「現金(jin)(jin)」,每當下載某個(ge)頁面(mian)(mian)A后(hou),A將自己的(de)(de)「現金(jin)(jin)」平均(jun)分給頁面(mian)(mian)中(zhong)包含的(de)(de)鏈接(jie)頁面(mian)(mian),把(ba)自己的(de)(de)「現金(jin)(jin)」清空。這就是為什么導出(chu)的(de)(de)鏈接(jie)越少,權重會越高的(de)(de)原因之一。
而(er)對于(yu)待(dai)抓取(qu)的(de)網(wang)頁(ye),會(hui)根(gen)據手(shou)頭(tou)擁有的(de)現金(jin)多(duo)少排序,優先下(xia)載(zai)現金(jin)最充裕(yu)的(de)網(wang)頁(ye),OCIP大致與PageRank思(si)路一致,區別(bie)在于(yu):PageRank每次要迭(die)代計(ji)算(suan),而(er)OCIP則不需要,所(suo)以計(ji)算(suan)速度遠遠快于(yu)PageRank,適合實時計(ji)算(suan)使(shi)用。這(zhe)可(ke)能就是為什么很多(duo)網(wang)頁(ye)會(hui)出現「秒收(shou)」的(de)情(qing)況了。
網頁收錄第(di)四階段:大站優先策略
大站(zhan)優先(xian)的(de)思路(lu)很(hen)直接,以網(wang)(wang)(wang)(wang)站(zhan)為(wei)單位(wei)來衡量網(wang)(wang)(wang)(wang)頁(ye)的(de)重要性(xing),對(dui)于待抓(zhua)取的(de)URL隊列中的(de)網(wang)(wang)(wang)(wang)頁(ye),根據(ju)所述網(wang)(wang)(wang)(wang)站(zhan)歸(gui)類,如果(guo)哪個網(wang)(wang)(wang)(wang)站(zhan)等待下(xia)(xia)載(zai)的(de)頁(ye)面最(zui)多,則優先(xian)下(xia)(xia)載(zai)這(zhe)些鏈(lian)接。其本質(zhi)思想是「傾向(xiang)于優先(xian)下(xia)(xia)載(zai)大型網(wang)(wang)(wang)(wang)站(zhan)URL」。因為(wei)大型網(wang)(wang)(wang)(wang)站(zhan)往往包(bao)含更(geng)多的(de)頁(ye)面。鑒于大型網(wang)(wang)(wang)(wang)站(zhan)往往是名站(zhan),其網(wang)(wang)(wang)(wang)頁(ye)質(zhi)量一般較高,所以這(zhe)個思路(lu)雖然(ran)簡單,但有(you)一定依據(ju)。
實(shi)驗表明這個算法雖然(ran)簡單粗暴,但卻(que)能收錄(lu)高質量網(wang)頁(ye),很有效(xiao)果。這也(ye)是為什么許多網(wang)站的內容被轉載后,大站卻(que)能排到你前面的最重要原因(yin)之(zhi)一
轉載://citymember.cn/zixun_detail/3234.html