百度VIP大講堂(上海站)QA集錦——抓取建庫篇
來(lái)源:http://zhanzhang.baidu.com/wiki/346
首先,小編要對各位站長(cháng)朋友說(shuō)聲抱歉,VIP大講堂上海站已經(jīng)過(guò)去N久,QA內容今天才發(fā)布出來(lái)。各位站長(cháng)參加VIP大講堂,除了聆聽(tīng)官方聲音外,更重要的是可以與百度專(zhuān)家進(jìn)行面對面的溝通。VIP大講堂上海站請出了百度spider專(zhuān)家孫權,這是他第一次走出來(lái)與站長(cháng)進(jìn)行培訓交流,課程中抖出干貨無(wú)數,各位無(wú)法參與現場(chǎng)培訓的站長(cháng)除了申請觀(guān)看培訓現場(chǎng)視頻外,還可以通過(guò)QA記錄看看自己心中的疑問(wèn)是否已被解答。 由于現場(chǎng)QA環(huán)節火爆熱烈內容超多,故本次僅放出spider抓取建庫部分,其它內容請靜待下期。
問(wèn):為什么收錄量像坐過(guò)山車(chē)一樣的,還有為什么有些網(wǎng)頁(yè)今天在明天就沒(méi)了?
答:百度會(huì )周期建庫,且每個(gè)庫的收錄量是恒定的,你老是有新增,肯定會(huì )再從庫里淘汰一些,反正總是保持那個(gè)庫是滿(mǎn)的。在建庫的過(guò)程中,你會(huì )感覺(jué)有波動(dòng)。具體的怎么篩,哪個(gè)頁(yè)面會(huì )留下哪個(gè)頁(yè)面會(huì )淘汰,這個(gè)策略是有很多的,他隨著(zhù)時(shí)間的變化,收錄的標準策略也是在發(fā)生微調。
問(wèn):我們站點(diǎn)使用CDN加速會(huì )不會(huì )比較容易造成蜘蛛無(wú)法抓?因為有時(shí)候修改掉他綁定的什么東西。
答:如果要修改掉一定要通知到上一級,現在不存在這個(gè)問(wèn)題,現在你如果修改掉也可以解析掉,之前可能會(huì )存在這個(gè)問(wèn)題。
問(wèn):你們百度自己也有一個(gè)CDN加速,對抓錄排名有沒(méi)有影響?
答:在使用CDN加速這個(gè)問(wèn)題上,我們對所有站點(diǎn)一視同仁。但我建議你使用技術(shù)能力強的CDN服務(wù)商,保證站點(diǎn)的穩定和速度,百度會(huì )更喜歡。
問(wèn):剛才您說(shuō)IP上的站點(diǎn)數不能太多,那CDN這種情況怎么辦?
答:CDN的情況另說(shuō),如果我們識別出來(lái)是CDN的話(huà)不會(huì )受站點(diǎn)數量的影響,如果你是提供獨立IP的話(huà)會(huì )有這樣一些問(wèn)題。
問(wèn):還是IP上站點(diǎn)數量的問(wèn)題,如果是主域跟二級域名呢?也受數量限制?
答:我說(shuō)的是獨立域名。當然質(zhì)量比較好的二級域名也可以認為是獨立域名。
問(wèn):多個(gè)域名,他有相同的一些內容,怎么建庫?
答:如果是多域名在同一個(gè)主域下面有相同內容的話(huà),不可能所有都建庫,而且被建庫的那個(gè)可能不是你希望的那個(gè),所以盡量不要有相同的內容。
問(wèn):剛才講的IP如果是多域名的話(huà),好幾百個(gè)IP域名,現在我們也用了CDN,按照剛才的說(shuō)法,單個(gè)IP最多抓多少?1000萬(wàn)是說(shuō)對站點(diǎn)還是對IP?
答:對IP,但1000萬(wàn)是我舉例,不是實(shí)際的數據,這個(gè)數據不會(huì )分享出來(lái)的。
問(wèn):現在我的網(wǎng)站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設白名單么?
答:百度蜘蛛IP是不斷變的,現在網(wǎng)上的確有一些白名單的說(shuō)法,暫時(shí)是有較的,但不保證今后不會(huì )變,所以建議站點(diǎn)還是通過(guò)ua進(jìn)行判斷,我們百度站長(cháng)平臺上有相關(guān)的文章,你可以找一下。
問(wèn):如果我寫(xiě)robots只想禁掉動(dòng)態(tài)鏈接的話(huà),會(huì )不會(huì )影響動(dòng)態(tài)參數前面正常鏈接的抓?
答:不會(huì )的,你原來(lái)的頁(yè)面還在,肯定會(huì )抓。
問(wèn):比如我們一個(gè)域名www.abcde.com,我們想把帶?號的url全部禁掉,首頁(yè)我們不要禁掉,怎么弄??
答:?前面有個(gè)*,后面再有個(gè)*就可以了。
問(wèn):我想了解,如果我現在收錄有5萬(wàn),大概多長(cháng)時(shí)間才能把我原來(lái)收錄5萬(wàn)重新抓取一遍?
答:不同站點(diǎn)不好說(shuō),一個(gè)是你站點(diǎn)做的很好,知名度很響更新很快質(zhì)量很好就會(huì )快;如果你的站點(diǎn)默默無(wú)聞,貢獻很少,可能就會(huì )很慢。
(接上個(gè)問(wèn)題)
問(wèn):就是差不多的情況,大概。
答:這個(gè)沒(méi)有人能估出來(lái)。
問(wèn):百度站長(cháng)平臺上有數據提交的工具,我們實(shí)時(shí)提交,你們也會(huì )實(shí)時(shí)抓取嗎?
答:不會(huì ),他會(huì )有一層判斷,F在只是通知你提交成功,后面什么時(shí)候抓,什么時(shí)候建庫沒(méi)有,我們正在研究要不要把這個(gè)分享出來(lái)。
問(wèn):我網(wǎng)站有一些列表頁(yè),都沒(méi)有鏈接,擔心百度抓不到
答:現在百度站長(cháng)平臺的站內搜索工具有一個(gè)綠色收錄通道,在那里提交種子頁(yè),我們就知道的。
(接上個(gè)問(wèn)題)
問(wèn):提交種子頁(yè)面必須要用站搜?
答:是的。
問(wèn):如果說(shuō)頁(yè)面里url特別多的話(huà),蜘蛛會(huì )不會(huì )有選擇性的進(jìn)行抓?
答:不會(huì ),他都會(huì )一個(gè)不漏給你提出來(lái),但會(huì )把JS、CSS這樣的鏈接給過(guò)濾掉。但請注意,全部抓取過(guò)來(lái)之后會(huì )進(jìn)行篩選,并不是所有都會(huì )建庫。
問(wèn):現在很多網(wǎng)站都有自己的站內搜索,都會(huì )產(chǎn)生站內搜索結果頁(yè),百度不喜歡搜索結果頁(yè)的話(huà),我們用這個(gè)會(huì )不會(huì )對我們有影響?只是不喜歡還是對我們網(wǎng)站會(huì )有懲罰
答:蜘蛛會(huì )去抓,抓完之后重要是提取里面的鏈接。如果只有一兩條這樣的頁(yè)面質(zhì)量不好問(wèn)題不大,如果整體質(zhì)量較差,有可能受到懲罰。
問(wèn):新出的時(shí)效性文章當時(shí)沒(méi)有被收錄,后期是否還會(huì )被收錄?
答:會(huì )
問(wèn):站點(diǎn)每天最高爬蟲(chóng)多少次?
答:這個(gè)其實(shí)說(shuō)不好,有的站點(diǎn)我們一天會(huì )抓一兩千萬(wàn),有的站點(diǎn)只抓幾個(gè)、幾十個(gè),看你的規模和質(zhì)量,而且這個(gè)抓取量也是會(huì )根據網(wǎng)站的情況進(jìn)行調整的。
推薦鏈接:棗莊seo
錄入時(shí)間:2014/12/6 Hits:4905