在爬蟲抓取網頁時,如果根本不知道你的網頁內容是什么,那基本上是不會被百度收錄的。所以讓爬蟲識別到我們網頁的內容也是較為關鍵的一個問題。
爬蟲抓取的四大可識別性
1、robots協議的封禁
robots是一個txt文件,放置于網站的根目錄下。可以通過www.xxx.com/robots.txt進行訪問打開。如果你的robots文件封禁了百度爬蟲,那么收錄簡直是不可能的。
因為robots協議文件是搜索引擎與網站之間的協議文件。是網站告知搜索引擎爬蟲,哪些內容你可以抓取,哪些內容你是不可以抓取。所以你都告訴爬蟲不讓它抓取了,他還怎么會抓取呢?
2、影響網站收錄的ajax技術
js的ajax技術,其實很多做SEO的都知道不能使用js,但這并不完全是。因為爬蟲抓取的是網頁源代碼,只要你源代碼中有這些內容就是可以的。但通過js實現異步加載的內容就不行了。
這里解釋一下什么是異步加載,就是當前網頁源代碼沒有的內容。通過觸發網頁某個事件,js通過ajax技術動態加載出來的內容。例如典型的瀑布流網頁,當你鼠標滾動到最底部,
然后地步就會出現更多新的內容。多數是采用這個ajax技術。
那被異步加載出來的內容爬蟲是看不到的。
3、圖片、導航、ALT
圖片類型的導航,現在基本很少見了。但這里還是要說一下,如果你的導航(主導航)使用圖片,在這個寸土寸金的位置上,搜索引擎根本不知道你說了什么,所以這時候需要我們使用alt標簽進行設置。
當然了,alt屬性并不單單可以應用在圖片導航中。所有你認為重要的圖片,都可以進行設置,并合理的融入關鍵詞。像一些素材圖片就可以不用設置alt屬性了。
4、網站訪問速度慢
如果你的網站打開速度很慢的話,也會很大程度上的影響收錄。我們舉個例子,爬蟲每天抓取你網站就給10分鐘時間,你的網站訪問一次需要1秒鐘,和需要100毫秒。這完全是兩個層次上的結果。
內容質量對收錄的三大影響
單純解決了爬蟲的抓取問題之后,還要更多的關注到內容質量本身
1、內容的原創性
你的內容本身是不是原創的,原創內容更有機會被收錄這個是眾所周知的。本文不討論怎么寫原創文章,所以原創怎么搞,在這里只能說自己弄明白了,然后用自己的語言組織一下寫出來。
2、內容的可讀性
你的網頁是不是會對用戶造成一定的體驗影響,例如廣告遮擋主體內容。主要的內容沒有在電腦首評出現。字體大小、字體顏色與背景色過于接近等。
3、內容的需求滿足度
標題和內容是不是提問相符的。且真正解決了用戶的需求。并不是掛羊頭賣狗肉,或者語句不通順等行為。