怎么檢索和剖析網站日志文件

發(fā)布時間：2018-05-22 文章來源：本站瀏覽次數：3730

作為SEOer，咱們運用的林林總總的東西，以搜集林林總總的技能問題，網站剖析，抓取確診，百度站長東西等。所有這些東西是有用的，但都無法比擬在網站日志數據剖析查找引擎蜘蛛抓取，就像Googlebot到爬取您的網站并您的網站上留下了一個實在的記錄。這是網絡效勞器日志。日志是一個強壯的源數據常常沒有得到充分使用，但有助于堅持您的網站的查找引擎抓取檢查的完整性。

效勞器日志是由一個特定的效勞器進行具體記錄了每一個動作。在一個Web效勞器的情況下，你能夠得到許多有用的信息。怎么檢索和剖析日志文件，并根據您的效勞器的呼應代碼（404，302，500等）的辨認問題。我將它分解成2個部分，每個部分突出不同的問題，能夠發(fā)現在您的Web效勞器日志

一、獲取日志文件

查找引擎抓取網站信息必會在效勞器上留下信息，這個信息就在網站日志文件里。咱們經過日志能夠了解查找引擎的拜訪情況，一般經過主機效勞商注冊日志功用，再經過FTP拜訪網站的根目錄，在根目錄下能夠看到一個log或許weblog文件夾，這里邊就是日志文件，咱們把這個日志文件下載下來，用記事本(或瀏覽器)翻開就能夠看到網站日志的內容。那么究竟這個日志里邊躲藏了什么玄機呢?其實日志文件就像飛機上的黑匣子。咱們能夠經過這個日志了解許多信息，那么究竟這個日志給咱們傳遞了什么內容呢?下面先做一個簡單的闡明。

日期：這將讓你一天查找引擎抓取速度的發(fā)展趨勢進行剖析。

被爬取文件：這將通知你哪些被抓取的目錄和文件，并在某些路段或類型的內容能夠協助查明問題。

情況碼：（只列出常見到并能直接反正網站問題的情況碼）

200情況碼：懇求已成功，懇求所希望的呼應頭或數據體將隨此呼應回來。

302情況碼：懇求的資源現在暫時從不同的URI呼應懇求。

404情況碼：懇求失利，懇求所希望得到的資源未被在效勞器上發(fā)現。

500情況碼：效勞器遇到了一個未曾預料的情況，導致了它無法完成對懇求的處理。

- - 供給了哪些網頁被爬蟲運轉到并反響出什么樣的問題。

從哪里來：盡管這不一定是有用的剖析查找機器人，它是非常有價值的，其他的流量剖析。

哪種爬蟲：這個會通知你哪個查找引擎爬蟲在你的網頁上運轉的。

二、解析網站日志文件

現在你需求一個日志剖析東西，由于假如你的網站有幾M或幾十M甚至百M以上的日志數據時，你不可能一條條去看。再說，就算日志數據不多，一條條看也是不科學的。

查找引擎抓取您的網站有最快的方法是看在正在效勞的效勞器呼應代碼。404（找不到頁面）可能意味著抓取那寶貴的資源被浪費了；302重定向懇求的資源現在暫時從不同的URI呼應懇求；500是效勞器遇到了一個未曾預料的情況，導致了它無法完成對懇求的處理，能夠剖分出效勞器呈現的問題。盡管網站辦理東西供給了一些信息，這樣的過錯，會給你的網站形成一個非常大的影響。

302呈現的問題數量是能夠承受的，可是不代表能夠放著不去處理，咱們應該有更好的方法來處理這些問題，或許用一個robots.txt指令應掃除這些頁面被抓取。

404也需求處理，找出潛在的問題是阻隔404目錄或許運用rel =”nofollow”注釋這些404鏈接。當然404的頁面也有必要要有。

結語

百度網站辦理為您供給抓取過錯的信息，但在許多情況下，它們約束了數據。作為SEO的，咱們應該使用全部可用的數據，究竟只要一個數據源，你能夠真正依托自己的源。日志不說謊！

上一條：節(jié)日暴升詞查找潛力發(fā)掘二...

下一條：正確運用百度共享東西讓...