日記網(wǎng)站
發(fā)布時間:2017-02-02 來源: 日記大全 點擊:
日記網(wǎng)站篇一:Seo們?nèi)绾尾榭淳W(wǎng)站日志和分析網(wǎng)站日志
Seo從業(yè)人員如何查看網(wǎng)站日志和分析網(wǎng)站日志
Seo從業(yè)人員如何查看網(wǎng)站日志和分析網(wǎng)站日志
網(wǎng)站日志是什么?
作為一個網(wǎng)站管理人員,我們該除了通過流量統(tǒng)計工具來查看網(wǎng)站訪問人數(shù)之外,并不能幫助我們很好地了解網(wǎng)站的運行狀況,而網(wǎng)站日志的出現(xiàn)很好地幫助我們解決這一問題。網(wǎng)站日志是由網(wǎng)站所在服務(wù)器實時記錄網(wǎng)站運行狀態(tài)的各種數(shù)據(jù)的文件,通過對網(wǎng)站日志的分析,我們可以知道哪些用戶訪問了網(wǎng)站,訪問了哪些頁面;同時可以查看到搜索引擎中的蜘蛛在網(wǎng)站中的爬行情況,利用網(wǎng)站日志還能查看到請求中返回的HTTP協(xié)議狀態(tài)碼,長期分析網(wǎng)站日志中的HTTP狀態(tài)碼能夠發(fā)現(xiàn)對網(wǎng)站不利的細節(jié)部分,使網(wǎng)站管理人員更好地管理和優(yōu)化網(wǎng)站。網(wǎng)站日志存放在哪里?
網(wǎng)站日志一般存放在網(wǎng)站根目錄下的“l(fā)og文件夾”或“l(fā)ogfiles文件夾”,文件夾名稱視各虛擬主機提供商不同而不同。網(wǎng)站日志是以txt結(jié)尾的文本文件。可以通過FlashFxp、Leapftp等網(wǎng)站上傳下載工具將日志下載到本地進行分析。
網(wǎng)站日志案例分析:
1、日志語法:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2010-08-11 00:00:17
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
說明:
#Software:表示軟件名稱;
#Version:表示版本號;
#Date:表示時間
#Fields:說明如下:
date:表示記錄訪問日期;
time:訪問具體時間;
s-sitename:表示你的虛擬主機的代稱或機器碼;
s-ip:服務(wù)器IP;
cs-method:表示訪問方法或發(fā)生的請求/提交事件,常見的有兩種:一個是GET,就是平常我們打開一個URL訪問的動作,另一個是POST,提交表單時的動作;
cs-uri-stem:用戶在當前時間訪問哪一個文件或具體頁面;
cs-uri-query:是指訪問地址的附帶參數(shù),如asp文件?后面的字符串id=12等等,如果沒有參數(shù)則用“-”表示;
s-port:訪問的端口
cs-username:訪問者名稱,如果沒有參數(shù)則用“-”表示;
c-ip:訪問者IP
cs(User-Agent):訪問的搜索引擎和蜘蛛名稱;
sc-status:Http狀態(tài)碼,200表示成功,403表示沒有權(quán)限,404表示打不到該頁面,500表示程序有錯;
sc-substatus:服務(wù)端傳送到客戶端的字節(jié)大小;
cs–win32-statu:客戶端傳送到服務(wù)端的字節(jié)大小;
sc-bytes:服務(wù)端傳送數(shù)據(jù)字節(jié)大小;
cs-bytes:用戶請求數(shù)據(jù)字節(jié)大小;
http狀態(tài)碼后面幾位數(shù)據(jù)沒有固定格式,如果只有一個表示下載數(shù)據(jù)字節(jié)大小;
2、Http狀態(tài)碼:
1**:請求收到,繼續(xù)處理
2**:操作成功收到,分析、接受
3**:完成此請求必須進一步處理
4**:請求包含一個錯誤語法或不能完成
5**:服務(wù)器執(zhí)行一個完全有效請求失敗
[案例]案例來源:web168.com的其中一個日志代碼如下:
2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+/search/spider.htm) 304 0 0 283
[說明]
這一記錄表示百度蜘蛛在2010-08-09 11:44:32這一時間爬過網(wǎng)站根目錄下的“index.html“這一頁,通過返回的304狀態(tài)碼表示蜘蛛認為網(wǎng)頁內(nèi)容沒有更新或沒有修改,283表示蜘蛛下載這一頁面的字節(jié)大小。
日記網(wǎng)站篇二:教你怎么看自己網(wǎng)站的日志和優(yōu)化
一、網(wǎng)站日志文件在哪里?
【簡單說下網(wǎng)站虛擬主機FTP幾個文件夾說明】
虛擬主機開通成功之后,會在您的FTP里面自動生成4個文件夾,分別是:"databases","logofiles","others","wwwroot",他們作用如下:
1、wwwroot文件夾:該文件夾內(nèi)存放可以通過web訪問的文件,您需要將您對外發(fā)布的網(wǎng)站文件上傳到該目錄下,輸入域名訪問到的文件將是該文件夾下的文件。
2、databases文件夾:該文件夾同logofiles、others文件夾一樣,屬于不可通過web訪問的文件夾,即用戶無法通過輸入網(wǎng)址來訪問這些文件夾下的文件,您可以在這些文件夾下上傳一些不希望別人能夠訪問的文件。比如您可以將access數(shù)據(jù)庫存放在databases文件夾下,這樣可以最大化的保證您的數(shù)據(jù)庫安全。
3、logofiles文件夾:logofiles文件夾是日志文件,該文件夾存放您的網(wǎng)站日志文件。通過日志文件您可以查詢到網(wǎng)站的一些訪問記錄。(由于各個空間商的不同,本文件夾的命名也有少許差別有都命為:logofiles或者WEBLOG反正一般都會帶上LOG這一個字母)
4、others文件夾:該站點存放您自定義的IIS錯誤文件。IIS默認的一些錯誤提示,比如404錯誤,403錯誤,500錯誤等等,如果您覺得這些錯誤提示不夠個性化,您可以將您自定義的錯誤提示上傳到該目錄下。
二、怎樣分析網(wǎng)站日志文件 分析舉例說明
下面已IBM筆記本電腦論壇最近8月份的日志文件為例說明一下,空間日志代碼如下:
2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+/search/spider.htm) 200 0 0 20006
1、首先以百度為例,分析說明:
訪問時間:2009-08-23 16:06:03
百度蜘蛛的IP:58.61.160.170
蜘蛛爬這的網(wǎng)址: /nb/html/30/t-12730.html
合來起所表達的意思很明顯:IP為58.61.160.170的百度蜘蛛在2009-08-23 16:06:03點43分對此網(wǎng)站上的/nb/html/30/t-12730.html 網(wǎng)頁進行收錄或更新了。
【補充說明】
2009-08-23 16:06:03是百度蜘蛛來訪的日期及時間;
158.61.160.170 是百度蜘蛛的IP
“GET 是服務(wù)器的動作,不是GET就是POSP;GET是從服務(wù)器上獲取內(nèi)容;/nb/html/30/t-12730.html 使用HTML1.1協(xié)議獲取相關(guān)內(nèi)容200 是返回狀態(tài)碼,200是成功獲取;404是文件沒找到;401是需要密碼,403禁止查看,500服務(wù)器錯誤。很明顯此例子中最后返回是200,為成功獲取!
“+(+/search/spider.htm)″表示來路
當然,還有部分空間日志會有這樣一些代碼,他們表示意思如下:
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器,Windows NT操作系統(tǒng),瀏覽器是IE6.0,裝有Alexa Toolbar。
2、接下來說說googlebot,我盼googlebot已經(jīng)好久了,這幾天它終于來了,然后我在上輸入site:.cn上輸入網(wǎng)址即可。不用加前綴site:,還有一點,覺得這幾個月的雅虎中國在技術(shù)上有改進,在網(wǎng)站收錄和關(guān)鍵詞搜索上,大家可以自己去體會。
說完三大搜索爬蟲,再來看看別的二流搜索引擎的爬蟲及門戶搜索的爬蟲:
1)msn: msn(msn live search beta)的搜索技術(shù)我個人覺得是難入流的,似乎比門戶搜索更差,beta說明搜索版在測試階段,現(xiàn)在電信采用msn的搜索技術(shù),不知道電信的是什么眼光,呵呵。
2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68
- 80 GET 200 /html/down/20070129/550.html
2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比較難記,是ia_archiver。從嚴格意義上說,它不知道是不是爬蟲,它與純搜索引擎不同,是來偵測流量的居多,并不是來收錄網(wǎng)頁的。
3)Iask愛問: 2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)
2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68
- 80 GET 200 /html/webpromote/20070203/935.html
Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)
4)sogou搜狗:
對于搜狗,我就覺得好笑了。大家記得我說過我的網(wǎng)站是改版過的,Brand是舊網(wǎng)站文件,早被我刪除了。而且為了刪除除搜索引擎收錄的死鏈接,我在robots.txt文件中寫著:Disallow: /Brand ,這當然禁止訪問Brand下的文件,我這里想說的是,一、它sogou不遵守robots協(xié)議,二、對于已經(jīng)刪除近一個月的文件,它從哪里搜索而來。我真的不太明白了。
2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider
5)yodaoice:
對于這個,大家不要感覺驚訝,這是163新開發(fā)的搜索引擎,目前處于測試版,界面頗象google風格,但技術(shù)年幼,也象搜狗一樣亂抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice
日記網(wǎng)站篇三:網(wǎng)站日記分析的重要性
很多站長不習慣查看網(wǎng)站日志,其實經(jīng)常查看網(wǎng)站日志對于做網(wǎng)站優(yōu)化有很多的輔助作用,尤其是對于剛剛上線的網(wǎng)站。網(wǎng)站日志能
為我們提供很多信息,通過網(wǎng)站日志分析,可以更好的對網(wǎng)站進行調(diào)整,以達到最佳狀態(tài)。很多站長在論壇發(fā)問,說新站上線多少天了,為什么沒有快照,為什么不收錄,其實在那里盲目提問的時候,你有沒有花點時間用在研究自己站點的日志文件上,日志文件里包含太多的隱藏信息,只要你用心查看,就會發(fā)現(xiàn),所以找到問題關(guān)鍵,才是解決問題必要前提條件。
對于新站沒有收錄,我們在網(wǎng)站上線后,天天查看前一天統(tǒng)計出來的日志文件,重點查看蜘蛛有沒有來訪問正常爬行,爬取了哪些目錄,哪些頁面,在網(wǎng)站停留時間,來訪次數(shù),返回狀態(tài)碼是什么。這樣就能對網(wǎng)站情況進行掌握了。
1)如果網(wǎng)站沒有蜘蛛來爬行,這種情況可能出現(xiàn)在剛提交的幾天,我們可以到一些高權(quán)重的網(wǎng)站發(fā)布自己網(wǎng)站的鏈接引蜘蛛過來。
2)查看抓取的目錄,對于不想讓搜索引擎收錄的目錄和頁面,可以用robots.txt來屏蔽掉。
3)對于返回狀態(tài),如果有404錯誤路徑記錄,我們要做出相就的處理,比如刪除死鏈,或者用robots.txt屏蔽蜘蛛爬行。
天天看日志,就可以了解到網(wǎng)站有沒有被搜索引擎抓取了,因為對于新站,剛抓取了不一定會放出來,所以用站長工具不一定看到,只要每天蜘蛛有來訪有抓取,遲早是會放出來的,就不再需要我們到網(wǎng)上去問這類問題了。我們只需要做好一項工作,就是堅持更新網(wǎng)站內(nèi)容,做好用戶體驗與外部鏈接。我們應(yīng)該從哪幾個維度來進行數(shù)據(jù)的整理分析呢?我們從基礎(chǔ)信息、目錄抓取、時間段抓取、IP抓取、狀態(tài)碼幾點分布給大家講解。
第一、基礎(chǔ)信息
我們從日志中能夠獲取哪里基礎(chǔ)信息呢?總抓取量、停留時間(h)及訪問次數(shù)這三個基礎(chǔ)信息,可以從光年日志分析工具中統(tǒng)計出來。然后,通過這三個基礎(chǔ)信息算出:平均每次抓取頁數(shù)、單頁抓取停留時間。然后用我們的MSSQL提取蜘蛛唯一抓取量,根據(jù)以上的數(shù)據(jù)算出爬蟲重復(fù)抓取率。平均每次抓取頁數(shù)=總抓取量/訪問次數(shù)???
單頁抓取停留時間=停留時間*3600/總抓取量???
爬蟲重復(fù)抓取率=100%—唯一抓取量/總抓取量
而以上這些數(shù)據(jù),我們需要統(tǒng)計出一段時間的數(shù)據(jù),看這個時間的整體趨勢是怎么樣的,這樣才能夠發(fā)現(xiàn)問題,才能夠調(diào)整網(wǎng)站的整體策略。下面就以一站點()上個月的日志基礎(chǔ)信息為例。
這個基礎(chǔ)表是上個月的日志的基本信息,我們需要看它的整體趨勢來調(diào)整,哪些地方需
要加強。
第二、目錄抓取
用MSSQL提取出爬蟲抓取的目錄,分析每日目錄抓取量?梢院芮逦目吹矫總目錄的抓取情況,另外可以對比之前的優(yōu)化策略,優(yōu)化是否合理,重點的欄目優(yōu)化是不是預(yù)期的效果。
第三、時間段抓取?
通過excel中的數(shù)組函數(shù),提取每日的時間段的爬蟲抓取量,重在分析每日的抓取情況,找到相應(yīng)的抓取量較為密集的時間段,可以針對性的進行更新內(nèi)容。同時,還可以看出,抓取不正常情況。
第四,IP段的抓取
通過MSSQL提取日志中的爬蟲的IP,通過excel進行統(tǒng)計,每日每個IP的抓取量,同樣我們需要看整體,如果IP段沒有明顯的變化的話,網(wǎng)站升降權(quán)是沒有多大問題的。因為在網(wǎng)站升權(quán)或者降權(quán)的時候,爬蟲的IP段會更換的。
第五,狀態(tài)碼的統(tǒng)計
在這個之前你需要了解下,HTTP狀態(tài)碼返回值代表是什么。
相關(guān)熱詞搜索:日記 網(wǎng)站 日記谷 吾志
熱點文章閱讀