www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

<acronym id="icryp"><nobr id="icryp"><menuitem id="icryp"></menuitem></nobr></acronym>

<span id="icryp"></span>

日記大全 蒲公英文摘 > 日記大全 >

日記網(wǎng)站

發(fā)布時間:2017-02-02 來源: 日記大全點擊：

日記網(wǎng)站篇一：Seo們?nèi)绾尾榭淳W(wǎng)站日志和分析網(wǎng)站日志

Seo從業(yè)人員如何查看網(wǎng)站日志和分析網(wǎng)站日志

Seo從業(yè)人員如何查看網(wǎng)站日志和分析網(wǎng)站日志

網(wǎng)站日志是什么?

作為一個網(wǎng)站管理人員，我們該除了通過流量統(tǒng)計工具來查看網(wǎng)站訪問人數(shù)之外，并不能幫助我們很好地了解網(wǎng)站的運行狀況，而網(wǎng)站日志的出現(xiàn)很好地幫助我們解決這一問題。網(wǎng)站日志是由網(wǎng)站所在服務(wù)器實時記錄網(wǎng)站運行狀態(tài)的各種數(shù)據(jù)的文件，通過對網(wǎng)站日志的分析，我們可以知道哪些用戶訪問了網(wǎng)站，訪問了哪些頁面;同時可以查看到搜索引擎中的蜘蛛在網(wǎng)站中的爬行情況，利用網(wǎng)站日志還能查看到請求中返回的HTTP協(xié)議狀態(tài)碼，長期分析網(wǎng)站日志中的HTTP狀態(tài)碼能夠發(fā)現(xiàn)對網(wǎng)站不利的細節(jié)部分，使網(wǎng)站管理人員更好地管理和優(yōu)化網(wǎng)站。網(wǎng)站日志存放在哪里?

網(wǎng)站日志一般存放在網(wǎng)站根目錄下的“l(fā)og文件夾”或“l(fā)ogfiles文件夾”，文件夾名稱視各虛擬主機提供商不同而不同。網(wǎng)站日志是以txt結(jié)尾的文本文件。可以通過FlashFxp、Leapftp等網(wǎng)站上傳下載工具將日志下載到本地進行分析。

網(wǎng)站日志案例分析：

1、日志語法：

#Software: Microsoft Internet Information Services 6.0

#Version: 1.0

#Date: 2010-08-11 00:00:17

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes

說明：

#Software：表示軟件名稱;

#Version：表示版本號;

#Date：表示時間

#Fields：說明如下：

date：表示記錄訪問日期;

time：訪問具體時間;

s-sitename：表示你的虛擬主機的代稱或機器碼;

s-ip：服務(wù)器IP;

cs-method：表示訪問方法或發(fā)生的請求/提交事件，常見的有兩種：一個是GET，就是平常我們打開一個URL訪問的動作，另一個是POST，提交表單時的動作;

cs-uri-stem：用戶在當前時間訪問哪一個文件或具體頁面;

cs-uri-query：是指訪問地址的附帶參數(shù)，如asp文件?后面的字符串id=12等等，如果沒有參數(shù)則用“-”表示;

s-port：訪問的端口

cs-username：訪問者名稱，如果沒有參數(shù)則用“-”表示;

c-ip：訪問者IP

cs(User-Agent)：訪問的搜索引擎和蜘蛛名稱;

sc-status：Http狀態(tài)碼，200表示成功，403表示沒有權(quán)限，404表示打不到該頁面，500表示程序有錯;

sc-substatus：服務(wù)端傳送到客戶端的字節(jié)大小;

cs–win32-statu：客戶端傳送到服務(wù)端的字節(jié)大小;

sc-bytes：服務(wù)端傳送數(shù)據(jù)字節(jié)大小;

cs-bytes：用戶請求數(shù)據(jù)字節(jié)大小;

http狀態(tài)碼后面幾位數(shù)據(jù)沒有固定格式，如果只有一個表示下載數(shù)據(jù)字節(jié)大小;

2、Http狀態(tài)碼：

1**：請求收到，繼續(xù)處理

2**：操作成功收到，分析、接受

3**：完成此請求必須進一步處理

4**：請求包含一個錯誤語法或不能完成

5**：服務(wù)器執(zhí)行一個完全有效請求失敗

[案例]案例來源：web168.com的其中一個日志代碼如下：

2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+/search/spider.htm) 304 0 0 283

[說明]

這一記錄表示百度蜘蛛在2010-08-09 11:44:32這一時間爬過網(wǎng)站根目錄下的“index.html“這一頁，通過返回的304狀態(tài)碼表示蜘蛛認為網(wǎng)頁內(nèi)容沒有更新或沒有修改，283表示蜘蛛下載這一頁面的字節(jié)大小。

日記網(wǎng)站篇二：教你怎么看自己網(wǎng)站的日志和優(yōu)化

一、網(wǎng)站日志文件在哪里?

【簡單說下網(wǎng)站虛擬主機FTP幾個文件夾說明】

虛擬主機開通成功之后，會在您的FTP里面自動生成4個文件夾，分別是："databases","logofiles"，"others","wwwroot",他們作用如下：

1、wwwroot文件夾：該文件夾內(nèi)存放可以通過web訪問的文件，您需要將您對外發(fā)布的網(wǎng)站文件上傳到該目錄下，輸入域名訪問到的文件將是該文件夾下的文件。

2、databases文件夾：該文件夾同logofiles、others文件夾一樣，屬于不可通過web訪問的文件夾，即用戶無法通過輸入網(wǎng)址來訪問這些文件夾下的文件，您可以在這些文件夾下上傳一些不希望別人能夠訪問的文件。比如您可以將access數(shù)據(jù)庫存放在databases文件夾下，這樣可以最大化的保證您的數(shù)據(jù)庫安全。

3、logofiles文件夾：logofiles文件夾是日志文件，該文件夾存放您的網(wǎng)站日志文件。通過日志文件您可以查詢到網(wǎng)站的一些訪問記錄。(由于各個空間商的不同，本文件夾的命名也有少許差別有都命為：logofiles或者WEBLOG反正一般都會帶上LOG這一個字母)

4、others文件夾：該站點存放您自定義的IIS錯誤文件。IIS默認的一些錯誤提示，比如404錯誤，403錯誤，500錯誤等等，如果您覺得這些錯誤提示不夠個性化，您可以將您自定義的錯誤提示上傳到該目錄下。

二、怎樣分析網(wǎng)站日志文件分析舉例說明

下面已IBM筆記本電腦論壇最近8月份的日志文件為例說明一下，空間日志代碼如下：

2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+/search/spider.htm) 200 0 0 20006

1、首先以百度為例，分析說明：

訪問時間：2009-08-23 16:06:03

百度蜘蛛的IP：58.61.160.170

蜘蛛爬這的網(wǎng)址： /nb/html/30/t-12730.html

合來起所表達的意思很明顯：IP為58.61.160.170的百度蜘蛛在2009-08-23 16:06:03點43分對此網(wǎng)站上的/nb/html/30/t-12730.html 網(wǎng)頁進行收錄或更新了。

【補充說明】

2009-08-23 16:06:03是百度蜘蛛來訪的日期及時間;

158.61.160.170 是百度蜘蛛的IP

“GET 是服務(wù)器的動作，不是GET就是POSP;GET是從服務(wù)器上獲取內(nèi)容;/nb/html/30/t-12730.html 使用HTML1.1協(xié)議獲取相關(guān)內(nèi)容200 是返回狀態(tài)碼，200是成功獲取;404是文件沒找到;401是需要密碼，403禁止查看，500服務(wù)器錯誤。很明顯此例子中最后返回是200，為成功獲取!

“+(+/search/spider.htm)″表示來路

當然，還有部分空間日志會有這樣一些代碼，他們表示意思如下：

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器，Windows NT操作系統(tǒng)，瀏覽器是IE6.0，裝有Alexa Toolbar。

2、接下來說說googlebot，我盼googlebot已經(jīng)好久了，這幾天它終于來了，然后我在上輸入site:.cn上輸入網(wǎng)址即可。不用加前綴site:，還有一點，覺得這幾個月的雅虎中國在技術(shù)上有改進，在網(wǎng)站收錄和關(guān)鍵詞搜索上，大家可以自己去體會。

說完三大搜索爬蟲，再來看看別的二流搜索引擎的爬蟲及門戶搜索的爬蟲：

1)msn: msn(msn live search beta)的搜索技術(shù)我個人覺得是難入流的，似乎比門戶搜索更差，beta說明搜索版在測試階段，現(xiàn)在電信采用msn的搜索技術(shù)，不知道電信的是什么眼光，呵呵。

2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68

- 80 GET 200 /html/down/20070129/550.html

2)Alexa：大名鼎鼎的世界排名Alexa，它的蜘蛛比較難記，是ia_archiver。從嚴格意義上說，它不知道是不是爬蟲，它與純搜索引擎不同，是來偵測流量的居多，并不是來收錄網(wǎng)頁的。

3)Iask愛問： 2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68

- 80 GET 200 /html/webpromote/20070203/935.html

Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗：

對于搜狗，我就覺得好笑了。大家記得我說過我的網(wǎng)站是改版過的，Brand是舊網(wǎng)站文件，早被我刪除了。而且為了刪除除搜索引擎收錄的死鏈接，我在robots.txt文件中寫著：Disallow: /Brand ，這當然禁止訪問Brand下的文件，我這里想說的是，一、它sogou不遵守robots協(xié)議，二、對于已經(jīng)刪除近一個月的文件，它從哪里搜索而來。我真的不太明白了。

2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

5)yodaoice:

對于這個，大家不要感覺驚訝，這是163新開發(fā)的搜索引擎，目前處于測試版，界面頗象google風格，但技術(shù)年幼，也象搜狗一樣亂抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

日記網(wǎng)站篇三：網(wǎng)站日記分析的重要性

很多站長不習慣查看網(wǎng)站日志，其實經(jīng)常查看網(wǎng)站日志對于做網(wǎng)站優(yōu)化有很多的輔助作用，尤其是對于剛剛上線的網(wǎng)站。網(wǎng)站日志能

日記網(wǎng)站

為我們提供很多信息，通過網(wǎng)站日志分析，可以更好的對網(wǎng)站進行調(diào)整，以達到最佳狀態(tài)。

很多站長在論壇發(fā)問，說新站上線多少天了，為什么沒有快照，為什么不收錄，其實在那里盲目提問的時候，你有沒有花點時間用在研究自己站點的日志文件上，日志文件里包含太多的隱藏信息，只要你用心查看，就會發(fā)現(xiàn)，所以找到問題關(guān)鍵，才是解決問題必要前提條件。

對于新站沒有收錄，我們在網(wǎng)站上線后，天天查看前一天統(tǒng)計出來的日志文件，重點查看蜘蛛有沒有來訪問正常爬行，爬取了哪些目錄，哪些頁面，在網(wǎng)站停留時間，來訪次數(shù)，返回狀態(tài)碼是什么。這樣就能對網(wǎng)站情況進行掌握了。

1）如果網(wǎng)站沒有蜘蛛來爬行，這種情況可能出現(xiàn)在剛提交的幾天，我們可以到一些高權(quán)重的網(wǎng)站發(fā)布自己網(wǎng)站的鏈接引蜘蛛過來。

2）查看抓取的目錄，對于不想讓搜索引擎收錄的目錄和頁面，可以用robots.txt來屏蔽掉。

3）對于返回狀態(tài)，如果有404錯誤路徑記錄，我們要做出相就的處理，比如刪除死鏈，或者用robots.txt屏蔽蜘蛛爬行。

天天看日志，就可以了解到網(wǎng)站有沒有被搜索引擎抓取了，因為對于新站，剛抓取了不一定會放出來，所以用站長工具不一定看到，只要每天蜘蛛有來訪有抓取，遲早是會放出來的，就不再需要我們到網(wǎng)上去問這類問題了。我們只需要做好一項工作，就是堅持更新網(wǎng)站內(nèi)容，做好用戶體驗與外部鏈接。我們應(yīng)該從哪幾個維度來進行數(shù)據(jù)的整理分析呢?我們從基礎(chǔ)信息、目錄抓取、時間段抓取、IP抓取、狀態(tài)碼幾點分布給大家講解。

第一、基礎(chǔ)信息

我們從日志中能夠獲取哪里基礎(chǔ)信息呢？總抓取量、停留時間(h)及訪問次數(shù)這三個基礎(chǔ)信息，可以從光年日志分析工具中統(tǒng)計出來。然后，通過這三個基礎(chǔ)信息算出:平均每次抓取頁數(shù)、單頁抓取停留時間。然后用我們的MSSQL提取蜘蛛唯一抓取量，根據(jù)以上的數(shù)據(jù)算出爬蟲重復(fù)抓取率。平均每次抓取頁數(shù)=總抓取量/訪問次數(shù)???

單頁抓取停留時間=停留時間*3600/總抓取量???

爬蟲重復(fù)抓取率=100%—唯一抓取量/總抓取量

而以上這些數(shù)據(jù)，我們需要統(tǒng)計出一段時間的數(shù)據(jù)，看這個時間的整體趨勢是怎么樣的，這樣才能夠發(fā)現(xiàn)問題，才能夠調(diào)整網(wǎng)站的整體策略。下面就以一站點（）上個月的日志基礎(chǔ)信息為例。

這個基礎(chǔ)表是上個月的日志的基本信息，我們需要看它的整體趨勢來調(diào)整，哪些地方需

要加強。

第二、目錄抓取

用MSSQL提取出爬蟲抓取的目錄，分析每日目錄抓取量�？梢院芮逦目吹矫總€目錄的抓取情況，另外可以對比之前的優(yōu)化策略，優(yōu)化是否合理，重點的欄目優(yōu)化是不是預(yù)期的效果。

第三、時間段抓取?

通過excel中的數(shù)組函數(shù)，提取每日的時間段的爬蟲抓取量，重在分析每日的抓取情況，找到相應(yīng)的抓取量較為密集的時間段，可以針對性的進行更新內(nèi)容。同時，還可以看出，抓取不正常情況。

第四，IP段的抓取

通過MSSQL提取日志中的爬蟲的IP，通過excel進行統(tǒng)計，每日每個IP的抓取量，同樣我們需要看整體，如果IP段沒有明顯的變化的話，網(wǎng)站升降權(quán)是沒有多大問題的。因為在網(wǎng)站升權(quán)或者降權(quán)的時候，爬蟲的IP段會更換的。

第五，狀態(tài)碼的統(tǒng)計

在這個之前你需要了解下，HTTP狀態(tài)碼返回值代表是什么。

相關(guān)熱詞搜索：日記網(wǎng)站日記谷吾志

熱點文章閱讀

版權(quán)所有 蒲公英文摘 www.newchangjing.com

<ruby id="pzfar"></ruby>

<pre id="pzfar"></pre>