日記網(wǎng)站
發(fā)布時(shí)間:2017-02-02 來(lái)源: 日記大全 點(diǎn)擊:
日記網(wǎng)站篇一:Seo們?nèi)绾尾榭淳W(wǎng)站日志和分析網(wǎng)站日志
Seo從業(yè)人員如何查看網(wǎng)站日志和分析網(wǎng)站日志
Seo從業(yè)人員如何查看網(wǎng)站日志和分析網(wǎng)站日志
網(wǎng)站日志是什么?
作為一個(gè)網(wǎng)站管理人員,我們?cè)摮送ㄟ^(guò)流量統(tǒng)計(jì)工具來(lái)查看網(wǎng)站訪問(wèn)人數(shù)之外,并不能幫助我們很好地了解網(wǎng)站的運(yùn)行狀況,而網(wǎng)站日志的出現(xiàn)很好地幫助我們解決這一問(wèn)題。網(wǎng)站日志是由網(wǎng)站所在服務(wù)器實(shí)時(shí)記錄網(wǎng)站運(yùn)行狀態(tài)的各種數(shù)據(jù)的文件,通過(guò)對(duì)網(wǎng)站日志的分析,我們可以知道哪些用戶訪問(wèn)了網(wǎng)站,訪問(wèn)了哪些頁(yè)面;同時(shí)可以查看到搜索引擎中的蜘蛛在網(wǎng)站中的爬行情況,利用網(wǎng)站日志還能查看到請(qǐng)求中返回的HTTP協(xié)議狀態(tài)碼,長(zhǎng)期分析網(wǎng)站日志中的HTTP狀態(tài)碼能夠發(fā)現(xiàn)對(duì)網(wǎng)站不利的細(xì)節(jié)部分,使網(wǎng)站管理人員更好地管理和優(yōu)化網(wǎng)站。網(wǎng)站日志存放在哪里?
網(wǎng)站日志一般存放在網(wǎng)站根目錄下的“l(fā)og文件夾”或“l(fā)ogfiles文件夾”,文件夾名稱視各虛擬主機(jī)提供商不同而不同。網(wǎng)站日志是以txt結(jié)尾的文本文件。可以通過(guò)FlashFxp、Leapftp等網(wǎng)站上傳下載工具將日志下載到本地進(jìn)行分析。
網(wǎng)站日志案例分析:
1、日志語(yǔ)法:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2010-08-11 00:00:17
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
說(shuō)明:
#Software:表示軟件名稱;
#Version:表示版本號(hào);
#Date:表示時(shí)間
#Fields:說(shuō)明如下:
date:表示記錄訪問(wèn)日期;
time:訪問(wèn)具體時(shí)間;
s-sitename:表示你的虛擬主機(jī)的代稱或機(jī)器碼;
s-ip:服務(wù)器IP;
cs-method:表示訪問(wèn)方法或發(fā)生的請(qǐng)求/提交事件,常見(jiàn)的有兩種:一個(gè)是GET,就是平常我們打開(kāi)一個(gè)URL訪問(wèn)的動(dòng)作,另一個(gè)是POST,提交表單時(shí)的動(dòng)作;
cs-uri-stem:用戶在當(dāng)前時(shí)間訪問(wèn)哪一個(gè)文件或具體頁(yè)面;
cs-uri-query:是指訪問(wèn)地址的附帶參數(shù),如asp文件?后面的字符串id=12等等,如果沒(méi)有參數(shù)則用“-”表示;
s-port:訪問(wèn)的端口
cs-username:訪問(wèn)者名稱,如果沒(méi)有參數(shù)則用“-”表示;
c-ip:訪問(wèn)者IP
cs(User-Agent):訪問(wèn)的搜索引擎和蜘蛛名稱;
sc-status:Http狀態(tài)碼,200表示成功,403表示沒(méi)有權(quán)限,404表示打不到該頁(yè)面,500表示程序有錯(cuò);
sc-substatus:服務(wù)端傳送到客戶端的字節(jié)大小;
cs–win32-statu:客戶端傳送到服務(wù)端的字節(jié)大小;
sc-bytes:服務(wù)端傳送數(shù)據(jù)字節(jié)大小;
cs-bytes:用戶請(qǐng)求數(shù)據(jù)字節(jié)大小;
http狀態(tài)碼后面幾位數(shù)據(jù)沒(méi)有固定格式,如果只有一個(gè)表示下載數(shù)據(jù)字節(jié)大小;
2、Http狀態(tài)碼:
1**:請(qǐng)求收到,繼續(xù)處理
2**:操作成功收到,分析、接受
3**:完成此請(qǐng)求必須進(jìn)一步處理
4**:請(qǐng)求包含一個(gè)錯(cuò)誤語(yǔ)法或不能完成
5**:服務(wù)器執(zhí)行一個(gè)完全有效請(qǐng)求失敗
[案例]案例來(lái)源:web168.com的其中一個(gè)日志代碼如下:
2010-08-09 11:44:32 W3SVC622339 222.186.25.142 GET /index.html - 80 - 123.125.66.70 Baiduspider+(+/search/spider.htm) 304 0 0 283
[說(shuō)明]
這一記錄表示百度蜘蛛在2010-08-09 11:44:32這一時(shí)間爬過(guò)網(wǎng)站根目錄下的“index.html“這一頁(yè),通過(guò)返回的304狀態(tài)碼表示蜘蛛認(rèn)為網(wǎng)頁(yè)內(nèi)容沒(méi)有更新或沒(méi)有修改,283表示蜘蛛下載這一頁(yè)面的字節(jié)大小。
日記網(wǎng)站篇二:教你怎么看自己網(wǎng)站的日志和優(yōu)化
一、網(wǎng)站日志文件在哪里?
【簡(jiǎn)單說(shuō)下網(wǎng)站虛擬主機(jī)FTP幾個(gè)文件夾說(shuō)明】
虛擬主機(jī)開(kāi)通成功之后,會(huì)在您的FTP里面自動(dòng)生成4個(gè)文件夾,分別是:"databases","logofiles","others","wwwroot",他們作用如下:
1、wwwroot文件夾:該文件夾內(nèi)存放可以通過(guò)web訪問(wèn)的文件,您需要將您對(duì)外發(fā)布的網(wǎng)站文件上傳到該目錄下,輸入域名訪問(wèn)到的文件將是該文件夾下的文件。
2、databases文件夾:該文件夾同logofiles、others文件夾一樣,屬于不可通過(guò)web訪問(wèn)的文件夾,即用戶無(wú)法通過(guò)輸入網(wǎng)址來(lái)訪問(wèn)這些文件夾下的文件,您可以在這些文件夾下上傳一些不希望別人能夠訪問(wèn)的文件。比如您可以將access數(shù)據(jù)庫(kù)存放在databases文件夾下,這樣可以最大化的保證您的數(shù)據(jù)庫(kù)安全。
3、logofiles文件夾:logofiles文件夾是日志文件,該文件夾存放您的網(wǎng)站日志文件。通過(guò)日志文件您可以查詢到網(wǎng)站的一些訪問(wèn)記錄。(由于各個(gè)空間商的不同,本文件夾的命名也有少許差別有都命為:logofiles或者WEBLOG反正一般都會(huì)帶上LOG這一個(gè)字母)
4、others文件夾:該站點(diǎn)存放您自定義的IIS錯(cuò)誤文件。IIS默認(rèn)的一些錯(cuò)誤提示,比如404錯(cuò)誤,403錯(cuò)誤,500錯(cuò)誤等等,如果您覺(jué)得這些錯(cuò)誤提示不夠個(gè)性化,您可以將您自定義的錯(cuò)誤提示上傳到該目錄下。
二、怎樣分析網(wǎng)站日志文件 分析舉例說(shuō)明
下面已IBM筆記本電腦論壇最近8月份的日志文件為例說(shuō)明一下,空間日志代碼如下:
2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+/search/spider.htm) 200 0 0 20006
1、首先以百度為例,分析說(shuō)明:
訪問(wèn)時(shí)間:2009-08-23 16:06:03
百度蜘蛛的IP:58.61.160.170
蜘蛛爬這的網(wǎng)址: /nb/html/30/t-12730.html
合來(lái)起所表達(dá)的意思很明顯:IP為58.61.160.170的百度蜘蛛在2009-08-23 16:06:03點(diǎn)43分對(duì)此網(wǎng)站上的/nb/html/30/t-12730.html 網(wǎng)頁(yè)進(jìn)行收錄或更新了。
【補(bǔ)充說(shuō)明】
2009-08-23 16:06:03是百度蜘蛛來(lái)訪的日期及時(shí)間;
158.61.160.170 是百度蜘蛛的IP
“GET 是服務(wù)器的動(dòng)作,不是GET就是POSP;GET是從服務(wù)器上獲取內(nèi)容;/nb/html/30/t-12730.html 使用HTML1.1協(xié)議獲取相關(guān)內(nèi)容200 是返回狀態(tài)碼,200是成功獲取;404是文件沒(méi)找到;401是需要密碼,403禁止查看,500服務(wù)器錯(cuò)誤。很明顯此例子中最后返回是200,為成功獲取!
“+(+/search/spider.htm)″表示來(lái)路
當(dāng)然,還有部分空間日志會(huì)有這樣一些代碼,他們表示意思如下:
“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用戶所使用的電腦是與Netscape兼容的Mozilla瀏覽器,Windows NT操作系統(tǒng),瀏覽器是IE6.0,裝有Alexa Toolbar。
2、接下來(lái)說(shuō)說(shuō)googlebot,我盼googlebot已經(jīng)好久了,這幾天它終于來(lái)了,然后我在上輸入site:.cn上輸入網(wǎng)址即可。不用加前綴site:,還有一點(diǎn),覺(jué)得這幾個(gè)月的雅虎中國(guó)在技術(shù)上有改進(jìn),在網(wǎng)站收錄和關(guān)鍵詞搜索上,大家可以自己去體會(huì)。
說(shuō)完三大搜索爬蟲(chóng),再來(lái)看看別的二流搜索引擎的爬蟲(chóng)及門戶搜索的爬蟲(chóng):
1)msn: msn(msn live search beta)的搜索技術(shù)我個(gè)人覺(jué)得是難入流的,似乎比門戶搜索更差,beta說(shuō)明搜索版在測(cè)試階段,現(xiàn)在電信采用msn的搜索技術(shù),不知道電信的是什么眼光,呵呵。
2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68
- 80 GET 200 /html/down/20070129/550.html
2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比較難記,是ia_archiver。從嚴(yán)格意義上說(shuō),它不知道是不是爬蟲(chóng),它與純搜索引擎不同,是來(lái)偵測(cè)流量的居多,并不是來(lái)收錄網(wǎng)頁(yè)的。
3)Iask愛(ài)問(wèn): 2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html) msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)
2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68
- 80 GET 200 /html/webpromote/20070203/935.html
Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)
4)sogou搜狗:
對(duì)于搜狗,我就覺(jué)得好笑了。大家記得我說(shuō)過(guò)我的網(wǎng)站是改版過(guò)的,Brand是舊網(wǎng)站文件,早被我刪除了。而且為了刪除除搜索引擎收錄的死鏈接,我在robots.txt文件中寫著:Disallow: /Brand ,這當(dāng)然禁止訪問(wèn)Brand下的文件,我這里想說(shuō)的是,一、它sogou不遵守robots協(xié)議,二、對(duì)于已經(jīng)刪除近一個(gè)月的文件,它從哪里搜索而來(lái)。我真的不太明白了。
2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider
5)yodaoice:
對(duì)于這個(gè),大家不要感覺(jué)驚訝,這是163新開(kāi)發(fā)的搜索引擎,目前處于測(cè)試版,界面頗象google風(fēng)格,但技術(shù)年幼,也象搜狗一樣亂抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice
日記網(wǎng)站篇三:網(wǎng)站日記分析的重要性
很多站長(zhǎng)不習(xí)慣查看網(wǎng)站日志,其實(shí)經(jīng)常查看網(wǎng)站日志對(duì)于做網(wǎng)站優(yōu)化有很多的輔助作用,尤其是對(duì)于剛剛上線的網(wǎng)站。網(wǎng)站日志能
為我們提供很多信息,通過(guò)網(wǎng)站日志分析,可以更好的對(duì)網(wǎng)站進(jìn)行調(diào)整,以達(dá)到最佳狀態(tài)。很多站長(zhǎng)在論壇發(fā)問(wèn),說(shuō)新站上線多少天了,為什么沒(méi)有快照,為什么不收錄,其實(shí)在那里盲目提問(wèn)的時(shí)候,你有沒(méi)有花點(diǎn)時(shí)間用在研究自己站點(diǎn)的日志文件上,日志文件里包含太多的隱藏信息,只要你用心查看,就會(huì)發(fā)現(xiàn),所以找到問(wèn)題關(guān)鍵,才是解決問(wèn)題必要前提條件。
對(duì)于新站沒(méi)有收錄,我們?cè)诰W(wǎng)站上線后,天天查看前一天統(tǒng)計(jì)出來(lái)的日志文件,重點(diǎn)查看蜘蛛有沒(méi)有來(lái)訪問(wèn)正常爬行,爬取了哪些目錄,哪些頁(yè)面,在網(wǎng)站停留時(shí)間,來(lái)訪次數(shù),返回狀態(tài)碼是什么。這樣就能對(duì)網(wǎng)站情況進(jìn)行掌握了。
1)如果網(wǎng)站沒(méi)有蜘蛛來(lái)爬行,這種情況可能出現(xiàn)在剛提交的幾天,我們可以到一些高權(quán)重的網(wǎng)站發(fā)布自己網(wǎng)站的鏈接引蜘蛛過(guò)來(lái)。
2)查看抓取的目錄,對(duì)于不想讓搜索引擎收錄的目錄和頁(yè)面,可以用robots.txt來(lái)屏蔽掉。
3)對(duì)于返回狀態(tài),如果有404錯(cuò)誤路徑記錄,我們要做出相就的處理,比如刪除死鏈,或者用robots.txt屏蔽蜘蛛爬行。
天天看日志,就可以了解到網(wǎng)站有沒(méi)有被搜索引擎抓取了,因?yàn)閷?duì)于新站,剛抓取了不一定會(huì)放出來(lái),所以用站長(zhǎng)工具不一定看到,只要每天蜘蛛有來(lái)訪有抓取,遲早是會(huì)放出來(lái)的,就不再需要我們到網(wǎng)上去問(wèn)這類問(wèn)題了。我們只需要做好一項(xiàng)工作,就是堅(jiān)持更新網(wǎng)站內(nèi)容,做好用戶體驗(yàn)與外部鏈接。我們應(yīng)該從哪幾個(gè)維度來(lái)進(jìn)行數(shù)據(jù)的整理分析呢?我們從基礎(chǔ)信息、目錄抓取、時(shí)間段抓取、IP抓取、狀態(tài)碼幾點(diǎn)分布給大家講解。
第一、基礎(chǔ)信息
我們從日志中能夠獲取哪里基礎(chǔ)信息呢?總抓取量、停留時(shí)間(h)及訪問(wèn)次數(shù)這三個(gè)基礎(chǔ)信息,可以從光年日志分析工具中統(tǒng)計(jì)出來(lái)。然后,通過(guò)這三個(gè)基礎(chǔ)信息算出:平均每次抓取頁(yè)數(shù)、單頁(yè)抓取停留時(shí)間。然后用我們的MSSQL提取蜘蛛唯一抓取量,根據(jù)以上的數(shù)據(jù)算出爬蟲(chóng)重復(fù)抓取率。平均每次抓取頁(yè)數(shù)=總抓取量/訪問(wèn)次數(shù)???
單頁(yè)抓取停留時(shí)間=停留時(shí)間*3600/總抓取量???
爬蟲(chóng)重復(fù)抓取率=100%—唯一抓取量/總抓取量
而以上這些數(shù)據(jù),我們需要統(tǒng)計(jì)出一段時(shí)間的數(shù)據(jù),看這個(gè)時(shí)間的整體趨勢(shì)是怎么樣的,這樣才能夠發(fā)現(xiàn)問(wèn)題,才能夠調(diào)整網(wǎng)站的整體策略。下面就以一站點(diǎn)()上個(gè)月的日志基礎(chǔ)信息為例。
這個(gè)基礎(chǔ)表是上個(gè)月的日志的基本信息,我們需要看它的整體趨勢(shì)來(lái)調(diào)整,哪些地方需
要加強(qiáng)。
第二、目錄抓取
用MSSQL提取出爬蟲(chóng)抓取的目錄,分析每日目錄抓取量。可以很清晰的看到每個(gè)目錄的抓取情況,另外可以對(duì)比之前的優(yōu)化策略,優(yōu)化是否合理,重點(diǎn)的欄目?jī)?yōu)化是不是預(yù)期的效果。
第三、時(shí)間段抓取?
通過(guò)excel中的數(shù)組函數(shù),提取每日的時(shí)間段的爬蟲(chóng)抓取量,重在分析每日的抓取情況,找到相應(yīng)的抓取量較為密集的時(shí)間段,可以針對(duì)性的進(jìn)行更新內(nèi)容。同時(shí),還可以看出,抓取不正常情況。
第四,IP段的抓取
通過(guò)MSSQL提取日志中的爬蟲(chóng)的IP,通過(guò)excel進(jìn)行統(tǒng)計(jì),每日每個(gè)IP的抓取量,同樣我們需要看整體,如果IP段沒(méi)有明顯的變化的話,網(wǎng)站升降權(quán)是沒(méi)有多大問(wèn)題的。因?yàn)樵诰W(wǎng)站升權(quán)或者降權(quán)的時(shí)候,爬蟲(chóng)的IP段會(huì)更換的。
第五,狀態(tài)碼的統(tǒng)計(jì)
在這個(gè)之前你需要了解下,HTTP狀態(tài)碼返回值代表是什么。
相關(guān)熱詞搜索:日記 網(wǎng)站 日記谷 吾志
熱點(diǎn)文章閱讀