读懂日志 站点情况尽掌握
站长空间
想全面了解自己网站的数据?如果站点有自己独立的服务器,或购买的虚拟主机支持下载服务器日志文件,利用专业的Web日志分析软件,就可以对网站数据进行更为详细的统计、完成SEO项目的实施,或对网站进行安全检测工作,了解站点资源是否被其它网站盗链等。
小知识:什么是网站日志?
大多数Web服务器软件,如Windows默认的IIS(Internet Information Server,因特网信息服务)以及Apache等,都具备生成网站运行和访问日志的功能,便于对网站运行的各项参数进行查询。一般来说使用Windows系统的服务器大都使用自带的IIS软件,它生成的运行信息就是IIS网站日志,通常是以.log为后缀的文本文件,默认存放在服务器的%systemroot%\system32\logfiles\文件夹内。
IIS服务的访问日志,记录了服务器运行的各项信息,可以用于统计网站的访问状况等。另外根据日志文件,还可以查询到搜索引擎蜘蛛的爬行情况,便于对网站的搜索引擎优化项目进行更详细的分析。
Apache软件产生的日志文件,主要包括访问日志和错误日志。与IIS的日志类似,访问日志记录了该服务器所有请求的过程,主要记录的是客户的各项信息,如访问时间、内容、地址等。错误日志则记录服务器出错的细节等数据。日志文件的位置是由主配置文件httpd.conf来设置。
启用日志记录功能
由于Windows服务器系统默认的IIS在国内应用较为广泛,这里我们就以该系统为例进行说明。
Step1:打开Internet 信息服务(IIS)管理器,展开网站列表,在需要进行日志记录的网站上选择右键打开属性栏,勾选“启用日志记录”复选框(图1),设置日志记录的格式,有四种类型可供选择,分别是:IIS日志文件格式、NCSA公用日志文件格式、ODBC日志记录以及默认的W3C扩展日志格式文件格式。

Step2:选定一种日志格式后,单击右侧的“属性”按钮,对日志记录进行详细的设置,分别对日志产生的时间和方式,以及日志文件存放的目录进行修改(图2)。如果网站流量较大,则可以选择以文件大小建立新日志的选项,设置原则一般按照日志文件的生成大小进行设置。

提示:由于日志文件默认存放在C盘,既容易造成系统盘的可用容量减少,又同时造成了安全隐患,所以建议将日志存放在其它分区中。
Step3:如果默认的存放目录已经有日志记录生成,则需要手动将它移到新文件夹中。在日志记录属性选项卡中,还能够设置高级的日志扩展选项(图3),在这里可以按照自己的需求进行设置,如关闭一些不需要记录的网站,从而有效地降低日志文件的大小。

提示:为了保证日志文件不被非法下载,可以对存放日志的目录权限进行必要的修改。
基础应用:分析日志获知网站数据
虽然我们可以使用记事本或其它文字编辑软件打开Web日志,但是对于一个访问量稍大的站点来说,所产生的日志文件很大,动辄就上百MB大小,人工很难分析。这里就需要借助专门的日志分析软件进行处理。我们以一款Nihuo Web Log Analyzer(逆火网站日志分析器)进行说明,其它分析程序还有Webtrends、Awstats等,可以根据自己的需求选择使用。
第一步:这里我们选择的是绿色免安装版,直接解压缩即可使用。打开文件夹Nihuo Web Log Analyzer下的nwla.exe文件,要分析日志文件,需要添加一个网站。点击“New—New Project”按钮,在弹出的对话框中按照提示进行选择,而后依次进入下一步,输入诸如网站地址、首页文件名称等参数。在最后的步骤中可以选择Web日志文件的类型以及位置等(图4)。

第二步:检测生成报告。网站添加完成后,单击右键选择“Analyze”,软件就自动开始进行日志文件的分析。如果日志文件比较大,则需要等待较长的时间。分析的进度会以进度条显示百分比。完成后,软件将生成一个HTML格式的报告文档。
统计图表 网站概况一目了然
软件生成的统计文档比较详细,并且有统计图表可以直观地获知各项数据(图5),还能够根据自己的需求生成80种以上的统计图表。图表包括了多种形式,如三维统计图和曲线图等。

访问资源列表中可以查看多项数据,如某段时间内共有多少人访问了网站,以及访问的总浏览量。它们的来源以及所浏览的页面也可以方便地统计出来。
日志分析 各项数据准确翔实
对网站进行深层次的分析,可以有效地对网站目前的各项情况进行评估,从而对网站的发展进行详细的策划。
软件支持自动日志分析的功能,并可以自定义运行计划,可使得软件在服务器上自动运行。还支持 Apache 和 IIS W3C Extend等多种日志格式,以及GZ、BZ、ZIP 等格式的压缩日志文件。
搜索优化 查看蜘蛛的“脚印”
在统计图表里有一项“网络蜘蛛”的列表,可以显示出搜索引擎机器人的爬行文件和时间等各项参数,因此我们可以方便地分析网站对搜索引擎的友好度。
要查看报告,可以依次打开“浏览器和平台→网络蜘蛛”列表,可以分别看到柱状图图表、详细数据列表以及蜘蛛IP排行等多项详细参数(图6)。

提示:搜索引擎的“机器人”程序被称为“蜘蛛”,是指不间断地执行某项任务的软件程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬来爬去,故俗称为“网络蜘蛛(Web Spider)”。 只有被“蜘蛛”抓取到的网页才会保存到搜索引擎的服务器上,从而在搜索结果中显示。
高级进阶:Web日志保安全
网站日志不仅能统计基本数据,对于网站安全来说,也可以起到一定的保护作用。如常见的站内资源被其它网站引用,如果外部调用的图片或者文件流量过多,则会对服务器的正常访问造成影响。
资源被盗 一查即知
在软件生成的统计报告中,有一项“访问资源”的列表项,其中的盗链文件列表列出了服务器中被其它站点引用的文件。根据它我们可以清楚地获知该文件的点击以及访问量和总共占用的网络带宽等数据(图7)。

反查入侵 雁过留声
因为Web日志记录了网站运行中的所有数据,如果发现网站被恶意入侵,就可以通过日志记录来进行分析。分析日志要有足够的细心,对于大容量的数据则需要首先去掉不相关的记录再进行查看,这里举个简单例子:
#Software: Microsoft Internet Information Services 5.0
#Version: 1.0
#Date: 20080228 03:091
#Fields: date time cip csusername sip sport csmethod csuristem csuriquery scstatus cs(UserAgent)
20080228 03:091 192.168.1.66 192.168.1.88 80 GET /test.asp 200 Mozilla/4.0+(compatible
+MSIE+5.0
+Windows+98
+DigExt)
20080228 03:094 192.168.1.66 192.168.1.88 80 GET /testerror.gif 200 Mozilla/4.0+(compatible
+MSIE+5.0
+Windows+98
+DigExt)
通过这段IIS日志记录,可以看出2008年2月28日,IP地址为192.168.1.66的用户通过访问IP地址为192.168.1.88机器的80端口,查看了Asp网页文件test.asp,这位用户的浏览器为compatible
+MSIE+5.0
+Windows+98+DigExt,有经验的管理员还能够通过和服务器安全日志、FTP上传运行日志等多项数据来确定入侵者的IP地址以及入侵时间。