离线浏览新军——WebStripper

Author: myJokul Date: 2000年 第28期

  上网省钱的一招就是采用了离线浏览器,从以前的Teleport Pro、WebSnake、Webzip、Agent,到现在非常流行的Offline Explorer(以下简称OE)。各种离线浏览器各有特点,各显其能。而OE以其飞快的速度、小巧的体积和比较方便的操作赢得了广大网友的喜爱。但从它的1.0.115版起到1.2.187版(好像后面的1.3版也一样)都有一个bug,即对于每一个抓取下来的*.htm或*.html格式的文件,它都会产生一个扩展名为*.htm(l).primary的副本文件,其内容与原文件完全相同。这是一个很令人讨厌的bug,试想在抓下的目录中,往往有多达数百个*.htm或*.html文件,它们都有一个副本的话,会对我们的硬盘资源造成多么大的浪费呀!笔者常常在聊天时就打开OE来抓网页,下线一看,呵!产生的*.primary的文件的容量竟有××MB!完全是硬盘蛀虫。而这款五星级的离线浏览器——WebStripper,它不但拥有OE快速、小巧的特点,支持多线程抓取网页、内建浏览器、支持代理服务器等,还可抓取整个网站和单个网页,也可同时抓取多个网站,使用起来十分方便,而且不会有上述OE带来的资源浪费。自从有了它,我就一直用它来抓网页了,不但省了钱还省了心。
  WebStripper是由英国Solent Software公司的Mike Sutton编写的免费软件。目前的最新版本是1.33版,适用于Win95/98/NT/2000等多种操作系统。压缩后的zip文件大小为1278KB。下载后安装过程非常简单,只要一路“Next”下去即可。其主界面如^28040301a^所示。
  我们可以看到,在窗口左边是站点列表,WebStripper已经预先建立了“Business”、“Computers”、“Finances”、“Humour”、“Kids”和“Software”等分类目录,如果你不喜欢可以将其删除,然后点菜单中的“Site”→“Add category”添加分类目录,如“电脑报”等。
  在欲抓取网页时,在相应分类目录上单击鼠标右键选“Add site”(或者直接将网页的URL拖到WebStripper窗口上)。然后,就会弹出一个窗口,在其中输入网页地址、在WebStripper分类目录中显示的名称和网页保存路径后,按“Next”,设置是否抓取其它服务器上的文件、抓取文件的类型和大小以及抓取几层目录下的文件等,均可在这个窗口的“Advanced”选项里进行。软件默认的是抓取网页所在服务器上的指定URL目录下的所有文件。如果你只是想抓取文字信息的话,可以选择仅抓取txt文件,然后点击“Finish”就可以抓取你想要网页中的文字信息了。软件默认可同时下载的线程数目、抓取失败时的重试次数及浏览网页时用何种浏览器等,都可在菜单下“Options”选项里进行设置。
  在我试用的两个多星期中,我觉得WebStripper的表现比较令人满意。它的下载速度往往能达到4KB/s以上(我用的是金网霸56K Modem)。我曾统计了一下,用WebStripper抓网页,在30分钟内接收的字节数竟然达到了15,×××,×××!而在同时抓取多个Project的时候,它的速度也非常稳定,而且各个Project之间不会受彼此的影响。
  WebStripper在抓网页时的速度是很快(真是咱穷人的法拉利啊:)),可是,在要让它停止的时候,它却要等上好一会儿才行(好像因机器而异)。我想它是在把网页地址转换为本地连接吧,这样才可以离线浏览呀:)。而OE在这方面是边下载边转换的,所以只要你一按下Stop,它马上就会停下来了。所以相比之下,OE的刹车性能比WebStripper略胜一筹。另外,由于我用的是未付费版,窗口内有一个广告条,因此在使用它内置的浏览器时,显得窗口的可视面积非常小,不是很方便,只好使用外部浏览器;而OE却可以用内置的浏览器进行全屏浏览。除此之外,它没有时间和其它功能方面的限制。
  如果你对它有兴趣,可以到电脑报的网站http:∥www.mydown.com或者到http:∥www.solentsoftware.com去下载一个它的最新版本。如果你有什么疑问或高见,欢迎来信交流:wed@telekbird.com.cn