编写robots.txt文件 让搜索引擎收录指定内容
站长空间
为了更好地宣传自己的网站,获取更大的访问量,站长们通常会将网页登记到各大搜索引擎中。然而,搜索引擎收录网页的工作并非人工处理,它通过搜索引擎机器人robot完成,而robot的设计并非完美,只要登记了网站首页,整个网站的数据就有可能都会被网友搜索出来,造成一定的安全隐患。因此,我们可以针对搜索引擎机器人robot编写的一个纯文本文件robot.txt,说明网站中不想被访问的部分,这样,网站中的部分内容就可以不被搜索引擎收录了。
robot.txt文件的编写有其特殊的格式,主要由两个参数构成:“User-agent”和“Disallow”,“User-agent”的作用是指定对某个搜索引擎有效,例如要让编写的robot.txt文件对百度的搜索机器人baiduspider有效,可以在User-agent参数后面加上“baiduspider”,如果有多个robot,则需要将robot的名字写成每行一个的格式。将搜索引擎robot的名字设置为“*”,可以让robot.txt文件对所有的搜索引擎有效。
“Disallow”是指定禁止robot收录部分的路径,例如我们要让robot禁止收录网站目录下的“data”文件夹,只需要在Disallow参数后面加上“/data/”即可,同样地,还有多个需要写成每行一个的格式。当然我们也可以让robot禁止访问单个文件,只须补全路径即可。
下面我们来举一个robot.txt文件的例子:
User-agent: *
Disallow: /data/
Disallow: /member/
Disallow: /vip/
这个robot.txt的作用是禁止所有的搜索引擎公司的robot访问“/data/”、“/member/”、“/vip/”这三个文件夹。
最后,将编写完成的robot.txt文件放到网站的根目录,否则将不起作用。