经典案例
  • 厦门网站优化案例:年代文化传播公司
  • 厦门网站优化案例:117企业联盟
  • 厦门网站优化案例:爱家环保科技

什么是robots.txt及主要作用

发布于:2017-09-15 09:40来源:www.sseoo.cn 作者:厦门SEO 点击:147次
robots.txt主要作用是保障网络安全与网站隐私,百度蜘蛛遵循robots.txt协议。通过根目录中创建的纯文本文件robots.txt,网站就可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站都

有些人会问,既然robots文件没弄好,或出错了,会影响整个网站的收录,那为什么还要这个文件呢?

其实robots是为有特别情况的站长准备的,因为有些网站,有一些页面是站长不想被任何搜索引擎收录的,所以才有了这个robots文件。robots.txt文件用法举例:

例1、禁止所有搜索引擎访问网站的任何部分

User-agent: *Disallow: /

例2、允许所有的robot访问

User-agent: *Disallow:(或者也可以建一个空文件 "/robots.txt" file)

例3、禁止某个搜索引擎的访问

User-agent: BadBotDisallow: /

例4、允许某个搜索引擎的访问

User-agent: Baiduspider

Disallow:User-agent: *Disallow: /

例5、假设某个网站有三个目录对搜索引擎的访问做了限制,可以这么写:

User-agent: *Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /joe/

需要注意的是,对每一个目录必须分开声明,而不要写成:“Disallow: /cgi-bin/ /tmp/”。

User-agent:后的*(通配符) 具有特殊的含义,代表“any robot”,所以在该文件中不能有 “Disallow: /tmp/*” or “Disallow: *.gif ”这样的记录出现。

另外,robots.txt主要作用是保障网络安全与网站隐私,百度蜘蛛遵循robots.txt协议。通过根目录中创建的纯文本文件robots.txt,网站就可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站都可以自主控制网站是否愿意被百度蜘蛛收录,或者指定百度蜘蛛只收录指定的内容。

当百度蜘蛛访问某个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。

tag标签:
------分隔线----------------------------
------分隔线----------------------------