robots文件写法以及对SEO的影响

小鹰博客9年前 (2017-07-16)网站优化1211

蜘蛛spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。早期robots协议是防止网站内的隐私，防止抓取用户不想让搜索引擎曝光的页面。

robots.txt文件位置

robots.txt文件应该放置在网站根目录下。比如http://0375wg.com/robots.txt这个文件

robots一般格式基本语法

User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎

Disallow:不允许收录

Allow:允许收录

#:注释

全站屏蔽所有蜘蛛

网站改版之前，为了避免蜘蛛抓取错误或临时的链接，可以采用全站屏蔽蜘蛛的操作，在根目录建立robots.txt，添加如下内容：

User-agent:*

Disallow:/

屏蔽某个目录、文件

案例：屏蔽所有蜘蛛抓取根目录下的inc文件夹及里面的所有内容，根目录下的wap目录下的index.html文件。robots.txt文件添加如下内容：

User-agent:*

Disallow:/inc/

Disallow:/wap/index.html

①案例：屏蔽所有蜘蛛抓取根目录下的wap文件夹，但抓取里面后缀名为html的文件

User-agent:*

Disallow:/wap/

Allow:/wap/*.html

注意：上面的写法，wap带“/”代表根目录下的wap目录下的内容。并不会禁止比如根目录下waptest的文件夹及文件夹所有内容。

②案例：禁止抓取根目录下所有前面带“wap”字符的文件夹及文件

User-agent:*

Disallow:/wap

禁止了如：/wap/，/wap/12.html，/waptest/，/wapabc.html。

③案例：保护隐私文件夹或文件

在别让网站的robots成为最大的安全漏洞一文说到，禁止搜索引擎抓取某些私密文件夹的同时，也暴露了网站的目录结构，猜出网站后台管理系统、后台等。

比如：禁止抓取/include，就可以写成如下，当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。

User-agent:*

Disallow:/inc

屏蔽动态URL

网站有些动态页面可能会和静态页面相同，造成重复收录。

①案例：用robots屏蔽动态URL

User-agent:*

Disallow:/*?*

②案例：仅允许访问“.html”为后缀的URL

User-agent:*

Allow:.html$

Disallow:/

屏蔽死链接

网站改版、删除文章后，原来的URL如果已经被搜索引擎索引，出现404错误。一般的做法如下：

①查看网站日志，找出这些死链，用百度提交死链工具提交，慢慢的会删除这些死链；

②如果这个链接已经更换，也可以用301跳转到新的链接，301跳转后原页面和新页面处理办法；

③robots禁止蜘蛛抓取死链，写法同上，最好带完整路径

User-agent:*

Disallow:http://0375wg.com/***/***.html

屏蔽不参与排名的页面链接

比如会员中心、登陆界面、联系我们等。这些虽然有实际用途，蜘蛛一样会爬取这些页面链接，这些页面也会分权，因此为了集中权重，一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的</head>之前添加<meta>声明，指向该页面的链接加上nofollow标签。

sitemap索引在robots.txt的位置

sitamap索引的位置最好放在robots.txt的最下面，蜘蛛先遵循前面的原则，再按照网站地图爬取。

Sitemap: http://0375wg.com/sitemap.xml

返回列表

上一篇：robots文件添加Sitemap链接的方法

下一篇：CSS实现文章段落首行缩进两个字符不再每次空格

robots文件写法以及对SEO的影响

相关文章

SEO交换友情链接的技巧

site网站首页不在第一怎么办？

购买已备案域名应当注意的事项

网站用的伪静态怎么禁止搜索引擎收录动态页面

锚文本是什么？怎么做锚文本？

如何分析一个关键词的竞争度和价值

发表评论

Copyright 小鹰博客.Some Rights Reserved.
豫ICP备13010755号

Powered By Z-BlogPHP. Theme by TOYEAN.

robots文件写法以及对SEO的影响

相关文章

SEO交换友情链接的技巧

site网站首页不在第一怎么办？

购买已备案域名应当注意的事项

网站用的伪静态怎么禁止搜索引擎收录动态页面

锚文本是什么？怎么做锚文本？

如何分析一个关键词的竞争度和价值

发表评论 取消回复

Copyright 小鹰博客.Some Rights Reserved.豫ICP备13010755号

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论

Copyright 小鹰博客.Some Rights Reserved.
豫ICP备13010755号