robots.txt怎么写呢?robots.txt的文件格式怎么写?
SEO优化的人都知道,编写roots.txt,在网络优化中也是一个优化环节,经过一段时间的学习,总结了如何快速编写roots.tex.现在就分享给大家。
现在解释一下什么是robots.txt:
搜索引擎会使用spider程序自动访问网站并获取网页信息。spider在访问一个网站时,会先查找网站根目录下的robots.txt的纯文本文件是否
存在。
你的网站中可以创建一个纯文本文件robots.txt,在文本中标明网站不想被robot访问的部分或者要求搜索引擎只收录的部分。
如果你的网站不想让搜索引擎全部收录时,才要用到robots.txt,如果希望全部收录,就可以直接建个空的robots.txt文档。(最好还是用上,因为后台最好不要收录)
1。robots.txt文件必须放到网站的根目录下。如果修改了robots.txt,则需要48小时才能够生效你所修改的部份。
2。如果要禁止搜索引擎在收录网站时显示快照,而只需要做到索引功能,就可以用这些办法?
百度可以支持通过设置网页的meta,禁止搜索引擎在收录网站时显示快照。方法如下:
要防止所有禁止搜索引擎在收录网站时显示快照,请将此元标记置入网页的 <;HEAD>; 部分:
<;meta name='robots' content='noarchive'>;
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<;meta name='baiduspider' content='noarchive'>;
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
3。如何写robots.txt呢,格式都是怎么样的呢?
robots.txt是以 User-agent: 作为文本记录开头的。这个值是来描述搜索引擎robots的名字。
如果针对百度搜索引擎,格式主为 User-agent: baiduspider
针对谷歌就是 User-agent:googlespider
如果针对所有搜索引擎,只需写上User-agent: *就OK。
robots.txt 除了第一项 User-agent: 还有其他两项 Disallow: Allow: 但是User-agent: 是唯一项 他后面可以加若干Disallow和Allow行
也就是这种格式
User-agent: *
Disallow:
Disallow:
Disallow:
Allow:
Allow:
Allow:
这里的Disallow是告诉搜索引擎不希望被收录的网址。你就可以用Disallow的描述来限制搜索引擎
举个例子,如果不想收录我的后台admin,就可以直接写上:
User-agent: *
Disallow: /admin/
就可以了
只针对百度不要收录我的这个目录其实搜索引擎可以写上
User-agent: baiduspider
Disallow: /admin/