作者:怒风 来源:怒风的Blog 酷勤网收集 2008-08-15
摘要
禁止搜索引擎收录的方法有两种:建立robots.txt;增加meta标签
我刚弄了个空间做网盘或其他 不想让搜索引擎抓取 所以在网上找了一下解决方法
方法有两种
- 建立robots.txt
- 增加<meta>标签
先说<meta>标签,如果不想搜索引擎建立快照的话在网页head部分加上<meta name=”robots” content=”noarchive”> 不想让搜索引擎收录的话加<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”> 其中noindex属性是不收录本页 nofollow属性是不收录网页链接里的其他网页 根据需要可以改成<META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW”>或<META NAME=”ROBOTS” CONTENT=”INDEX, NOFOLLOW”>
而robots.txt则可以详细控制搜索引擎抓取
使用方法 在主机里新建一个robots.txt(最好在根目录)
如果要防止抓取所有 在txt文件中输入
User-agent: *
Disallow: /
其中上面一行的意思是针对所有搜索引擎 如果是针对google就把通配符*改成Googlebot 百度则是baiduspider 同样适合<meta>标签里的meta name部分
第二行的意思是不抓取所有目录下的文件
可以参考http://www.google.com/robots.txt中的写法
能够使用* &通配符 比如/aaa/*.htm这样的写法 代表aaa目录下所有htm文件 而.htm$代表所有htm文件
下面是google.com的robots文件中的一部分
User-agent: * Allow: /searchhistory/ Disallow: /news?output=xhtml&
来自:http://nufeng.cn/robots-spider/
延伸阅读:
什么是robots
Google网站管理员工具增加robots.txt文件生成器
META标签的奥妙
你的Robots.txt文件是UTF-8编码吗?

