网站一旦上线后,搜素引擎蜘蛛第一个爬取网站文件的便是robots.txt文件,所谓的robots.txt便是搜索引擎协议文件,故此要检查
分析协议文件是否书写正确
,由于书写正确的robots.txt协议文件至关重要,一般设置robots.txt协议文件主要有以下几个方面:
1、不希望被搜索引擎蜘蛛爬取到的文件都要屏蔽掉,主要屏蔽:网站后台JS、CSS文件和网站后台图片等。
2、不希望被搜索蜘蛛抓取到的网页链接也都要屏蔽掉,主要屏蔽:网站后台登录网址、网站动态路径等。
3、可以将XML格式的网站地图放进robots.txt末尾处,这么做的好处便是方便搜素引擎蜘蛛爬取网站的所有文章,提高网站文章的收录率。