网络爬虫是什么？-罗啸SEO博客

网络爬虫行业上叫做“抓取蜘蛛”，是一种抓取网页信息的程序。这种程序大多用于搜索引擎捕捉互联网信息，也能被用于抓取某些网站的指定内容。我们一般认为网络爬虫便是搜索引擎用于捕捉网络信息的抓取程序。

网络爬虫通过搜索引擎需要，会对其功能做划分，有专门抓取网页的，也有专门抓取图片的，有专门抓取手机站点信息的。国内常见的网络爬虫主要有

一、百度蜘蛛

百度蜘蛛最新名称为Baiduspider，日志中还发现了Baiduspider-image这个百度旗下蜘蛛，我们直接看名字就可以知道它是干嘛的，是专门用以抓取图片的蜘蛛。常见百度旗下同类型蜘蛛还有下面这些：Baiduspider-mobile（抓取wap）、Baiduspider-video（抓取视频）、Baiduspider-news（抓取新闻）。

备注：以上百度蜘蛛目前最为常见的是，Baiduspider和Baiduspider-image这两种。

二、谷歌蜘蛛

这个争议较少，但也有说是Googlebot的。谷歌蜘蛛最新名称为“compatible;Googlebot/2.1;”，除此还发现了Googlebot-Mobile，看名字显然是抓取wap内容的。

三、360蜘蛛

360Spider，它是一个很“勤奋抓爬”的蜘蛛。

四、搜狗蜘蛛

其名称为，SogouNewsSpider。

搜狗蜘蛛还包括如下这些：Sogouwebspider、Sogouinstspider、Sogouspider2、Sogoublog、SogouNewsSpider、SogouOrionspider（参考一些网站的robots文件，搜狗蜘蛛名称可以用Sogou来简易概括）。看看最权威的百度的robots.txt，http://www.baidu.com/robots.txt就为搜狗蜘蛛费了不少字节，占了一大块地方。

“Sogouwebspider；Sogouinstspider；Sogouspider2；Sogoublog；SogouNewsSpider；SogouOrionspider”目前主要有这么6个，名称都带空格。线上常见Sogouwebspider/4.0、SogouNewsSpider/4.0、Sogouinstspider/4.0″，可以为它颁个“占名为王”奖。

五、SOSO蜘蛛

Sosospider，我们也能为它颁发一个“勤奋抓爬”奖的蜘蛛。

六、雅虎蜘蛛

“Yahoo!SlurpChina”或者Yahoo，名称中带“Slurp”和空格。

七、有道蜘蛛

YoudaoBot或者YodaoBot，两个名字都有，中文拼音少了个u字母令读音差别变得很大，这都会少？

八、MSN蜘蛛

msnbot-media，只见到msnbot-media在疯狂地爬呀爬个不停。

九、必应蜘蛛

其名称为，bingbot。

十、一搜蜘蛛

其名称为，YisouSpider。

十一、Alexa蜘蛛

其名称为，ia_archiver。

十二、宜搜蜘蛛

其名称为，EasouSpider。

十三、即刻蜘蛛

其名称为，JikeSpider。

十四、一淘网蜘蛛

其名称为EtaoSpider。

网络爬虫的工作原理是，技术人员通过抓取需要编写爬虫程序，然后将爬虫赋予给指定网页，利用指定网页的多种站外链接传播到整个网络，其爬行路径往往复复，构成像一个网的爬行路径，所以俗称蜘蛛。

网络爬虫每放问一个新站点首先会访问robots.txt文件和sitemap文件。robots.txt文件一般是网站技术人员用于限制网络爬虫抓取网页的协议文件，告知网络爬虫那些文件可以抓取，网络爬虫可遵循也能不遵循。Sitemap文件即网站地图文件，告知网络爬虫网站的多种文件存放的路径，要是网站存在这两个文件网络爬虫的抓取速度会更快。

当网络爬虫发现新内容，并通过基础要求识别网页内容，要是满足，网络爬虫就会将网站内容整体带回网页服务器，我们将这个流程叫做收录。所以，公司网站在服务器访问日志中发现大批蜘蛛的抓取记录是，这说明网站的站点质量也是比较优秀。不过从收录到快照放出还要经过过滤及排序计算，再次不在赘述。

对于公司来讲做好公司网站，优化网站高质量内容更为重要，制做满足网络爬虫需求的内容，让网络爬虫尽潜在的抓取网站内容，争取在网页中出现免费排名，节约电子商务成本，这才是公司应该做的。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

网络爬虫是什么？

相关文章

发表评论取消回复

相关文章

发表评论 取消回复

发表评论取消回复