分散爬行动物是什么?1、分布式爬虫就是将可以在多台电脑上运行,这样可以提高爬虫速度和效率
2、普通的爬虫是将起始任务定义在本机的爬虫文件中,分布式是将起始任务定义在远端服务器上,可以同时多台电脑去取任务,进行爬取
分散型爬行动物的使用方法首先在settings中进行一些相关的配置,以下是在settings中的一些配置
1、设置了DUPEFILTER_CLASS,使用scrapy_redis的重定目标组件,不再使用scrapy拥有的重定目标组件
dupe filter _ class=’ scrapy _ redis.dupe filter.rfpdupefilter ‘
2、设置了SCHEDULER,使用了scrapy_redis的调度程序组件,不再使用scrapy附带的调度程序组件
scheduler=’ scrapy _ redis.scheduler.scheduler ‘
3、不清除redis请求记录(队列),允许爬网暂停和停止,也就是断点爬网。 上次执行结束到什么程度,下次就继续执行
SCHEDULER_PERSIST=True
4、设置请求任务的队列模式
#SpiderPriorityQueue是scrapy_redis框架的默认队列模式。 有自己的优先顺序。 scheduler _ queue _ class=’ scrapy _ redis.queue.spiderpriorityque先进先出# scheduler _ queue _ class=’ scrapy _ e spiderstack先发出请求的队列模式(LifoQueue ),后退先发出# scheduler _ queue _ class=’ scrapy _ redis.queue.spider stack ‘ 5,然后返回
item _ pipelines={ ‘ scrapy _ redis.pipelines.redis pipeline ‘ :400,} 6,用于设置redis的IP和端口号
REDIS_HOST=’服务器IP’REDIS_PORT=6380然后修改爬虫文件:
爬虫(从scrapy.spider继承) 1、导入安装软件包froms crapy _ redis.spidersimportredisspider
2、爬行动物继承对象改为RedisSpider
3、将开始任务从数据库中取的redis_key=更改为数据库中开始任务的键
通用爬虫(从CrawlSpider继承) 1、安装软件包froms crapy _ redis.spidersimportrediscrawlspider部署
2、爬行动物继承对象改为RedisCrawlSpider
3、将开始任务从数据库中取的redis_key=更改为数据库中开始任务的键