八爪鱼爬虫软件用法,爬虫基本原理

分散爬行动物是什么?1、分布式爬虫就是将可以在多台电脑上运行,这样可以提高爬虫速度和效率

2、普通的爬虫是将起始任务定义在本机的爬虫文件中,分布式是将起始任务定义在远端服务器上,可以同时多台电脑去取任务,进行爬取

分散型爬行动物的使用方法首先在settings中进行一些相关的配置,以下是在settings中的一些配置

1、设置了DUPEFILTER_CLASS,使用scrapy_redis的重定目标组件,不再使用scrapy拥有的重定目标组件

dupe filter _ class=’ scrapy _ redis.dupe filter.rfpdupefilter ‘

2、设置了SCHEDULER,使用了scrapy_redis的调度程序组件,不再使用scrapy附带的调度程序组件

scheduler=’ scrapy _ redis.scheduler.scheduler ‘

3、不清除redis请求记录(队列),允许爬网暂停和停止,也就是断点爬网。 上次执行结束到什么程度,下次就继续执行

SCHEDULER_PERSIST=True

4、设置请求任务的队列模式

#SpiderPriorityQueue是scrapy_redis框架的默认队列模式。 有自己的优先顺序。 scheduler _ queue _ class=’ scrapy _ redis.queue.spiderpriorityque先进先出# scheduler _ queue _ class=’ scrapy _ e spiderstack先发出请求的队列模式(LifoQueue ),后退先发出# scheduler _ queue _ class=’ scrapy _ redis.queue.spider stack ‘ 5,然后返回

item _ pipelines={ ‘ scrapy _ redis.pipelines.redis pipeline ‘ :400,} 6,用于设置redis的IP和端口号

REDIS_HOST=’服务器IP’REDIS_PORT=6380然后修改爬虫文件:

爬虫(从scrapy.spider继承) 1、导入安装软件包froms crapy _ redis.spidersimportredisspider

2、爬行动物继承对象改为RedisSpider

3、将开始任务从数据库中取的redis_key=更改为数据库中开始任务的键

通用爬虫(从CrawlSpider继承) 1、安装软件包froms crapy _ redis.spidersimportrediscrawlspider部署

2、爬行动物继承对象改为RedisCrawlSpider

3、将开始任务从数据库中取的redis_key=更改为数据库中开始任务的键

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注