八爪鱼爬虫软件用法,爬虫基本原理

分散爬行动物是什么？1、分布式爬虫就是将可以在多台电脑上运行，这样可以提高爬虫速度和效率

2、普通的爬虫是将起始任务定义在本机的爬虫文件中，分布式是将起始任务定义在远端服务器上，可以同时多台电脑去取任务，进行爬取

分散型爬行动物的使用方法首先在settings中进行一些相关的配置，以下是在settings中的一些配置

1、设置了DUPEFILTER_CLASS，使用scrapy_redis的重定目标组件，不再使用scrapy拥有的重定目标组件

dupe filter _ class=’ scrapy _ redis.dupe filter.rfpdupefilter ‘

2、设置了SCHEDULER，使用了scrapy_redis的调度程序组件，不再使用scrapy附带的调度程序组件

scheduler=’ scrapy _ redis.scheduler.scheduler ‘

3、不清除redis请求记录(队列)，允许爬网暂停和停止，也就是断点爬网。上次执行结束到什么程度，下次就继续执行

SCHEDULER_PERSIST=True

4、设置请求任务的队列模式

#SpiderPriorityQueue是scrapy_redis框架的默认队列模式。有自己的优先顺序。 scheduler _ queue _ class=’ scrapy _ redis.queue.spiderpriorityque先进先出# scheduler _ queue _ class=’ scrapy _ e spiderstack先发出请求的队列模式(LifoQueue )，后退先发出# scheduler _ queue _ class=’ scrapy _ redis.queue.spider stack ‘ 5，然后返回

item _ pipelines={ ‘ scrapy _ redis.pipelines.redis pipeline ‘ :400，} 6，用于设置redis的IP和端口号

REDIS_HOST=’服务器IP’REDIS_PORT=6380然后修改爬虫文件：

爬虫(从scrapy.spider继承) 1、导入安装软件包froms crapy _ redis.spidersimportredisspider

2、爬行动物继承对象改为RedisSpider

3、将开始任务从数据库中取的redis_key=更改为数据库中开始任务的键

通用爬虫(从CrawlSpider继承) 1、安装软件包froms crapy _ redis.spidersimportrediscrawlspider部署

2、爬行动物继承对象改为RedisCrawlSpider

3、将开始任务从数据库中取的redis_key=更改为数据库中开始任务的键

八爪鱼爬虫软件用法,爬虫基本原理

Published by

风君子

发表回复取消回复

Published by

风君子

发表回复 取消回复

发表回复取消回复