我用的是python2.7 我搜网上10054错误解决方法的时候发现,大部分文章都是以python3为基础的,对于python2不适用。
python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。
原因:服务器发现你的爬虫行为了,所有强制断开链接了
解决办法: 服务器知道你是爬虫,加headers, 模拟浏览器agent;head中有一个user-agent每次都换不同的模拟代理
#coding:utf-8 import urllib2 url ='http://www.baidu.com' #例子 headers = {'User-agent' : 'Mozilla/5.0 Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0'} request = urllib2.Requesturl, headers = headers) response = urllib2.urlopenrequest,timeout=20) if response.getcode)==200: print response.read)
一般请求服务器爬取网页时,我都不加headers的,但是我最近再爬取之前爬取的网页时,就出现了404错误,可是发现了我的爬虫行为。加了headers之后,就又可以正常爬取了。
参考
求助 python爬虫 requests的get出现10054错误 远程主机强迫关闭了一个现有的连接
1、head中有一个user-agent每次都换不同的模拟代理
2、测试最大访问时间短,每秒多少次请求会出现中断,然后sleep(200)毫秒
3、每次请求中断上一次链接,keep-live=false
试试看,
不然就是换IP访问
python 远程主机强迫关闭了一个现有的连接 socket 超时设置 errno 10054