很多朋友对于php期货网站源码分享和期货系统源代码不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!
前言
好久没有跟大家分享爬虫了,本期准备带大家爬取生意社上面的期货基差数据。
这个网站反爬并不严重,大部分是靠ip访问频率来限制,但封了之后过段时间又能访问了,并没有禁止你本机的ip永久不能访问。
作者本期就爬取郑州商品交易所的PTA,2011年至今的基差数据。下面我们开始吧!需要读者
安装以下包:
Python金融爬虫之生意社期货“基差”数据实战!
爬取数据的第一步是分析所爬取数据的url构造,观察其有什么规律,然后再通过requests库去发送get请求,并通过正则、xpath等等进行数据的提取。
1.设置随机请求头。
如下图所示:
其中:
(1)header[&34;],设置的随机请求头,每次调用都随机抽取不同&34;来进行访问,可以避免网站请求头反爬。
2.根据请求网址结构,构造日期列表。
当我们点击下图中的搜索按钮后,网址栏的url上面就出现了搜索的具体日期,所以作者可以根据url特征构造日期加上,就可以请求任意日期的基差网页。
如下图所示:
如下图所示:
run:
构造后的url。
如下图示:
3.爬取数据。
这里需要配置微信群机器人,复制其地址放到webhook_url变量中,才能过爬取结果发送到群里。
启动爬虫:
run:
(1)基差数据推送。
(2)抓取的数据。
最后
如果你还想了解更多这方面的信息,记得收藏关注本站。