今天给各位分享个人影视网站源码分享手动采集的知识,其中也会对影视网站采集接口进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
第一步:先进行分析
打开网址:
https://movie.douban.com/top250?start=0&filter=
鼠标右键点击检查:
我们要获取的数据是:
要获取的就是排名,缩略图,电影名称,外加一个评分
打开Pycharm的ide新建一个文件:
导入用到库名称
requests是用来网站请求,pyquery用来作为选择器。
请求网址源码:
url=”https://movie.douban.com/top250?start=0&filter=”\nhtml=requests.get(url).text
requests获取到一个页面的源代码,然后需要用pq进行选择器选择pq(html)(‘.item’).items(),进行迭代,
foriteminpq(html)(‘.item’).items():\nprint(item)
再次对item选择出titlenumstarimg
最后一步,现在是请求的一个页面,咱们要请求的所有的页面:
关于个人影视网站源码分享手动采集的内容到此结束,希望对大家有所帮助。