各位老铁们好,相信很多人对二手房网站源码分享都不是特别的了解,因此呢,今天就来为大家分享下关于二手房网站源码分享以及专业做二手房的网站有哪些的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!
私信我或关注猿来如此呀公众号,回复:视频学习,即有机会免费领取30天视频学习资源包
学习爬虫,拿豆瓣电影进行练手,无奈豆瓣电影存在反爬机制,爬完250就会重定向要求我进行登陆操作,所以我这一次只爬取前50进行相关测试,废话不多说,我们来看下源代码:
importrequests\nfrombs4importBeautifulSoup\nimportre\nimportpandas\nheaders={\n’Host’:’movie.douban.com’,\n’Origin’:’movie.douban.com’,\n’User-Agent’:’Mozilla/5.0(Linux;Android6.0;Nexus5Build/MRA58N)AppleWebKit/537.36(KHTML,likeGecko)Chrome/73.0.3683.103MobileSafari/537.36′,\n}\nbase_url=’https://movie.douban.com/top250?start={}&filter=’\nresponse=requests.get(‘https://movie.douban.com/top250?start=0&filter=’,headers=headers)\nifresponse.status_code==200:\n去掉所有换行符,并用正则表达式去匹配每一个页面的具体电影\nurls=re.findall(pattern1,response.text)\ndirectors=[]电影名\nstars=[]电影的出产地\nlanguages=[]<spanproperty=”v:itemreviewed”>肖申克的救赎TheShawshankRedemption</span>\n<ahref=”/celebrity/1054521/”rel=”v:starring”>蒂姆·罗宾斯</a>\ndefbase_urls(base_url):\nurls=[]\nforiinrange(0,275,25):\nprint(true_url)\nforiinrange(0,50,25):\ntrue_url=base_url.format(i)\nprint(true_url)\nresponse=requests.get(true_url,headers=headers)\nifresponse.status_code==200:\n去掉所有换行符,并用正则表达式去匹配每一个页面的具体电影\nurl=re.findall(pattern1,response.text)\n因为只拿前两页做测试,所以range设置到50\nforiinrange(0,50,1):\nres=requests.get(urls[i],headers=headers_urls)\nprint(res)\nifres.status_code==200:\nsoup=BeautifulSoup(res.text,’lxml’)\nprint(names)\nprint(director.text)\nprint(stars)\n<spanclass=”pl”>制片国家/地区:</span>美国<br>\nprint(countrys)\n<spanclass=”pl”>语言:</span>\nlanguage=soup.find(‘span’,text=’语言:’).next_sibling[1:]\nlanguages.append(language)\nprint(directors)\nprint(a)\nif__name__==’__main__’:\nbase=base_urls(base_url)\nprint(base)\nprint(len(base))\nparse_url(base)\nprint(countrys)\nprint(directors)\nprint(languages)\nprint(names)\n最后我们将数据写入到一个excel表格里\ninfo={‘Filmname’:names,’Directors’:directors,’Country’:countrys,’Languages’:languages}\npdfile=pandas.DataFrame(info)\n#pdlook.to_excel(‘链家.xlsx’,sheet_name=”链家二手房广州”)\npdfile.to_excel(‘DoubanFilm.xlsx’,sheet_name=”豆瓣电影”)\n
这次用到的还是requests库,BeautifulSoup解析库,和re进行辅助的正则匹配库,最后老样子利用pandas的DataFrame进行excel的写入。
来源网络,侵权删除
好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!